Как стартап Physical Intelligence создает универсальную модель для любых роботов

Y Combinator 93,4 тыс. 44 мин 9 мин 22.07.2025
Главное

Искусственный интеллект стремительно осваивает физический мир, однако до недавнего времени автоматизация требовала создания отдельного хардверного и софтверного стека под каждую узкую прикладную задачу. Челси Финн, соосновательница стартапа Physical Intelligence и известный профессор робототехники, в своем выступлении для Y Combinator представила радикально иной подход — создание универсальной базовой модели, способной управлять любым роботом в любой среде. На примере реальных кейсов, от автономного складывания белья до работы в незнакомых домах Airbnb, она показала, как принципы больших языковых моделей переносят интеллект из цифрового пространства в реальное.

🤖 Кризис узкой специализации: почему робототехника буксовала годами 0:00

Исторически сложилось так, что для успешного решения любой прикладной задачи в робототехнике предпринимателям приходилось строить целую компанию вокруг одного конкретного кейса. Нужен робот для логистического склада, автоматизации мокрых лабораторий, ресторанной кухни или хирургических операций — каждый раз приходится создавать уникальное железо, писать кастомный софт и с нуля разрабатывать примитивы движений. По мнению Челси Финн, именно эта необходимость начинать всё заново привела к тому, что многие робототехнические стартапы прошлых лет так и не смогли успешно закрепиться в нашей повседневной жизни.

Чтобы преодолеть этот кризис, стартап Physical Intelligence пошел по пути создания универсальной модели общего назначения (general purpose model). Исследователи проводят аналогию с индустрией ИИ: сегодня никто не создает ИИ-ассистента для программирования исключительно на коде — его строят на базе огромных текстовых моделей, обученных на терабайтах разнородных данных.

Однако простое масштабирование данных, ставшее священным граалем для больших языковых моделей, сталкивается в физическом мире со специфическими барьерами. По словам Челси Финн, традиционные источники данных имеют фундаментальные изъяны:

Исследовательница приходит к выводу, что масштаб данных критически необходим для генерализации ИИ в открытом мире, но сам по себе он недостаточен для решения проблемы физического интеллекта.

🧺 Сложить белье за 9 минут: анатомия одного технологического прорыва 4:32

Самым впечатляющим достижением Physical Intelligence на сегодняшний день Челси Финн называет обучение базовой модели Pi0 (pi zero) задаче по разгрузке сушильной машины и складыванию чистого белья. Это невероятно сложная проблема для робота из-за бесконечной вариативности форм, текстур и положений смятой одежды. Процесс занимает у машины около 10 минут, и на каждом этапе высок риск катастрофической ошибки — например, если вещь упадет на пол, восстановить траекторию крайне трудно.

Разработка велась итеративно командой инженеров, включая Майкла и Сираджа. Путь от полной беспомощности железа до стабильного результата состоял из нескольких стадий:

  1. Старт с простейшего: инженеры начали с обучения робота складыванию одной конкретной футболки определенного бренда и размера, лежащей ровно на столе. Данные собирались вручную через телеуправление (teleoperation). Модель на 100 миллионов параметров управляла суставами роборуки на частоте 50 Гц. Этот этап занял пару месяцев с момента основания компании в середине марта 2024 года.
  2. Мятые вещи и кризис нулевой эффективности: как только футболку перед роботом начали класть в скомканном виде, система сломалась. Робот совершал хаотичные, хотя внешне осмысленные движения, но успешность тестов упала до 0%. Первые «признаки жизни» появились лишь в конце июня, но робот действовал так медленно, что видео приходилось ускорять в 8 раз для комфортного просмотра.
  3. Смена парадигмы данных: команда столкнулась с очередной стеной, когда усложнила задачу, поместив одежду разных размеров и шорты в бельевую корзину — тесты снова показали 0% успеха. Инженеры перепробовали всё: добавление памяти, увеличение времени обучения, управление в пространстве энд-эффектора вместо суставов, калибровку камер и иерархические подзадачи. Спустя 2–3 месяца непрерывных неудач произошел прорыв.

По словам Челси Финн, ключом к успеху стала стратегия, заимствованная из мира языковых моделей: сквозное предобучение на всем массиве данных с последующей тонкой настройкой (fine-tuning) на тщательно отобранном, высококачественном и консистентном наборе демонстраций. В сентябре 2024 года робот впервые смог сложить 5 вещей подряд и уложить их в аккуратную стопку. Правда, процесс занимал 20 минут и сопровождался курьезами: иногда робот случайно сталкивал всю стопку со стола, но продолжал двигаться по алгоритму как ни в чем не бывало.

После оптимизации курации данных время сократилось до 12 минут. Финальным шагом стало внедрение открытой мультимодальной модели Polygemma на 3 миллиарда параметров. Она принимает на вход изображения с камер и текстовую команду, а специальная диффузионная голова (flow matching variant) предсказывает пакет из 50 последующих действий на 1 секунду вперед.

Использование Polygemma, предобученной на всех корпоративных робо-данных, позволило сократить время складывания 5 вещей до 9 минут и дало потрясающую генерализацию. Робот научился работать с незнакомыми шортами, футболками с V-образным вырезом и пуговицами. Более того, нейросетевая природа модели сделала её устойчивой к интервенциям: когда инженер Майкл намеренно мешал роботу, разворачивал ткань и вырывал вещи, машина мгновенно адаптировалась и продолжала работу. Данный метод оказался универсальным: без изменения кода его применили для уборки стола, сборки картонных коробок и зажигания свечи спичкой.

🏠 Эффект Airbnb: как научить робота побеждать в незнакомых локациях 17:31

Главное ограничение большинства современных роботов заключается в том, что они тестируются в тех же лабораториях, где их обучали. Чтобы заставить искусственный интеллект работать в реальном мире, Physical Intelligence развернула масштабную кампанию по сбору данных. Инженеры собирали эпизоды уборки спален и кухонь в реальных домах Сан-Франциско и на специализированных макетах — суммарно в датасет вошло более 100 уникальных комнат.

Любопытно, что данные мобильных манипуляций (передвижение + действие) составили всего 2,4% от общего объема обучающей смеси. Остальное занимали статические лабораторные данные, текстовые инструкции и веб-страницы. Как отмечает Финн, это доказывает силу базовых моделей: можно запустить абсолютно нового робота, не собирая терабайты данных с нуля, а опираясь на фундамент прошлых достижений.

В процессе обучения команда столкнулась с тем, что робот нагло игнорировал языковые команды (например, упорно брал тарелку вместо разделочной доски). Проблема крылась в архитектуре: случайно инициализированная диффузионная голова «стирала» предобученные лингвистические знания большой модели. Инженеры изменили подход: они токенизировали действия и заблокировали прохождение градиента (stop gradient) от диффузионной головы к бэкбону VLM. В результате точность следования командам взлетела с 20% до 80%.

Для проверки финальной модели команда провела «стресс-тест»: арендовала три совершенно незнакомых дома через сервис Airbnb. Робот, впервые оказавшись в этих интерьерах, успешно закрывал незнакомые шкафы, расставлял чужую посуду, вытирал пролитую жидкость губкой и убирал постель, раскладывая подушки и одеяла.

Статистический анализ подтвердил правоту исследователей:

Тем не менее, до идеала еще далеко. Среди забавных фейлов, зафиксированных при уровне успеха в 80%, Челси Финн выделила случаи, когда робот застревал, наехав колесом на футболку, или путал духовой шкаф с выдвижным ящиком, пытаясь спрятать туда кухонную лопатку.

🥪 «Сделай мне веганский сэндвич»: генерация промтов и работа с интервенциями 25:31

Пользователи хотят общаться с роботами на естественном языке, задавая абстрактные и кастомные команды. Для реализации этого Physical Intelligence использует иерархическую структуру Vision-Language-Action (VLA) моделей. Высокоуровневая модель разбивает сложный запрос (например, «приготовь сэндвич») на цепочку текстовых подзадач («возьми хлеб», «положи сыр»), а низкоуровневая модель переводит эти команды в конкретные углы поворота суставов манипулятора.

Главная сложность заключалась в нехватке реальных человеческих диалогов с роботом во время работы. Проблему решили изящно: инженеры применили сторонние LLM для автоматической генерации синтетических промтов к уже имеющимся видеозаписям действий робота. Нейросеть смотрела на запись, где робот берет батончик KitKat, и генерировала гипотетический запрос человека, который мог бы привести к этой сцене.

Благодаря такой аугментации данных роботы научились понимать сложные контексты:

Самым прорывным свойством иерархической модели стала обработка динамических интервенций (interjections). Когда робот положил KitKat в корзину, пользователь на ходу скорректировал задачу: «Дай мне что-то сладкое, но чего еще нет в корзине». Робот мгновенно перестроился, ответил: «Хорошо, давай я возьму Skittles», и потянулся за другой пачкой.

Челси Финн подчеркивает, что попытки использовать популярные коммерческие «фронтирные» модели в качестве высокоуровневых планировщиков для роботов пока показывают слабые результаты. Они фатально уступают специализированной системе Physical Intelligence, поскольку базовые мультимодальные модели создавались для цифрового мира и практически лишены глубокого визуального понимания физических законов и ограничений реального мира.

💬 Сессия вопросов и ответов: от фандрейзинга до будущего RL 31:27

Выступление Челси Финн вызвало живой интерес у аудитории Y Combinator. В ходе Q&A-сессии были подняты ключевые технологические и бизнес-вопросы развития индустрии.

О качественных данных и роли обучения с подкреплением (RL): Ключевыми компонентами высококачественных данных для пост-обучения Финн называет строгую консистентность, эффективность траекторий и надежность выбранной стратегии. В будущем огромную роль в пост-обучении призвано сыграть обучение с подкреплением (RL). Онлайн-сбор данных, когда робот учится на собственных ошибках и успехах в режиме реального времени, позволит кратно поднять успех и скорость систем по сравнению с классическим обучением по человеческим демонстрациям (imitation learning).

О трудностях фандрейзинга для «домашних» роботов: Один из слушателей выразил сомнение в том, что инвесторов легко убедить вкладывать миллионы в робота, который всего лишь моет посуду и складывает носки. Челси Финн пояснила, что Physical Intelligence не ограничивается бытовыми задачами: их модели уже успешно справляются с промышленной сборкой коробок и подключением Ethernet-кабелей. По ее мнению, сейчас на рынке наблюдается колоссальный бум и приток венчурного капитала в робототехнику. Десять лет назад, когда Финн только начинала карьеру, технологии попросту не работали, но сегодня они созрели для коммерциализации в реальном мире, что и привлекает инвесторов.

О связи VLA-моделей с моделированием мира (World Modeling): Интеграция моделей мира в парадигму VLA перспективна — например, через предсказание промежуточных изображений (субцелей) перед выполнением действия. Однако Челси Финн указывает на серьезную техническую проблему: модели мира склонны к галлюцинациям. Если скормить им неоптимальное или ошибочное действие, они все равно могут дорисовать на видео успешный исход, искажая реальность для планировщика.

Об инфраструктурных вызовах и размерах моделей: Для успешной работы робота критически важна инфраструктура реального времени (fast inference), способная без лагов выдавать команды на нужной частоте. Относительно идеи уменьшения моделей и выноса знаний во внешние базы данных (retrieval-based системы), исследовательница выразила скепсис. По ее опыту, такие гибридные системы сложны в настройке: модель часто игнорирует извлеченную информацию и пытается генерировать действия сама. Базовый «интеллект» модели все равно должен быть достаточно большим, чтобы эффективно использовать внешние знания.

Синтетические данные против реальности: По прогнозам Челси Финн, в робототехнике симуляция и синтетические данные никогда полностью не заменят реальный физический опыт. Главная польза симуляций — это дешевая оценка (evaluation) моделей в десятках различных сред без необходимости физически перевозить туда робота. Истинным аналогом синтетических данных из мира языковых моделей для роботов станет именно онлайн-RL, где модель непрерывно генерирует новые данные из своих же попыток выполнить задачу.

Академия против стартапов: Университетские лаборатории уступают индустрии по вычислительным мощностям и пропускной способности сбора данных. Однако у этого есть и обратная сторона: ограниченность в ресурсах заставляет академических ученых думать глубже, рождая прорывные алгоритмические решения. Стартапы с избыточным compute-бюджетом зачастую тратят ресурсы неэффективно, запуская избыточные и непродуманные циклы обучения. Для токенизации непрерывных действий в текстовые последовательности без потери точности команда Physical Intelligence разработала собственное решение, описанное в их недавней научной публикации «Fast Tokenizer».

💬 Цитаты

«Масштаб данных необходим для генерализации ИИ в открытом мире, но сам по себе он недостаточен для решения проблемы физического интеллекта.»

Челси Финн 03:27

«Мы не учимся писать, просто глядя на чужую руку, и не становимся экспертами тенниса после просмотра Уимблдона.»

Челси Финн 03:01

«Фронтирные модели вообще плохо справляются с визуальным пониманием физического мира, поскольку они практически лишены глубоких данных о нем.»

Челси Финн 29:49
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
VLA-модели (Vision-Language-Action)
Мультимодальные нейросети, принимающие на вход изображения и текст, а на выходе генерирующие физические действия для робота.
Телеуправление (Teleoperation)
Метод сбора данных, при котором человек-оператор вручную управляет манипуляторами робота для демонстрации правильного выполнения задачи.
Диффузионная голова (Diffusion head)
Архитектурный модуль нейросети, отвечающий за генерацию плавных и непрерывных траекторий физических движений робота.
📊 Цифры
🗓 Хронология
  1. середина марта 2024 года Основание компании Physical Intelligence.
  2. конец июня 2024 года Получение первых успешных признаков автономии робота при разглаживании и складывании единичной футболки.
  3. сентябрь 2024 года Робот впервые успешно сложил пять разнородных вещей подряд и уложил их в стопку.
⚖️ Другая сторона
Искусственный интеллект Челси Финн Physical Intelligence Y Combinator VLA-модели