Как стартап Physical Intelligence создает универсальную модель для любых роботов

Искусственный интеллект стремительно осваивает физический мир, однако до недавнего времени автоматизация требовала создания отдельного хардверного и софтверного стека под каждую узкую прикладную задачу. Челси Финн, соосновательница стартапа Physical Intelligence и известный профессор робототехники, в своем выступлении для Y Combinator представила радикально иной подход — создание универсальной базовой модели, способной управлять любым роботом в любой среде. На примере реальных кейсов, от автономного складывания белья до работы в незнакомых домах Airbnb, она показала, как принципы больших языковых моделей переносят интеллект из цифрового пространства в реальное.

🤖 Кризис узкой специализации: почему робототехника буксовала годами 0:00

Исторически сложилось так, что для успешного решения любой прикладной задачи в робототехнике предпринимателям приходилось строить целую компанию вокруг одного конкретного кейса. Нужен робот для логистического склада, автоматизации мокрых лабораторий, ресторанной кухни или хирургических операций — каждый раз приходится создавать уникальное железо, писать кастомный софт и с нуля разрабатывать примитивы движений. По мнению Челси Финн, именно эта необходимость начинать всё заново привела к тому, что многие робототехнические стартапы прошлых лет так и не смогли успешно закрепиться в нашей повседневной жизни.

Чтобы преодолеть этот кризис, стартап Physical Intelligence пошел по пути создания универсальной модели общего назначения (general purpose model). Исследователи проводят аналогию с индустрией ИИ: сегодня никто не создает ИИ-ассистента для программирования исключительно на коде — его строят на базе огромных текстовых моделей, обученных на терабайтах разнородных данных.

Однако простое масштабирование данных, ставшее священным граалем для больших языковых моделей, сталкивается в физическом мире со специфическими барьерами. По словам Челси Финн, традиционные источники данных имеют фундаментальные изъяны:

Промышленная автоматизация: дает колоссальный объем однотипных движений, но робот, приученный циклично переносить одну деталь, окажется бесполезен в зоне стихийного бедствия или при попытке упаковать продукты в пакет.
Видеохостинги (например, YouTube): содержат миллиарды часов демонстраций человеческой деятельности, однако Челси Финн подчеркивает существование огромного разрыва в воплощении (embodiment gap) — мы не учимся писать, просто глядя на чужую руку, и не становимся экспертами тенниса после просмотра Уимблдона.
Симуляции: позволяют генерировать терабайты дешевых данных, но они страдают от нехватки реализма и колоссального отрыва от реальности (reality gap).

Исследовательница приходит к выводу, что масштаб данных критически необходим для генерализации ИИ в открытом мире, но сам по себе он недостаточен для решения проблемы физического интеллекта.

🧺 Сложить белье за 9 минут: анатомия одного технологического прорыва 4:32

Самым впечатляющим достижением Physical Intelligence на сегодняшний день Челси Финн называет обучение базовой модели Pi0 (pi zero) задаче по разгрузке сушильной машины и складыванию чистого белья. Это невероятно сложная проблема для робота из-за бесконечной вариативности форм, текстур и положений смятой одежды. Процесс занимает у машины около 10 минут, и на каждом этапе высок риск катастрофической ошибки — например, если вещь упадет на пол, восстановить траекторию крайне трудно.

Разработка велась итеративно командой инженеров, включая Майкла и Сираджа. Путь от полной беспомощности железа до стабильного результата состоял из нескольких стадий:

Старт с простейшего: инженеры начали с обучения робота складыванию одной конкретной футболки определенного бренда и размера, лежащей ровно на столе. Данные собирались вручную через телеуправление (teleoperation). Модель на 100 миллионов параметров управляла суставами роборуки на частоте 50 Гц. Этот этап занял пару месяцев с момента основания компании в середине марта 2024 года.
Мятые вещи и кризис нулевой эффективности: как только футболку перед роботом начали класть в скомканном виде, система сломалась. Робот совершал хаотичные, хотя внешне осмысленные движения, но успешность тестов упала до 0%. Первые «признаки жизни» появились лишь в конце июня, но робот действовал так медленно, что видео приходилось ускорять в 8 раз для комфортного просмотра.
Смена парадигмы данных: команда столкнулась с очередной стеной, когда усложнила задачу, поместив одежду разных размеров и шорты в бельевую корзину — тесты снова показали 0% успеха. Инженеры перепробовали всё: добавление памяти, увеличение времени обучения, управление в пространстве энд-эффектора вместо суставов, калибровку камер и иерархические подзадачи. Спустя 2–3 месяца непрерывных неудач произошел прорыв.

По словам Челси Финн, ключом к успеху стала стратегия, заимствованная из мира языковых моделей: сквозное предобучение на всем массиве данных с последующей тонкой настройкой (fine-tuning) на тщательно отобранном, высококачественном и консистентном наборе демонстраций. В сентябре 2024 года робот впервые смог сложить 5 вещей подряд и уложить их в аккуратную стопку. Правда, процесс занимал 20 минут и сопровождался курьезами: иногда робот случайно сталкивал всю стопку со стола, но продолжал двигаться по алгоритму как ни в чем не бывало.

После оптимизации курации данных время сократилось до 12 минут. Финальным шагом стало внедрение открытой мультимодальной модели Polygemma на 3 миллиарда параметров. Она принимает на вход изображения с камер и текстовую команду, а специальная диффузионная голова (flow matching variant) предсказывает пакет из 50 последующих действий на 1 секунду вперед.

Использование Polygemma, предобученной на всех корпоративных робо-данных, позволило сократить время складывания 5 вещей до 9 минут и дало потрясающую генерализацию. Робот научился работать с незнакомыми шортами, футболками с V-образным вырезом и пуговицами. Более того, нейросетевая природа модели сделала её устойчивой к интервенциям: когда инженер Майкл намеренно мешал роботу, разворачивал ткань и вырывал вещи, машина мгновенно адаптировалась и продолжала работу. Данный метод оказался универсальным: без изменения кода его применили для уборки стола, сборки картонных коробок и зажигания свечи спичкой.

🏠 Эффект Airbnb: как научить робота побеждать в незнакомых локациях 17:31

Главное ограничение большинства современных роботов заключается в том, что они тестируются в тех же лабораториях, где их обучали. Чтобы заставить искусственный интеллект работать в реальном мире, Physical Intelligence развернула масштабную кампанию по сбору данных. Инженеры собирали эпизоды уборки спален и кухонь в реальных домах Сан-Франциско и на специализированных макетах — суммарно в датасет вошло более 100 уникальных комнат.

Любопытно, что данные мобильных манипуляций (передвижение + действие) составили всего 2,4% от общего объема обучающей смеси. Остальное занимали статические лабораторные данные, текстовые инструкции и веб-страницы. Как отмечает Финн, это доказывает силу базовых моделей: можно запустить абсолютно нового робота, не собирая терабайты данных с нуля, а опираясь на фундамент прошлых достижений.

В процессе обучения команда столкнулась с тем, что робот нагло игнорировал языковые команды (например, упорно брал тарелку вместо разделочной доски). Проблема крылась в архитектуре: случайно инициализированная диффузионная голова «стирала» предобученные лингвистические знания большой модели. Инженеры изменили подход: они токенизировали действия и заблокировали прохождение градиента (stop gradient) от диффузионной головы к бэкбону VLM. В результате точность следования командам взлетела с 20% до 80%.

Для проверки финальной модели команда провела «стресс-тест»: арендовала три совершенно незнакомых дома через сервис Airbnb. Робот, впервые оказавшись в этих интерьерах, успешно закрывал незнакомые шкафы, расставлял чужую посуду, вытирал пролитую жидкость губкой и убирал постель, раскладывая подушки и одеяла.

Статистический анализ подтвердил правоту исследователей:

Исключение статических лабораторных данных из обучения снижало эффективность робота в новых домах Airbnb ниже 60%.
Увеличение разнообразия локаций в обучающей выборке полностью закрывает «гэп генерализации», выводя точность на тот же уровень, как если бы робота обучали непосредственно в целевом доме.

Тем не менее, до идеала еще далеко. Среди забавных фейлов, зафиксированных при уровне успеха в 80%, Челси Финн выделила случаи, когда робот застревал, наехав колесом на футболку, или путал духовой шкаф с выдвижным ящиком, пытаясь спрятать туда кухонную лопатку.

🥪 «Сделай мне веганский сэндвич»: генерация промтов и работа с интервенциями 25:31

Пользователи хотят общаться с роботами на естественном языке, задавая абстрактные и кастомные команды. Для реализации этого Physical Intelligence использует иерархическую структуру Vision-Language-Action (VLA) моделей. Высокоуровневая модель разбивает сложный запрос (например, «приготовь сэндвич») на цепочку текстовых подзадач («возьми хлеб», «положи сыр»), а низкоуровневая модель переводит эти команды в конкретные углы поворота суставов манипулятора.

Главная сложность заключалась в нехватке реальных человеческих диалогов с роботом во время работы. Проблему решили изящно: инженеры применили сторонние LLM для автоматической генерации синтетических промтов к уже имеющимся видеозаписям действий робота. Нейросеть смотрела на запись, где робот берет батончик KitKat, и генерировала гипотетический запрос человека, который мог бы привести к этой сцене.

Благодаря такой аугментации данных роботы научились понимать сложные контексты:

Запрос на ветчину и сыр: робот последовательно комментирует свои действия и собирает классический бутерброд.
Запрос на веганский сэндвич без пикулей: машина демонстрирует понимание концепта «веганский», выбирая только салат и томаты, и осознанно игнорирует как мясо с сыром, так и запрещенные соленые огурцы.
Частичная уборка: по команде «убери только мусор, но не трогай посуду» робот безошибочно очищает стол от оберток, оставляя тарелки на месте.

Самым прорывным свойством иерархической модели стала обработка динамических интервенций (interjections). Когда робот положил KitKat в корзину, пользователь на ходу скорректировал задачу: «Дай мне что-то сладкое, но чего еще нет в корзине». Робот мгновенно перестроился, ответил: «Хорошо, давай я возьму Skittles», и потянулся за другой пачкой.

Челси Финн подчеркивает, что попытки использовать популярные коммерческие «фронтирные» модели в качестве высокоуровневых планировщиков для роботов пока показывают слабые результаты. Они фатально уступают специализированной системе Physical Intelligence, поскольку базовые мультимодальные модели создавались для цифрового мира и практически лишены глубокого визуального понимания физических законов и ограничений реального мира.

💬 Сессия вопросов и ответов: от фандрейзинга до будущего RL 31:27

Выступление Челси Финн вызвало живой интерес у аудитории Y Combinator. В ходе Q&A-сессии были подняты ключевые технологические и бизнес-вопросы развития индустрии.

О качественных данных и роли обучения с подкреплением (RL): Ключевыми компонентами высококачественных данных для пост-обучения Финн называет строгую консистентность, эффективность траекторий и надежность выбранной стратегии. В будущем огромную роль в пост-обучении призвано сыграть обучение с подкреплением (RL). Онлайн-сбор данных, когда робот учится на собственных ошибках и успехах в режиме реального времени, позволит кратно поднять успех и скорость систем по сравнению с классическим обучением по человеческим демонстрациям (imitation learning).

О трудностях фандрейзинга для «домашних» роботов: Один из слушателей выразил сомнение в том, что инвесторов легко убедить вкладывать миллионы в робота, который всего лишь моет посуду и складывает носки. Челси Финн пояснила, что Physical Intelligence не ограничивается бытовыми задачами: их модели уже успешно справляются с промышленной сборкой коробок и подключением Ethernet-кабелей. По ее мнению, сейчас на рынке наблюдается колоссальный бум и приток венчурного капитала в робототехнику. Десять лет назад, когда Финн только начинала карьеру, технологии попросту не работали, но сегодня они созрели для коммерциализации в реальном мире, что и привлекает инвесторов.

О связи VLA-моделей с моделированием мира (World Modeling): Интеграция моделей мира в парадигму VLA перспективна — например, через предсказание промежуточных изображений (субцелей) перед выполнением действия. Однако Челси Финн указывает на серьезную техническую проблему: модели мира склонны к галлюцинациям. Если скормить им неоптимальное или ошибочное действие, они все равно могут дорисовать на видео успешный исход, искажая реальность для планировщика.

Об инфраструктурных вызовах и размерах моделей: Для успешной работы робота критически важна инфраструктура реального времени (fast inference), способная без лагов выдавать команды на нужной частоте. Относительно идеи уменьшения моделей и выноса знаний во внешние базы данных (retrieval-based системы), исследовательница выразила скепсис. По ее опыту, такие гибридные системы сложны в настройке: модель часто игнорирует извлеченную информацию и пытается генерировать действия сама. Базовый «интеллект» модели все равно должен быть достаточно большим, чтобы эффективно использовать внешние знания.

Синтетические данные против реальности: По прогнозам Челси Финн, в робототехнике симуляция и синтетические данные никогда полностью не заменят реальный физический опыт. Главная польза симуляций — это дешевая оценка (evaluation) моделей в десятках различных сред без необходимости физически перевозить туда робота. Истинным аналогом синтетических данных из мира языковых моделей для роботов станет именно онлайн-RL, где модель непрерывно генерирует новые данные из своих же попыток выполнить задачу.

Академия против стартапов: Университетские лаборатории уступают индустрии по вычислительным мощностям и пропускной способности сбора данных. Однако у этого есть и обратная сторона: ограниченность в ресурсах заставляет академических ученых думать глубже, рождая прорывные алгоритмические решения. Стартапы с избыточным compute-бюджетом зачастую тратят ресурсы неэффективно, запуская избыточные и непродуманные циклы обучения. Для токенизации непрерывных действий в текстовые последовательности без потери точности команда Physical Intelligence разработала собственное решение, описанное в их недавней научной публикации «Fast Tokenizer».