Разработчики OpenAI: «Симуляция всего мира приведет к сильному ИИ»

На мероприятии в AGI House разработчики из OpenAI Тим и Билл представили детальный разбор своей новой нейросети для генерации видео Sora. Создатели рассказали об архитектурных особенностях модели, обучении на пространственно-временных патчах и объяснили, почему физическая симуляция видео является критически важным шагом на пути к созданию сильного искусственного интеллекта (AGI). В ходе демонстрации были показаны как прорывные возможности ИИ в удержании персистентности объектов, так и текущие фундаментальные ошибки в симуляции базовых законов физики.

🎥 Революция в генерации видео: от четырехсекундных GIF к полноценному кино 0:17

Разработчики из OpenAI Тим и Билл начали свое выступление на площадке AGI House с демонстрации возможностей Sora. По словам Билла, главной целью проекта с самых ранних этапов было преодоление «тупика четырехсекундных видео», в котором индустрия генеративного ИИ находилась долгое время. Команда стремилась создать модель, способную выдавать минутные ролики в разрешении 1080p с высокой степенью сложности отражений, теней и геометрической согласованности.

Одной из ключевых вех, достигнутых в Sora, создатели считают способность к постоянству объектов (object permanence). В качестве примера Тим продемонстрировал видео с идущей по улице Токио женщиной: когда она проходит мимо синей вывески, вывеска полностью перекрывается ее телом, но затем снова появляется в кадре без изменений, что раньше являлось критической проблемой для генеративных сетей.

Кроме реалистичных сцен, Sora способна работать в самых разных стилях, например, воссоздавать детализированный мир из бумаги (paper craft) или анимировать персонажей, добавляя им художественный шарм.

🛠️ Технология под капотом: пространственно-временные патчи как универсальные токены 7:45

Объясняя техническое устройство Sora, Тим провел аналогию со стандартными языковыми моделями (LLM). Успех текстовых ИИ, по мнению разработчиков, обусловлен принципом «горького урока» (The Bitter Lesson): в долгосрочной перспективе всегда побеждают простые методы, которые масштабируются вместе с ростом вычислительной мощности. Текстовые ИИ переводят код, математику и прозу в единый формат токенов. Команда OpenAI сделала то же самое с визуальными данными.

Вместо текстовых токенов Sora использует «пространственно-временные патчи» (SpaceTime patches). Процесс устроен следующим образом:

Любое входящее видео или изображение (независимо от разрешения, соотношения сторон или длины) разбивается на мелкие трехмерные кубы пикселей в пространстве и времени.
Эти кубы складываются в объемы, выступающие полным эквивалентом текстовых токенов.
На полученном массиве патчей обучаются масштабируемые архитектуры трансформеров (Transformers).

Тим подчеркнул, что обучение модели на данных в их нативном разрешении и формате позволило Sora гибко генерировать видео с разным соотношением сторон — от вертикальных роликов для смартфонов до широких горизонтальных форматов. При этом Sora является диффузионным трансформером: она не предсказывает токены авторегрессионно, как текстовые модели, а пошагово очищает видео от случайного шума (denoising) в рамках единого пространства патчей.

🪄 Умный монтаж, интерполяция и генерация по изображениям 10:34

Модель обладает zero-shot возможностями трансформации видео (video-to-video) с помощью метода SDEdit. Разработчики продемонстрировали, как ИИ меняет стиль исходного видео: преобразует его в пиксель-арт, переносит действие в космос или задает средневековую тематику. Тим обратил внимание на интеллект модели: в средневековом сценарии Sora не просто наложила текстуры, а заменила современный автомобиль на лошадиную повозку, сохранив общую траекторию движения и прохождение через туннель.

Другой важной способностью стала плавная интерполяция между двумя абсолютно разными видео. В одном из примеров Sora бесшовно соединила кадры летящего дрона и подводной бабочки, заставив Колизей на заднем плане реалистично разрушаться в процессе перехода. В другом случае ландшафт Средиземноморья превратился в пряничный домик, причем геометрия 3D-пространства соблюдалась безупречно — новый объект плавно появлялся из-за реального здания, соблюдая законы окклюзии.

Sora также умеет продлевать готовые видеоролики вперед и назад во времени, а также анимировать статичные изображения, например, созданные с помощью DALL-E 3.

🚀 Путь к AGI через тотальную симуляцию физического мира 14:40

В то время как индустрия ставит на текстовые модели в вопросе достижения сильного искусственного интеллекта (AGI), Билл выразил твердое убеждение, что именно видеомодели находятся на критическом пути к этой цели. По мнению Билла, единственный способ для нейросети сгенерировать по-настоящему реалистичное длинное видео с последовательными действиями — это выстроить глубокую внутреннюю модель того, как функционируют объекты, люди и окружающая среда. Масштабирование видеомоделей неизбежно заставит их моделировать то, как думают люди, чтобы предсказывать их социальные взаимодействия.

В подтверждение тезиса о масштабировании (scaling law) Билл показал сравнение трех версий Sora, отличающихся только объемом затраченных вычислений (compute):

Базовая вычислительная мощность (Base compute): модель выдает абстрактные пятна, имеет лишь смутное представление о движении камеры и не способна нормально сформировать образ собаки.
Четырехкратное увеличение мощности (4x compute): ИИ четко понимает форму животных, может надеть на собаку головной убор и прорисовать человека на фоне.
32-кратное увеличение мощности (32x base): появляются сложнейшие микротекстуры шерсти, реалистичная биомеханика движения лап собаки по снегу и корректное физическое взаимодействие рук женщины с полями шляпы.

По мнению создателей, точно так же, как в LLM возникают эмерджентные (внезапно проявляющиеся) способности при росте параметров, они будут проявляться и в видеосимуляторах.

🏔️ Обход человеческих ограничений и неявное понимание 3D 17:53

Билл затронул давний академический спор о необходимости закладывать в генеративные модели так называемые индуктивные смещения (inductive biases) — жестко закодированные математические правила человеческого понимания физики и трехмерного пространства. Разработчики Sora сознательно отказались от этого подхода, выбрав максимально простую, чистую и масштабируемую архитектуру. Как утверждает Билл, эксперимент удался: если дать модели достаточно вычислительной мощности и данных, она самостоятельно выведет законы 3D-геометрии без подсказок со стороны программистов.

В качестве доказательства были продемонстрированы сложные аэросъемки вымышленных локаций (например, заснеженного Токио, деревни на острове Санторини или туристов у водопада в Йосемити), где ИИ безупречно удерживал перспективу и параллакс при движении виртуальной камеры. Модель неявно (implicitly) выстраивает геометрию сцены, траектории агентов и физику движений. К примеру, на видео из Бурано (Италия) собака спотыкается при попытке заглянуть в окно, но физически корректно восстанавливает равновесие.

⚠️ Текущие слабости и фатальные ошибки симуляции 19:40

Несмотря на успехи, авторы признают, что Sora находится на этапе, аналогичном версии "GPT-1 для видео", и обладает массой недостатков. Одним из самых слабых мест ИИ на текущий момент является симуляция действий, которые безвозвратно меняют состояние окружающего мира. Модель справляется с этим далеко не в 100% случаев, хотя точечные успехи есть: например, появление мазков краски на холсте художника или остающийся след от укуса на съедаемом чизбургере.

Тем не менее, Sora регулярно совершает грубые физические ошибки. Билл и Тим перечислили основные проблемные сценарии:

Эффект «деления объектов» (sharing objects): когда два предмета или существа могут спонтанно сливаться или проходить сквозь друг друга вопреки законам твердых тел.
Разрушение материалов: если отправить модели промпт с падающим и разбивающимся стаканом, Sora ошибется практически в каждом случае, не сумев смоделировать появление осколков.
Динамика столкновений: ИИ пока не способен корректно симулировать аварию и деформацию сталкивающихся автомобилей, поскольку, по шутливому замечанию Билла, модель все еще не освоила три закона Ньютона.

🎮 Симуляция цифровых миров и перспективы интерактива 20:59

Концепция авторов OpenAI заключается в том, что ИИ-симулятор не должен ограничиваться рамками физики нашей планеты. Любая операционная система, игра или цифровая среда имеют свои собственные наборы правил. В качестве эксперимента команда обучила Sora на геймплее игры Minecraft, задав текстовый запрос на генерацию мира с самым роскошным текстур-паком в разрешении 8K.

В итоге Sora смогла не просто отрендерить визуал, но и симулировать внутреннюю логику игры: она управляла персонажем в соответствии с осмысленной игровой политикой (policy) и корректно обрабатывала динамику блоков и объектов сцены. По словам Билла, конечная цель — создать единую модель, способную инкапсулировать знания обо всех возможных мирах, из-за чего внутри команды даже шутят о будущем запуске ChatGPT внутри видеомодели.

Отвечая на вопросы аудитории о возможности сделать видео интерактивными в реальном времени (например, для VR-шлемов, где пользователь мог бы останавливать кадр и менять окружение), Билл пояснил, что текущая задержка (latency) слишком высока. Генерация минутного ролика в высоком разрешении занимает у Sora как минимум несколько минут, поэтому до полноценного интерактива технологии предстоит пройти долгий путь оптимизации.

👥 Работа с сообществом, безопасность и дезинформация 4:53

Разработчики акцентировали внимание на том, что Sora на данный момент остается сугубо исследовательским проектом (research), а не готовым коммерческим продуктом. Она не интегрирована в ChatGPT и недоступна широкой публике. OpenAI сознательно предоставила ранний доступ лишь ограниченному пулу художников, режиссеров и специалистов по кибербезопасности (редтимеров).

Тим выделил два ключевых направления внешней работы:

Сбор фидбека от креаторов: артистам критически важен глубокий контроль над генерацией. Как показала практика, они требуют инструментов точного управления движением камеры, а также возможности тонкой настройки (fine-tuning) для сохранения сквозных персонажей или конкретной интеллектуальной собственности (IP) между разными дублями.
Тестирование безопасности (red-teaming): перед массовым релизом OpenAI стремится минимизировать риски использования Sora для создания дипфейков, скоординированных кампаний по дезинформациям и распространения вредоносного контента.

В завершение сессии вопросов создатели прокомментировали проблему нехватки обучающих данных в интернете для обучения AGI. Тим выразил уверенность, что доступных в сети объемов видео и текстов вполне достаточно для достижения сильного ИИ, а возникающие лимиты человечество всегда преодолеет за счет изобретения новых креативных алгоритмических подходов.