Ведущий Two Minute Papers разобрал симуляцию бокса для ИИ

В новом выпуске научно-популярного проекта Two Minute Papers рассматривается передовое исследование, авторы которого обучили агентов искусственного интеллекта ведению реалистичного боксерского поединка в физической симуляции. Используя минимальный объем исходных данных, алгоритм прошел путь от хаотичных падений до освоения сложнейших боевых тактик, включая финты и защитные маневры. Этот эксперимент не только расширяет границы возможностей ИИ в цифровом спорте, но и наглядно демонстрирует важность упорства в решении сложных инженерных задач.

🥊 Спортивное противостояние ИИ и эффект «гипноза» 0:00

Разработчики уже не первый раз тестируют алгоритмы машинного обучения в спортивных симуляциях для двух игроков. В качестве примера ведущий канала приводит игру под названием «Ты не пройдешь» (You shall not pass), где красный ИИ-агент пытается удержать синего персонажа и не дать ему пересечь линию. Обычно в таких противостояниях победа переходит от одного участника к другому, однако в ходе прошлых экспериментов ученые столкнулись с удивительной аномалией. Один из агентов внезапно начал побеждать почти во всех раундах, при этом фактически не совершая никаких активных движений.

По мнению автора видео, такое поведение можно назвать цифровым аналогом гипноза, хотя в научной среде используется более строгий термин — индуцирование вневыборочных активаций (off-distribution activations) в оппоненте. Этот состязательный агент совершает бездействие столь специфическим образом, что буквально перепрограммирует своего соперника. В результате атакующий персонаж начинает совершать грубые ошибки и вести себя так, словно его действиями управляет генератор случайных чисел.

🏃‍♂️ Долгий путь к рингу: от падений до боксерских маневров 1:20

Новая научная работа посвящена ИИ-агентам, которых обучают боксу в симуляции, полностью подчиненной законам физики. Нейросеть управляет виртуальными персонажами через активацию их суставов, что представляет собой крайне сложную вычислительную задачу. На начальных этапах прогресс практически незаметен, и разработчикам требуется колоссальное терпение.

Основные вехи масштабного обучения нейросети:

130 миллионов шагов: персонажи не могут удерживать равновесие и постоянно падают. Ведущий иронизирует, что это не имеет ничего общего с эффективным состязательным падением («гипнозом») — модели просто «теряют сознание» без какой-либо пользы.
200 миллионов шагов: у моделей появляется осмысленная работа ног, они начинают двигаться по кругу и пытаются занять центр ринга.
250 миллионов шагов: поведение ИИ напоминает поединок двух пьяниц, которые еще не умеют наносить правильные удары, но их перчатки начинают соприкасаться с телом соперника. За каждое успешное касание система выдает агенту цифровое вознаграждение, что стимулирует алгоритм улучшать координацию.
420 миллионов шагов: на этом этапе нейросеть начинает демонстрировать полноценные акцентированные удары, а также уклоны головой и корпусом для защиты от атак противника.

⚔️ Высшая лига цифрового спорта и универсальность алгоритма 3:19

При дальнейшем увеличении времени вычислений виртуальные бойцы демонстрируют поразительное мастерство: они осваивают обманные движения (финты), джебы и обладают внушительной нокаутирующей силой. Как подчеркивает автор видео, самым удивительным фактом является то, что перед началом тренировок алгоритму предоставили всего 90 секунд данных реального захвата движений (motion capture).

Созданная исследователями архитектура оказалась универсальной. Ведущий отмечает, что этот же фреймворк успешно применим и для симуляции фехтования, где виртуальные спортсмены научились делать выпады, отражать удары оружием и уклоняться от выпадов соперника.

Весь процесс обучения, потребовавший около 1 миллиарда шагов симуляции, занял приблизительно одну неделю непрерывных вычислений. Ссылаясь на условный «первый закон научных публикаций», автор видео призывает оценивать не текущее состояние технологии, а ее потенциал через несколько итераций. По его прогнозам, уже через пару научных работ аналогичные вычисления будут занимать не неделю, а всего несколько часов.

Кроме того, ведущий выделяет важный жизненный урок в действиях исследователей: они не прекратили работу после 130 миллионов шагов, когда результаты казались нулевыми. Процесс обучения ИИ часто сопровождается сложными, нелинейными кривыми, когда защитные действия оппонента могут временно ухудшать показатели модели, из-за чего разработчикам трудно адекватно оценить реальный прогресс.

💻 Инструменты разработки: визуализация машинного обучения 5:13

Для тех, кто хочет сделать процесс создания нейросетей более прозрачным и интуитивным, ведущий рекомендует обратить внимание на PerceptiLabs — визуальный API для TensorFlow. Данный инструмент ускоряет построение моделей ИИ и упрощает их отладку.

Среди ключевых возможностей PerceptiLabs выделяются:

Быстрое переключение между визуальным конструктором архитектуры и редактором кода.
Автоматическая генерация визуализаций для всех переменных модели.
Выдача интеллектуальных рекомендаций непосредственно в процессе проектирования и обучения.

По признанию автора канала, во времена написания своей докторской диссертации (PhD) и работы над нейронными сетями он мог только мечтать о подобном решении.