Заменяет ли простая аугментация годы исследований в сфере RL?

В своём новом обзоре популярный IT-блогер Янник Килхер (Yannic Kilcher) разбирает амбициозную научную статью «Reinforcement Learning with Augmented Data» (RAD), подготовленную исследователями из Калифорнийского университета в Беркли и Нью-Йоркского университета. Авторы работы утверждают, что простое внедрение аугментации данных в конвейер обучения с подкреплением позволяет добиться колоссального прогресса, сопоставимого с последними пятью годами развития этой области. Килхер подробно анализирует предложенную методику, оценивает её реальную эффективность и высказывает долю здорового скепсиса относительно громких заявлений исследователей.

🤖 Суть подхода: объединение RL и аугментации данных 0:00

Обучение с подкреплением (Reinforcement Learning) строится на взаимодействии агента с окружающей средой для решения задач оптимизации методом проб и ошибок. В качестве примера ведущий приводит задачу Walker, где двуногому роботу необходимо научиться сохранять равновесие и проходить как можно большее расстояние. С другой стороны, аугментация данных — это стандартный инструмент в традиционном обучении с учителем (Supervised Learning). При классификации изображений кошек, имея базу даже в миллион картинок, разработчики прогоняют модель через неё десятки раз. Вместо повторения одних и тех же кадров более успешным подходом оказывается добавление промежуточного слоя, который случайным образом видоизменяет картинку: затирает часть изображения (cutout), обрезает края (crop) или переводит в оттенки серого, что делает модель устойчивей к искажениям.

Главный тезис авторов статьи заключается в том, что применение аналогичной аугментации входных данных в обучении с подкреплением даёт взрывной рост эффективности. По словам Янника Килхера, создатели RAD позиционируют свой метод как универсальный плагин, способный в одиночку дать такой же прирост производительности, какой индустрия пыталась достичь за последние пять лет сложных исследований.

🛠️ Виды аугментаций и технические тонкости реализации 4:00

В рамках исследования авторы протестировали целый спектр методов изменения изображений:

Случайное кадрирование (random crop);
Перевод в оттенки серого (grayscale) с определённой вероятностью;
Вырезание фрагментов (cutout), когда на картинке стирается случайный квадрат;
Цветовое вырезание (color cutout);
Зеркальное отражение (flip) по горизонтали или вертикали;
Повороты (rotate) на случайный угол;
Случайная свёртка (random conv) с использованием цветных фильтров;
Искажение цвета (color jitter), меняющее палитру без разрушения структуры кадра.

Однако механический перенос аугментации из обычного компьютерного зрения в RL невозможен без учёта специки динамических задач. Для корректной работы нейросети, управляющей агентом, критически важно передавать не один изолированный кадр, а стек из нескольких последних фреймов (например, за последнюю секунду). Это необходимо, чтобы модель понимала импульс и скорость движения элементов — например, куда именно двигаются ноги робота Walker.

Технологическая особенность RAD заключается в том, что выбранный тип аугментации и её масштаб должны применяться абсолютно одинаково и последовательно ко всем кадрам внутри одного стека. Только при следующем шаге и формировании нового пакета кадров алгоритм может выбрать другую модификацию. Вся эта конструкция интегрируется в классические методы аппроксимации политики, такие как Actor-Critic. Исследователи протестировали RAD на двух передовых алгоритмах: Soft Actor-Critic (SAC) для непрерывного управления и Proximal Policy Optimization (PPO) для дискретных и непрерывных сред.

🏆 Результаты тестов и критика Янника Килхера 8:19

Согласно представленным графикам, простая комбинация базового алгоритма RL с аугментацией данных RAD умудряется обходить или показывать равные результаты со множеством сложных специализированных архитектур. Метод превзошёл такие известные подходы, как CURL (контрастивное обучение), PlaNet и Dreamer. Более того, RAD смог конкурировать даже с алгоритмом State SAC, который Янник Килхер в шутку называет «читерским», поскольку тот обучается на основе прямых точных параметров физического состояния среды, в то время как RAD анализирует исключительно сырые пиксели с экрана.

Тем не менее, ведущий выступает с критикой методологии оценки успехов RAD. Килхер подчёркивает, что все тесты проводились на бенчмарках DM Control 100k и 500k, специфика которых заключается в жёстком ограничении количества доступных фреймов. Таким образом, по мнению блогера, RAD является лучшим решением не для обучения с подкреплением в целом, а исключительно для сценариев с дефицитом обучающих данных.

Другим важным упущением авторов, как считает Килхер, стало полное отсутствие абляционных исследований (ablations) на предмет совместимости с другими подходами. Исследователи не проверили, что произойдёт, если объединить RAD и Dreamer. Килхер отмечает, что без этого эксперимента неясно, являются ли их преимущества ортогональными (дополняющими друг друга) или же Dreamer внутри своей сложной архитектуры просто неявно воспроизводит те же самые эффекты, что даёт обычная аугментация картинок.

🔍 Секрет эффективности случайного кадрирования 11:29

В статье подробно исследуется вопрос о том, какие именно типы искажений приносят наибольшую пользу. Авторы свели комбинации аугментаций в таблицу эффективности, где наглядно видно доминирование одного конкретного метода. Например, связка перевода в серый цвет и поворота (grayscale + rotate) даёт агенту Walker всего около 300 очков, тогда как двойное применение случайного кадрирования (crop + crop) взвинчивает результат до 920 очков, сокрушая любые другие вариации.

У Янника Килхера есть сильное подозрение, что столь ошеломительный успех кадрирования обусловлен самой структурой современных виртуальных сред. Эти симуляторы бесконечно далеки от реального мира: они процедурно генерируются, имеют стерильный фон и чёткие контрастные объекты. Ведущий предполагает, что в реальном мире аугментация приносила бы лишь умеренную пользу, сопоставимую с её вкладом в обучение на датасете ImageNet. По его мнению, авторы RAD несколько преувеличивают революционность своего открытия.

Анализ карт внимания (attention maps) показывает, что без аугментации нейросеть фокусируется на случайных точках. При использовании random crop модель начинает чётко удерживать внимание на ключевом элементе — хребте робота Walker, удержание которого в вертикальном положении критично для стабильности. В задаче с гепардом (Cheetah) без кадрирования сеть отвлекается на фоновые звёзды, а с применением crop — концентрируется исключительно на теле животного. Однако Килхер призывает относиться к этим визуализациям осторожно: по его словам, поскольку агент с кадрированием просто набирает больше очков и лучше решает задачу, его фокус внимания закономерно становится более правильным, что может быть следствием высокого качества работы алгоритма, а не уникальным свойством самой аугментации.

🎮 Способность к генерализации на платформе ProcGen 16:02

Заключительная часть научной работы посвящена оценке способности алгоритмов к обобщению (генерализации) в неизвестных условиях. Для этого использовался набор сред OpenAI ProcGen, где уровни генерируются процедурно. Агентов обучали на ограниченном числе локаций (seen), после чего тестировали на абсолютно новых уровнях (unseen), где кардинально менялись фоновые изображения или сама геометрия препятствий, как в играх Jumper, Star Pilot или Big Fish.

Результаты тестов показали, что алгоритм RAD с применением кадрирования превосходит стандартный пиксельный PPO. Тем не менее, Янник Килхер указывает на важные нюансы, которые рушат гипотезу об универсальности метода. В ProcGen кадрирование не стало абсолютным победителем во всех дисциплинах: в Star Pilot выиграла другая техника аугментации, а в игре Jumper на 200 уровнях чистый оригинальный PPO и вовсе обошёл RAD.

Блогер считает это прямым доказательством того, что эффективность модификации картинок жёстко завязана на дизайн конкретной игры. В Big Fish менялся только задний фон, и кадрирование помогло отсечь лишнее. В Jumper же менялась сама структура платформ, и обрезка краев кадра начала вредить агенту, лишая его критически важной пространственной информации.

Особое несогласие у Килхера вызвало заявление авторов о том, что RAD на 100 тренировочных уровнях обходит стандартный PPO на 200 уровнях. Исследователи сделали из этого вывод, что аугментация эффективнее для генерализации, чем увеличение разнообразия тренировочных сред. Ведущий называет этот аргумент спорным. По его логике, если метод А изначально сильнее метода Б, то всегда найдётся такая дельта в объёме данных, при которой урезанная версия А будет побеждать расширенную версию Б, но это никак не доказывает, что аугментация способна полноценно заменить разнообразие игровых миров.

💡 Итоги: прорыв в алгоритмах или специфика симуляторов? 21:00

Резюмируя свой разбор, Янник Килхер признаёт, что RAD — это качественная работа с любопытными практическими результатами, однако её выводы кажутся ему чересчур амбициозными. Высокие показатели аугментации в обучении с подкреплением, по мнению блогера, во многом остаются артефактом текущего устройства виртуальных бенчмарков.

Создатели симуляторов закладывают в них те же самые человеческие представления о визуальной схожести (например, инвариантность к поворотам или масштабу), которые инженеры затем встраивают в алгоритмы аугментации. Килхер полагает, что именно это идеальное совпадение заложенных предрассудков и обеспечивает аномальный рост графиков эффективности, а не фундаментальный прорыв в теории RL.