Обучение на чужих ошибках: Янник Кильхер разбирает бенчмарк D4RL для Offline RL

Yannic Kilcher 5,3 тыс. 19 мин 3 мин 16.04.2020
Главное

В этом обзоре Янник Кильхер (Yannic Kilcher) анализирует научную работу «Datasets for Data-Driven Reinforcement Learning» (D4RL). Основная тема видео — переход от классического обучения с подкреплением (Online Reinforcement Learning) к офлайн-методам, которые позволяют ИИ учиться на готовых наборах данных, не совершая собственных ошибок в реальном времени.

🤖 Офлайн vs Онлайн: Смена парадигмы в Reinforcement Learning 0:00

В классическом обучении с подкреплением (Online RL) агент постоянно взаимодействует со средой: получает данные, совершает действие, видит результат (награду) и обновляет свою стратегию. Весь этот опыт сохраняется в так называемом «буфере воспроизведения» (replay buffer), из которого агент черпает знания. Янник Кильхер подчеркивает, что в этой схеме обучение неразрывно связано с собственными действиями агента.

Офлайн-обучение (Offline RL) полностью разрывает эту связь. Агент больше не может «потрогать» среду. Вместо этого он получает доступ к огромному архиву данных, собранных другими агентами (людьми или другими программами), и должен научиться максимизировать награду, используя только этот статичный опыт.

⚠️ Проблема «распределения» и риск обрыва 5:05

Главная сложность офлайн-подхода заключается в том, что агент не знает, что произойдет за пределами данных, имеющихся в буфере. Янник Кильхер приводит наглядную аналогию с обрывом:

В обычном Reinforcement Learning агент бы упал, получил отрицательный балл и больше так не делал. В офлайн-режиме такая обратная связь отсутствует, что делает задачу на порядок сложнее.

🏥 Почему мы не можем всегда учиться «онлайн»? 7:20

Несмотря на сложности, Offline RL критически важен для индустрии. По словам автора, есть области, где «пробы и ошибки» недопустимы:

В отличие от обучения с учителем (Supervised Learning), где на каждый запрос есть правильный ответ, в Offline RL агент должен сам «сшивать» (stitch) разрозненные куски чужого опыта, чтобы выстроить оптимальный маршрут к цели.

📊 Бенчмарк D4RL: Инструментарий и среды 9:42

Статья, которую разбирает Янник Кильхер, предлагает исследователям стандарт D4RL — набор датасетов и сред для оценки офлайн-алгоритмов. Автор выделяет несколько ключевых задач:

  1. Лабиринт (Maze): Агенту нужно попасть из точки А в точку Б. В данных могут быть маршруты А -> В и В -> Б, но никогда нет прямого пути А -> Б. Задача ИИ — найти общую точку и соединить два фрагмента.
  2. AntMaze: Усложненная версия, где нужно управлять «муравьем» (или пауком) с множеством сочленений.
  3. Роботизированная рука (Adroit): Задачи по манипуляции объектами. Здесь данных крайне мало (всего 5000 примеров от людей), а степеней свободы у механизма — огромное количество.

🛠️ Источники данных: От экспертов до «безумных» планировщиков 16:47

Качество обучения напрямую зависит от того, как наполнялся буфер воспроизведения. В D4RL используются разные подходы:

📉 Текущее состояние дел и выводы 18:18

Результаты тестов, приведенные в статье, неутешительны. По мнению Янника Кильхера, большинство современных офлайн-алгоритмов пока не справляются с задачами бенчмарка.

Они показывают хорошие результаты только в одном случае: если данные в буфере были сгенерированы в процессе обучения обычного онлайн-агента. Если же данные собраны иными способами (людьми или скриптами), эффективность алгоритмов резко падает.

Янник Кильхер рекомендует всем заинтересованным изучить код проекта. Он также обращает внимание, что ссылка в самой научной статье может быть нерабочей, и предоставляет актуальный адрес репозитория в описании.

💬 Цитаты

«В офлайн-обучении с подкреплением агент должен учиться на чьих-то чужих действиях.»

Янник Кильхер 03:04

«Вы должны каким-то образом «сшить» вместе опыт других агентов, чтобы ваша задача заработала.»

Янник Кильхер 12:28
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Offline RL
Метод обучения с подкреплением, где агент использует только заранее собранный набор данных без взаимодействия со средой.
Replay Buffer
Хранилище предыдущего опыта агента (состояния, действия, награды), используемое для обучения.
Distribution Shift
Проблема, когда данные, на которых агент учится, отличаются от тех ситуаций, с которыми он столкнется при работе.
A*
Классический алгоритм поиска кратчайшего пути на графах.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Offline Reinforcement Learning D4RL Янник Кильхер Deep Learning