# Обучение на чужих ошибках: Янник Кильхер разбирает бенчмарк D4RL для Offline RL

Источник: https://www.youtube.com/watch?v=-h1KB8ps11A
Канал: Yannic Kilcher
Опубликовано: 16.04.2020

---

В этом обзоре Янник Кильхер (Yannic Kilcher) анализирует научную работу «Datasets for Data-Driven Reinforcement Learning» (D4RL). Основная тема видео — переход от классического обучения с подкреплением (Online Reinforcement Learning) к офлайн-методам, которые позволяют ИИ учиться на готовых наборах данных, не совершая собственных ошибок в реальном времени.

## 🤖 Офлайн vs Онлайн: Смена парадигмы в Reinforcement Learning
[[JUMP:00:00]]

В классическом обучении с подкреплением (Online RL) агент постоянно взаимодействует со средой: получает данные, совершает действие, видит результат (награду) и обновляет свою стратегию. Весь этот опыт сохраняется в так называемом «буфере воспроизведения» (replay buffer), из которого агент черпает знания. Янник Кильхер подчеркивает, что в этой схеме обучение неразрывно связано с собственными действиями агента.

Офлайн-обучение (Offline RL) полностью разрывает эту связь. Агент больше не может «потрогать» среду. Вместо этого он получает доступ к огромному архиву данных, собранных другими агентами (людьми или другими программами), и должен научиться максимизировать награду, используя только этот статичный опыт.

## ⚠️ Проблема «распределения» и риск обрыва
[[JUMP:05:05]]

Главная сложность офлайн-подхода заключается в том, что агент не знает, что произойдет за пределами данных, имеющихся в буфере. Янник Кильхер приводит наглядную аналогию с обрывом:

* **Поведение экспертов:** Если данные собирали люди, они никогда не будут прыгать с обрыва, потому что они умные.
* **Слепая зона:** В буфере просто нет информации о том, что падение — это плохо.
* **Ошибка агента:** Если алгоритм из-за случайности или энтропии решит сделать шаг к краю, он не «увидит» в данных негативной награды и может посчитать это действие допустимым.

В обычном Reinforcement Learning агент бы упал, получил отрицательный балл и больше так не делал. В офлайн-режиме такая обратная связь отсутствует, что делает задачу на порядок сложнее.


## 🏥 Почему мы не можем всегда учиться «онлайн»?
[[JUMP:07:20]]

Несмотря на сложности, Offline RL критически важен для индустрии. По словам автора, есть области, где «пробы и ошибки» недопустимы:

* **Медицина:** Нельзя позволить роботу-хирургу учиться на живых пациентах, пробуя разные разрезы, чтобы посмотреть, что сработает.
* **Поисковые системы и реклама:** Компании хранят петабайты логов поисковых запросов. Нужно уметь использовать эти данные для обучения новых моделей без риска испортить пользовательский опыт случайными экспериментами в реальном времени.

В отличие от обучения с учителем (Supervised Learning), где на каждый запрос есть правильный ответ, в Offline RL агент должен сам «сшивать» (stitch) разрозненные куски чужого опыта, чтобы выстроить оптимальный маршрут к цели.

## 📊 Бенчмарк D4RL: Инструментарий и среды
[[JUMP:09:42]]

Статья, которую разбирает Янник Кильхер, предлагает исследователям стандарт D4RL — набор датасетов и сред для оценки офлайн-алгоритмов. Автор выделяет несколько ключевых задач:

1.  **Лабиринт (Maze):** Агенту нужно попасть из точки А в точку Б. В данных могут быть маршруты А -> В и В -> Б, но никогда нет прямого пути А -> Б. Задача ИИ — найти общую точку и соединить два фрагмента.
2.  **AntMaze:** Усложненная версия, где нужно управлять «муравьем» (или пауком) с множеством сочленений.
3.  **Роботизированная рука (Adroit):** Задачи по манипуляции объектами. Здесь данных крайне мало (всего 5000 примеров от людей), а степеней свободы у механизма — огромное количество.

## 🛠️ Источники данных: От экспертов до «безумных» планировщиков
[[JUMP:16:47]]

Качество обучения напрямую зависит от того, как наполнялся буфер воспроизведения. В D4RL используются разные подходы:

* **Человеческие демонстрации:** Качественные, но их мало.
* **Обученные политики:** Данные от других алгоритмов Reinforcement Learning.
* **Алгоритмы планирования (например, A*):** Янник Кильхер иронично называет это «олдскульным» и «нишевым» подходом, но отмечает, что такие классические алгоритмы поиска кратчайшего пути в лабиринтах создают специфическое распределение данных, отличное от нейросетевых моделей.

## 📉 Текущее состояние дел и выводы
[[JUMP:18:18]]

Результаты тестов, приведенные в статье, неутешительны. По мнению Янника Кильхера, большинство современных офлайн-алгоритмов пока не справляются с задачами бенчмарка.

Они показывают хорошие результаты только в одном случае: если данные в буфере были сгенерированы в процессе обучения обычного онлайн-агента. Если же данные собраны иными способами (людьми или скриптами), эффективность алгоритмов резко падает.

Янник Кильхер рекомендует всем заинтересованным изучить код проекта. Он также обращает внимание, что ссылка в самой научной статье может быть нерабочей, и предоставляет актуальный адрес репозитория в описании.