# Как AlphaZero и Владимир Крамник переосмыслили правила шахмат с помощью ИИ

Источник: https://www.youtube.com/watch?v=O1b0cbgpRBw
Канал: Yannic Kilcher
Опубликовано: 13.09.2020

---

Как изменится шахматная теория, если разрешить пешкам ходить назад или запретить рокировку? Янник Килхер разбирает исследование DeepMind и 14-го чемпиона мира Владимира Крамника, в котором нейросеть AlphaZero помогла протестировать альтернативные варианты правил и оценить их баланс.

## ♟️ Переосмысление классики: зачем менять правила шахмат?
[[JUMP:0:00]]

Шахматы — древняя игра, правила которой веками оставались неизменными, а стратегия оттачивалась поколениями игроков. Однако сегодня шахматное сообщество сталкивается с проблемой «ничейной смерти», когда глубокая теоретическая подготовка и совершенство компьютерных движков делают игру предсказуемой. Янник Килхер (Yannic Kilcher) представляет научную работу «Assessing Game Balance with AlphaZero: Exploring Alternative Rule Sets in Chess», авторами которой выступили сотрудники DeepMind и Владимир Крамник.

Основная идея исследования заключается в том, что современное человечество не может позволить себе тратить еще тысячу лет на изучение каждого нового варианта правил. Чтобы понять, будет ли игра интересной и сбалансированной, исследователи предлагают использовать AlphaZero — алгоритм обучения с подкреплением, способный освоить любую настольную игру с нуля до сверхчеловеческого уровня за считанные часы.

## 🧠 Двигатель AlphaZero: архитектура и принципы обучения
[[JUMP:6:06]]

AlphaZero отличается от классических шахматных движков тем, что сочетает в себе нейронные сети и алгоритм планирования. В основе системы лежит поиск по дереву Монте-Карло (MCTS), который дополняется двумя ключевыми компонентами:

* **Функция политики ($P$):** Нейросеть получает на вход состояние доски ($s$) и выдает распределение вероятностей для следующих ходов. Это позволяет алгоритму не перебирать все возможные варианты, а фокусироваться только на наиболее перспективных ветвях.
* **Функция ценности ($V$):** Оценивает текущую позицию числом от -1 (поражение) до +1 (победа). Благодаря этому AlphaZero не нужно просчитывать партию до самого конца — она может «предсказать» исход на основе промежуточного состояния.

Янник Килхер подчеркивает важный технический нюанс: для работы AlphaZero необходим быстрый симулятор игры. Алгоритм требует 100% определенности в том, что произойдет после совершения хода, поэтому он идеально подходит для игр с полной информацией, но пока с трудом применим к сложным видеоиграм или реальному миру.


## 🧪 Экспериментальные варианты: от «торпедо» до самозахвата
[[JUMP:16:50]]

В ходе эксперимента AlphaZero обучили игре в девять различных вариантов шахмат, которые представляют собой небольшие изменения в правилах:

1.  **No Castling:** Рокировка полностью запрещена. Это должно заставить игроков держать короля в центре или тратить много ходов на его искусственную эвакуацию.
2.  **Stalemate = Win:** Пат считается победой, а не ничьей. Это изменение активно обсуждается в шахматных кругах как способ борьбы с ничейными исходами.
3.  **Torpedo:** Пешки могут ходить на две клетки вперед с любой позиции на доске, а не только с начальной.
4.  **Semi-Torpedo:** Аналогично «торпедо», но двойной ход разрешен только со второй и третьей горизонталей.
5.  **Pawn Back:** Пешки могут ходить на одну клетку назад.
6.  **Pawn Sideways:** Пешки могут перемещаться вбок на одну клетку.
7.  **Self-Capture:** Игрокам разрешено бить свои собственные фигуры для достижения тактических преимуществ.

## 📊 Результаты: решительность игры и проклятие ничьих
[[JUMP:19:31]]

Оценка баланса проводилась через проведение 10 000 партий AlphaZero против самой себя с ограничением в 1 секунду на ход, и еще 1 000 партий с ограничением в 1 минуту на ход. Результаты оказались неоднозначными:

* **Доля ничьих:** В классических шахматах при 1 секунде на ход 88,2% партий закончились вничью. При увеличении времени до 1 минуты этот показатель вырос до 98%. 
* **Решительность вариантов:** Самым «решительным» (дающим меньше всего ничьих) оказался вариант **Torpedo**, где фигуры сталкиваются быстрее. Напротив, в варианте **Pawn Back** игроки склонны «окапываться», что ведет к закрытым позициям и еще большему числу ничьих.
* **Преимущество белых:** В большинстве вариантов белые сохраняют статистическое преимущество, набирая около 50,8% очков в классике и до 54% в варианте Torpedo.

По мнению Янника Килхера, эти данные указывают на тревожную тенденцию: при приближении к «совершенной» игре практически любой набор правил в шахматах ведет к ничьей. Он полагает, что решительность партий в исследовании — это во многом следствие ограниченности вычислительных ресурсов, а не свойств самих правил.

## 📉 Критика и ограничения исследования
[[JUMP:27:13]]

Янник Килхер высказывает ряд критических замечаний к методологии исследования. Он указывает на произвольность некоторых параметров, которые могли существенно повлиять на выводы:

* **Принудительное разнообразие:** Чтобы партии не были идентичными, авторы заставляли AlphaZero выбирать первые 20 ходов случайно (сэмплирование по посещениям MCTS). Килхер отмечает, что число 20 выбрано произвольно и может искажать картину для быстрых вариантов вроде Torpedo.
* **Иллюзия сложности:** При сравнении дебютов $e4$ и $Nf3$ в классике и «безрокировочных» шахматах выяснилось, что запрет рокировки делает выбор дебютов более разнообразным. Однако Килхер аргументирует, что это может быть просто следствием того, что AlphaZero хуже обучена новому варианту и «не уверена» в правильном ходе, что со стороны выглядит как разнообразие.
* **Субъективность интереса:** Исследование фокусируется на математических прокси-метриках (решительность, длина партии), но, как утверждает автор видео, они не всегда коррелируют с тем, насколько игра интересна человеку.

## 🚀 Будущее геймдизайна и «ИИ-экономист»
[[JUMP:37:22]]

Несмотря на критику, Янник Килхер считает подход DeepMind крайне перспективным. Возможность автоматического балансирования механик с помощью ИИ может совершить революцию в разработке видеоигр. 

Более того, автор видит потенциал применения таких систем за пределами игр — например, в экономике или государственном управлении. Если создать достаточно точный симулятор общества, ИИ вроде AlphaZero мог бы просчитывать последствия изменений в налоговой политике или законодательстве, выявляя скрытые лазейки и эксплойты до того, как они нанесут реальный ущерб.

В завершение Килхер отмечает, что хотя шахматы как игра для компьютеров уже практически «решены», для людей они остаются полем для творчества, а новые варианты правил могут вдохнуть в это древнее состязание новую жизнь.