Янник Кильчер: «Языковые модели находят „костыли“ для решения задач высшей математики»

Yannic Kilcher 7,2 тыс. 36 мин 4 мин 13.06.2020
Главное

Может ли нейросеть, не имеющая ни малейшего представления о правилах математики, решать задачи по теории управления и дифференциальным уравнениям? В новом видео Янник Кильчер (Yannic Kilcher) анализирует научную работу исследователей из Facebook AI Research и Университета Ратгерса под названием «Deep Differential System Stability». Авторы статьи доказывают, что стандартные языковые модели-трансформеры способны справляться с продвинутыми вычислениями, просто обучаясь на примерах, однако Янник Кильчер (Yannic Kilcher) ставит под сомнение глубину этого «понимания».

🧮 Математический вызов для «вундеркиндов» 0:00

Янник Кильчер (Yannic Kilcher) начинает обзор с ироничного теста для зрителей, предлагая за десять секунд определить управляемость конкретной дифференциальной системы в заданной точке . Для решения этой «простой», по его словам, задачи требуется выполнить ряд последовательных шагов:

По мнению ведущего, большинство людей не справятся с этим мгновенно, однако система Deep Differential System, основанная на глубоком обучении, справляется с подобными задачами на удивление успешно . Проект базируется на более ранней работе о символьной математике, где языковые модели обучали интегрированию функций .

🧪 Как это работает: Архитектура и данные 11:41

Основная идея исследования заключается в том, что нейросеть рассматривает математические задачи как текст. Модель не программировали на знание законов физики или математики — она учится предсказывать решение (число, матрицу или бинарный ответ) на основе входной последовательности символов .

Для обучения был создан гигантский набор данных:

Особое удивление у Янника Кильчера (Yannic Kilcher) вызывает способ кодирования чисел. Модель получает числа в виде строковых токенов . Например, число «142» подаётся как последовательность токенов «1», «4» и «2». Это означает, что нейросеть должна самостоятельно «понять» десятичную систему счисления и осознать, что цифра «4» в данном контексте в 20 раз больше «2», из-за своей позиции . Ведущий называет такой способ ввода данных крайне неудобным, что делает успехи модели ещё более примечательными.

📈 Три кита исследования: Стабильность, управляемость и УЧП 5:07

Авторы проверили модель на трёх типах сложных математических задач, каждая из которых требует многоступенчатого аналитического решения.

1. Локальная стабильность

Задача состоит в том, чтобы определить, является ли точка равновесия системы стабильной. Традиционно это решается через теорему об отображении спектра: нужно вычислить якобиан, найти его собственные значения и проверить их реальные части .

Результаты:

2. Теория управления

Модель должна была предсказать, управляема ли система, и вывести матрицу обратной связи (K-matrix).

3. Уравнения в частных производных (УЧП) и преобразование Фурье

Пятиступенчатый процесс, включающий символьные манипуляции и численные оценки. Модель должна была ответить на два вопроса: существует ли решение и стремится ли оно к нулю при бесконечном времени . Даже при размерности 6 модель показала отличные результаты, значительно превосходя случайное угадывание (которое составляло бы 25% для двух бит ответа) .

🤔 Интеллект или «костыли»? Критика Янника Кильчера 21:10

Несмотря на впечатляющие цифры, Янник Кильчер (Yannic Kilcher) скептически относится к интерпретации этих результатов. В самой статье авторы признают, что модель, скорее всего, не выучила математические техники, а нашла «короткие пути» (shortcuts) для решения конкретных задач .

Основные аргументы и сомнения:

  1. Отсутствие доказательств рассуждений: Ведущий утверждает, что модель занимается скорее сложной регрессией на токенах, чем внутренним математическим рассуждением . Она выучила закономерности: например, что наличие косинуса в определённой позиции часто коррелирует с низким значением собственного числа .
  2. Проблема интерполяции: Авторы защищаются от обвинений в простом запоминании данных, указывая на отсутствие дубликатов в 50 миллионах примеров . Однако Янник Кильчер (Yannic Kilcher) полагает, что модель может выполнять «интерполяцию в пространстве токенов», работая как метод ближайшего соседа по абстрактным паттернам .
  3. Необходимость интроспекции: По мнению Янника Кильчера (Yannic Kilcher), вместо демонстрации успеха на трёх разных задачах, было бы интереснее «вскрыть» модель. Если бы удалось показать, что во внутренних слоях нейросети формируются промежуточные величины (например, элементы якобиана), это стало бы веским доказательством реального обучения математике . Поскольку этого не было сделано, ведущий склоняется к версии о «сопоставлении паттернов» (pattern matching) .

В заключение Янник Кильчер (Yannic Kilcher) называет работу «очень крутой» и заслуживающей внимания, несмотря на его критику относительно отсутствия глубокого анализа внутренних процессов модели .

💬 Цитаты

«Похоже, наши модели научились решать эти проблемы, но это не значит, что они выучили те методы, которые мы используем для их решения.»

Янник Кильчер 32:04

«Модель даже должна была выучить десятичное представление чисел, чтобы понять, что «4» — это не просто другой токен, а число в 20 раз больше «2» из-за его позиции.»

Янник Кильчер 25:43
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Якобиан
Матрица, составленная из частных производных функции, используемая для анализа стабильности систем.
Собственные значения (Eigenvalues)
Числа, характеризующие линейный оператор; в контексте статьи их реальные части определяют стабильность системы.
Transformer
Архитектура нейронных сетей, основанная на механизме внимания, ставшая стандартом для обработки текстов.
Управляемость (Controllability)
Свойство системы, позволяющее перевести её из любого начального состояния в любое конечное за конечное время с помощью входных сигналов.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Yannic Kilcher Deep Differential System Transformer дифференциальные уравнения Facebook AI Research