Янник Кильчер: «Языковые модели находят „костыли“ для решения задач высшей математики»

Может ли нейросеть, не имеющая ни малейшего представления о правилах математики, решать задачи по теории управления и дифференциальным уравнениям? В новом видео Янник Кильчер (Yannic Kilcher) анализирует научную работу исследователей из Facebook AI Research и Университета Ратгерса под названием «Deep Differential System Stability». Авторы статьи доказывают, что стандартные языковые модели-трансформеры способны справляться с продвинутыми вычислениями, просто обучаясь на примерах, однако Янник Кильчер (Yannic Kilcher) ставит под сомнение глубину этого «понимания».

🧮 Математический вызов для «вундеркиндов» 0:00

Янник Кильчер (Yannic Kilcher) начинает обзор с ироничного теста для зрителей, предлагая за десять секунд определить управляемость конкретной дифференциальной системы в заданной точке . Для решения этой «простой», по его словам, задачи требуется выполнить ряд последовательных шагов:

Дифференцировать систему по внутренним переменным для получения якобиана (матрица A).
Дифференцировать систему по переменным управления (матрица B) .
Вычислить матрицу управляемости и определить её ранг.
При необходимости вывести уравнение матрицы обратной связи (Equation 3), включающее интегралы, обратные матрицы и экспоненциальные функции .

По мнению ведущего, большинство людей не справятся с этим мгновенно, однако система Deep Differential System, основанная на глубоком обучении, справляется с подобными задачами на удивление успешно . Проект базируется на более ранней работе о символьной математике, где языковые модели обучали интегрированию функций .

🧪 Как это работает: Архитектура и данные 11:41

Основная идея исследования заключается в том, что нейросеть рассматривает математические задачи как текст. Модель не программировали на знание законов физики или математики — она учится предсказывать решение (число, матрицу или бинарный ответ) на основе входной последовательности символов .

Для обучения был создан гигантский набор данных:

Генерация данных: Авторы использовали случайные деревья (unary-binary trees), где узлами являются операторы (сложение, синус, логарифм), а листьями — переменные и целые числа .
Объём выборки: Для задачи локальной стабильности было сгенерировано более 50 миллионов систем .
Модель: Использовалась стандартная архитектура Transformer с 8 головками внимания . Янник Кильчер (Yannic Kilcher) отмечает, что авторы варьировали количество слоев и размерность модели, чтобы проверить, как масштаб влияет на точность.

Особое удивление у Янника Кильчера (Yannic Kilcher) вызывает способ кодирования чисел. Модель получает числа в виде строковых токенов . Например, число «142» подаётся как последовательность токенов «1», «4» и «2». Это означает, что нейросеть должна самостоятельно «понять» десятичную систему счисления и осознать, что цифра «4» в данном контексте в 20 раз больше «2», из-за своей позиции . Ведущий называет такой способ ввода данных крайне неудобным, что делает успехи модели ещё более примечательными.

📈 Три кита исследования: Стабильность, управляемость и УЧП 5:07

Авторы проверили модель на трёх типах сложных математических задач, каждая из которых требует многоступенчатого аналитического решения.

1. Локальная стабильность

Задача состоит в том, чтобы определить, является ли точка равновесия системы стабильной. Традиционно это решается через теорему об отображении спектра: нужно вычислить якобиан, найти его собственные значения и проверить их реальные части .

Результаты:

Для систем из двух уравнений модель достигает 96% точности (предсказание скорости сходимости в пределах 10% от истины) .
С увеличением размерности системы (количества уравнений) точность падает .

2. Теория управления

Модель должна была предсказать, управляема ли система, и вывести матрицу обратной связи (K-matrix).

Точность предсказания бинарного ответа (управляема/неуправляема) достигла 97% .
Янник Кильчер (Yannic Kilcher) подчеркивает: хотя точность предсказания конкретных значений матрицы K падает с ростом сложности системы, предсказанные матрицы часто сохраняют нужные математические свойства для решения задачи .

3. Уравнения в частных производных (УЧП) и преобразование Фурье

Пятиступенчатый процесс, включающий символьные манипуляции и численные оценки. Модель должна была ответить на два вопроса: существует ли решение и стремится ли оно к нулю при бесконечном времени . Даже при размерности 6 модель показала отличные результаты, значительно превосходя случайное угадывание (которое составляло бы 25% для двух бит ответа) .

🤔 Интеллект или «костыли»? Критика Янника Кильчера 21:10

Несмотря на впечатляющие цифры, Янник Кильчер (Yannic Kilcher) скептически относится к интерпретации этих результатов. В самой статье авторы признают, что модель, скорее всего, не выучила математические техники, а нашла «короткие пути» (shortcuts) для решения конкретных задач .

Основные аргументы и сомнения:

Отсутствие доказательств рассуждений: Ведущий утверждает, что модель занимается скорее сложной регрессией на токенах, чем внутренним математическим рассуждением . Она выучила закономерности: например, что наличие косинуса в определённой позиции часто коррелирует с низким значением собственного числа .
Проблема интерполяции: Авторы защищаются от обвинений в простом запоминании данных, указывая на отсутствие дубликатов в 50 миллионах примеров . Однако Янник Кильчер (Yannic Kilcher) полагает, что модель может выполнять «интерполяцию в пространстве токенов», работая как метод ближайшего соседа по абстрактным паттернам .
Необходимость интроспекции: По мнению Янника Кильчера (Yannic Kilcher), вместо демонстрации успеха на трёх разных задачах, было бы интереснее «вскрыть» модель. Если бы удалось показать, что во внутренних слоях нейросети формируются промежуточные величины (например, элементы якобиана), это стало бы веским доказательством реального обучения математике . Поскольку этого не было сделано, ведущий склоняется к версии о «сопоставлении паттернов» (pattern matching) .

В заключение Янник Кильчер (Yannic Kilcher) называет работу «очень крутой» и заслуживающей внимания, несмотря на его критику относительно отсутствия глубокого анализа внутренних процессов модели .