# Как ИИ меняет лингвистику: спор Эндрю Лампинена с Ноамом Хомским на NeurIPS

Источник: https://www.youtube.com/watch?v=46A-BcBbMnA
Канал: Machine Learning Street Talk
Опубликовано: 04.12.2022

---

На полях престижной конференции NeurIPS 2022 ведущий канала Machine Learning Street Talk встретился с выдающимся исследователем из DeepMind Эндрю Лампиненом (Andrew Lampinen), чтобы обсудить фундаментальные вызовы интеграции языка и систем искусственного интеллекта. В фокусе дискуссии оказались проблема заземления символов, скрытые эффекты обучения с подкреплением на основе отзывов людей (RLHF) и когнитивные границы современных больших языковых моделей. Собеседники детально разобрали, почему устоявшиеся лингвистические догмы требуют переосмысления в эпоху триумфа нейросетей.

## 🌐 Новые горизонты на NeurIPS: системный подход к ИИ
[[JUMP:0:00]]

Конференция NeurIPS традиционно становится площадкой для демонстрации передовых академических достижений в области машинного обучения. Исследователь из DeepMind Эндрю Лампинен выделил несколько ключевых докладов, которые определяют вектор его текущих научных интересов, особенно на стыке применения языка в обучении с подкреплением (RL).

Среди наиболее значимых работ Лампинен отметил исследование Шриджана Кумара (Srijan Kumar), посвященное использованию языковых или программных вводных данных для формирования правильных индуктивных смещений (inductive biases) у агентов обучения с подкреплением. По мнению гостя, такой подход открывает принципиально новые методы управления поведением агентов через понятные человеку высокоуровневые инструкции.

Другим источником вдохновения для исследователя стало пленарное выступление Джухо Кима (Juho Kim). Ким призвал разработчиков рассматривать ИИ не как изолированный алгоритм, а как полноценную интерактивную систему взаимодействия человека и технологий внутри конечного продукта. Эндрю Лампинен развил эту идею, подчеркнув, что при анализе логических ошибок языковых моделей исследователи часто упускают из виду контекст их реального развертывания в жизни.

Лампинен утверждает, что прямое сопоставление изолированных языковых моделей с когнитивными способностями человека некорректно. Человек представляет собой сложную комплексную систему, выполняющую множество параллельных задач, тогда как языковая модель — это лишь отдельный специфический компонент. По мнению исследователя, более надежной и устойчивой работы нейросетей в реальной практике можно добиться только путем их интеграции в более масштабные системные архитектуры.

## ⚖️ Парадоксы RLHF и прагматика коммуникации
[[JUMP:1:44]]

Значительную часть дискуссии заняло обсуждение технологии обучения с подкреплением на основе отзывов людей (RLHF). Ведущий подкаста высказал довольно скептическую позицию, предположив, что RLHF в некотором смысле «ломает» модель с точки зрения технической устойчивости (brutalizes), но при этом создает опасную иллюзию «магии» и подталкивает пользователей излишне антропоморфизировать алгоритмы.

Эндрю Лампинен согласился с тем, что полноценного понимания всех эффектов RLHF у научного сообщества пока нет, и выразил глубокий интерес к детальному анализу этого метода. В качестве примера важного исследования в этой области он привел недавнюю публикацию Лауры Руис (Laura Ruis) на платформе arXiv под названием «Большие языковые модели не являются zero-shot коммуникаторами».

В своей работе Руис проанализировала так называемые прагматические выводы (pragmatic inferences), которые люди с легкостью делают в процессе общения, и продемонстрировала, что базовые языковые модели справляются с ними крайне плохо в режиме zero-shot. Тем не менее, Лампинен выделил следующие закономерности:

* Использование few-shot промптинга немного улучшает результаты моделей.
* Модели, прошедшие настройку инструкций (instruction tuning) или обучение с помощью RLHF, показывают значительно более высокие результаты в прагматике.

Исследователь предполагает, что интерактивный контекст взаимодействия с человеком в процессе RLHF эффективно обучает модель тонкостям человеческой прагматики, что делает эти исследования крайне многообещающими для индустрии.

## 🧩 Проблема заземления и ИИ как инструмент человека
[[JUMP:3:01]]

Проблема заземления символов (grounding problem) остается одним из наиболее дискуссионных вопросов философии искусственного интеллекта. Эндрю Лампинен выдвинул теоретический тезис: в принципе возможно исключительно через язык обучить модель всему, что может быть проверено сугубо языковыми методами. Однако он четко разграничивает это теоретическое допущение и реальное применение моделей в физически или визуально заземленном контексте.

Breakdowns и сбои, которые исследователи наблюдают при интеграции языковых моделей в мультимодальные системы (например, в визуально-языковую модель Flamingo от DeepMind) или в системы управления роботами (RL), происходят, по мнению Лампинена, из-за неспособности создать правильную системную архитектуру и надежно связать абстрактные символы с физической реальностью.

Ведущий выразил скепсис относительно идеи тотальной синергии человека и ИИ, заявив, что языковые модели полностью лишены субъектности (agency), интенциональности и истинной креативности. Лампинен частично согласился, но привел сильный контраргумент, сравнив языковые модели с традиционными инструментами:

* Язык программирования Python или система Mathematica не обладают собственной субъектностью, волей или намерениями.
* Тем не менее, в руках человека, обладающего волей и целями, они становятся мощнейшими инструментами, расширяющими когнитивные возможности.

По мнению Лампинена, современные языковые модели могут служить аналогичными компендиумами знаний, повышая эффективность человеческой деятельности. При этом из-за их склонности к галлюцинациям критически важно настраивать модели так, чтобы они ссылались на верифицируемые источники.

Размышляя о происхождении субъектности, ведущий напомнил позицию философа Джона Сёрля (John Searle) о необходимости биологической основы для наличия истинных намерений, противопоставив ей детерминистический вычислительный подход (computationalism). Лампинен признался, что не знает точного ответа, и связал проблему субъектности ИИ с глубокими философскими дебатами о свободе воли у человека. Он задал встречный вопрос: есть ли принципиальная разница между вычислительной системой и человеком, если физически люди точно так же детерминистически подчиняются эволюции волновой функции Вселенной?

## 🤖 Язык в обучении с подкреплением
[[JUMP:6:43]]

Для интеграции языковых моделей в реальный мир Лампинен считает необходимым объединение текстовых архитектур с алгоритмами обучения с подкреплением. В качестве примеров подходов к решению этой задачи в индустрии исследователь перечислил:

* Фреймворк HELM, использующий предобученную языковую модель как индуктивное смещение для инициализации RL-агента.
* Систему ReAct, которая задействует языковые механизмы для планирования действий и контроля агента.
* Проект SayCan, представляющий собой раннюю итерацию подобных интерактивных систем.

Эндрю Лампинен также выделил работу своей коллеги Дикши Гупты (Deeksha Gupta) и соавторов, представленную на воркшопе NeurIPS. В их подходе агент собирает информацию непосредственно из окружающей среды и передает текстовый отчет обратно в языковую модель, помогая ей логически вычислить правильное решение задачи. Перед инженерами в этой области стоит огромный спектр вопросов: от необходимости тонкой настройки (fine-tuning) до заморозки весов (frozen models) или использования параметрически эффективных методов обучения (PEFT).

## 🧠 Синтаксис, семантика и критика Хомского
[[JUMP:8:29]]

Обсуждение проблемы заземления неизбежно возвращает ученых к классическому спору о синтаксисе и семантике, берущему начало от аргументов Джона Сёрля. Лампинен констатирует, что появление больших языковых моделей сместило привычный нарратив в научном сообществе. Нейросети продемонстрировали удивительную способность усваивать сложнейшие синтаксические структуры исключительно из языковых данных.

Хотя это прямо и не опровергает классический аргумент Ноама Хомского (Noam Chomsky) о «бедности стимула» (poverty of the stimulus) — поскольку модели обучаются на гигантских массивах данных, недоступных человеческому ребенку — масштабы современных сетей показывают, что жесткое разделение синтаксиса и семантики, постулируемое хомскианской лингвистикой, может не являться обязательным свойством системы. С другой стороны, Лампинен отмечает, что радикальные критики могут отказать моделям в наличии какой-либо семантики вовсе, считая, что смысл лежит полностью за пределами текста.

В своей статье, посвященной триаде Пирса и философии Людвига Витгенштейна, Лампинен затрагивал вопросы эпистемической субъективности и концептов, зависящих от наблюдателя. Ведущий предположил, что такой релятивистский взгляд чужд доминирующему в ИИ-сообществе модусу операнди. Однако Лампинен считает, что инженеров и практиков мало волнуют абстрактные философские споры о «истинном значении». По его прогнозу, по мере роста эффективности систем при решении прикладных задач за счет масштабирования, мультимодальности и интерактивного обучения (RLHF), сообщество просто перестанет беспокоиться о теоретических проблемах заземления.

Комментируя скептические оценки лингвистов, Лампинен высказался о жесткой позиции Ноама Хомского, который назвал глубокое обучение «бульдозерами для уборки снега», не вносящими вклада в чистую науку. Лампинен считает разнообразие взглядов полезным, однако выражает оптимизм: успехи глубокого обучения могут дать науке новые проверяемые гипотезы о происхождении языковых способностей человека. Изучая внутренние репрезентации и вычисления моделей, лингвисты могут прийти к более глубокому пониманию структуры человеческого языка.

## 🔄 Композициональность и иллюзия идеального человека
[[JUMP:13:42]]

Ведущий напомнил о классической критике коннекционизма со стороны Джерри Фодора (Jerry Fodor) и Зенона Пылишина (Zenon Pylyshyn), которые фокусировались на продуктивности и систематичности языка, что пересекается с современной критикой композициональности со стороны Гэри Маркуса (Gary Marcus).

Эндрю Лампинен высказал нетривиальный взгляд на эту проблему, опираясь на свою работу о символическом поведении: люди сами по себе не являются идеальными систематическими и композициональными генерализаторами. Это подтверждается множеством психологических экспериментов (например, работами Брендана Лейка по тестированию простых игрушечных грамматик в лаборатории), где люди демонстрируют уровень композиционального обобщения в районе 80%. Лампинен иронично заметил:

> «Если бы вы показали Гэри Маркусу нейросеть с точностью композиционального обобщения в 80%, он наверняка заявил бы, что у системы полностью отсутствует настоящая композициональность».

Корень проблемы Лампинен видит в введенном Хомским различении между «компетенцией» (competence — глубинная способность системы) и «исполнением» (performance — реальное проявление в практике). Ошибки человека (на 10–20%) из-за усталости или невнимательности аналитики списывают на издержки исполнения, сохраняя веру в его идеальную композициональную компетенцию. Однако при анализе нейросетей любой сбой интерпретируется как фундаментальное отсутствие способности. По мнению Лампинена, такое предвзятое отношение делает корректное сравнение моделей и людей крайне сложной задачей.

## 🚶‍♂️ Воплощённое познание и будущее исследований
[[JUMP:18:29]]

Говоря об оценке интеллектуального поведения моделей, ведущий признался, что сместился от радикальных позиций Эмили Бендер (о «стохастических попугаях») в сторону умеренного центра, принимая идею Мелани Митчелл (Melanie Mitchell) о «новом режиме понимания». Лампинен разделяет это мнение, подчеркивая, что текстовое понимание моделей фундаментально отличается от человеческого, которое является воплощенным (embodied) и укорененным в физическом опыте.

В качестве главного исследовательского вопроса на будущий год Лампинен выделил именно заземление в воплощенном сеттинге. Он планирует выяснить, какие концепты и насколько эффективнее может усвоить агент, обладающий физическим телом и взаимодействующий со средой, по сравнению с моделью, обучающейся исключительно на текстовом корпусе.

Отвечая на вопрос о приверженности популярному в когнитивистике направлению «4E» (Embodied, Embedded, Enacted, Extended — воплощенное, встроенное, энактивированное и расширенное познание), Лампинен охарактеризовал свою позицию как гибкую:

* Он находит воплощенный и инактивированный подходы крайне полезными метафорами.
* При этом он избегает жесткой привязки к вычислительному или репрезентативному радикализму.
* Особым источником вдохновения для него служит классическая работа Пола Сизека (Paul Cisek) «За пределами компьютерной метафоры: поведение как взаимодействие» (Beyond the computer metaphor: behavior as interaction).

По мнению Лампинена, догматическая приверженность одной крайней философской школе ограничивает науку. Оптимальный путь — обучать агентов решать практические задачи в мире, анализировать найденные ими вычислительные решения и на основе этого строить новые проверяемые гипотезы о работе человеческого мозга.