# Как адаптивные алгоритмы могут незаметно управлять поведением человека?

Источник: https://www.youtube.com/watch?v=_Z0wWY4lfyE
Канал: Stanford Online
Опубликовано: 09.05.2025

---

В рамках научного семинара Стэнфордского университета профессор факультета электротехники и компьютерной инженерии Вашингтонского университета (UW ECE) представил доклад о динамике взаимодействия человека и современных технических устройств. Его исследование демонстрирует, что когда человек и машина адаптируются друг к другу, их взаимодействие неизбежно превращается в полноценную математическую игру, исходы которой можно предсказывать и менять с помощью алгоритмов. На примерах от миоэлектрических контроллеров до высокоразмерных нейроинтерфейсов автор объясняет, как правильный выбор алгоритма обучения позволяет инженерам буквально конструировать поведение пользователя.

## 🤖 Когда интерфейс становится посредником
[[JUMP:0:09]]
Физическое взаимодействие человека с окружающим миром все чаще происходит через технологических посредников. Это проявляется в самых разных сферах — от робот-ассистированной хирургии, улучшающей клинические исходы, до инвазивных нейрокомпьютерных интерфейсов, возвращающих парализованным людям автономность и чувство собственного «я».

В качестве яркого примера докладчик приводит историю пациентки по имени Ян (Jan), которая смогла самостоятельно есть благодаря вживленному импланту. Другим направлением является расширение естественных способностей человека: так, разработка Стива Коллинза (Steve Collins) позволила снизить метаболические затраты при ходьбе сначала с помощью пассивного, а затем и активного экзоскелета.

Главная цель исследований профессора заключается в том, чтобы научиться предсказывать результаты таких взаимодействий и направлять их в сторону большей эффективности и удобства для пользователя. Его выступление разделено на две логические части:

* Изучение моделей, которые люди формируют в процессе управления машинами.
* Использование этих знаний для синтеза алгоритмов, позволяющих машинам эффективно обучаться у людей и взаимодействовать с ними.

## 📈 Что скрывает «черный ящик» человеческого контроля?
[[JUMP:2:35]]
Для изучения моделей управления исследователи используют парадигму, уходящую корнями в 1950-е годы, когда инженеры изучали поведение пилотов истребителей. В этой системе координат человек передает машине управляющий сигнал (ввод), а машина возвращает ему визуальный или иной отклик (вывод).

В рамках экспериментальной схемы важную роль играют два дополнительных фактора:

* Целевой сигнал (reference r), траекторию которого пользователь пытается повторить.
* Внешние возмущения (disturbances), которые усложняют задачу и одновременно помогают раскрыть скрытые параметры человеческих реакций.

Поскольку докладчик является специалистом по теории управления, он рассматривает всю систему как совокупность структурных схем и динамических уравнений. Главный вопрос здесь: что происходит внутри «черного ящика» трансформации сигналов человеком?

В литературе по моторному контролю принято считать, что человек формирует «прямые» и «обратные» модели своего тела или управляемого устройства. Обратная модель позволяет вычислить, какое усилие нужно приложить, чтобы курсор на экране повторил заданную кривую. В теории управления аналогичные механизмы называют контроллерами с упреждением (feedforward controllers), которые аппроксимируют инверсию динамики машины.

Эксперименты с интерфейсом первого порядка (управление скоростью курсора) показали, что динамика человеческих реакций оказывается на удивление линейной. Частотный анализ (диаграммы Боде) подтверждает, что упреждающий контроллер человека успешно строит приближенную инверсию модели машины. Однако человек не инвертирует систему идеально: наблюдается систематическое смещение, поскольку пользователь балансирует между снижением ошибки и минимизацией собственных физических или когнических усилий. При переходе к более сложной системе второго порядка люди демонстрируют совершенно другую, адаптированную под новые условия модель управления.

## 💪 Мышцы против джойстика: особенности миоэлектрических интерфейсов
[[JUMP:9:37]]
Ученые провели сравнение традиционного механического управления (джойстика) с миоэлектрическим интерфейсом, считывающим сигналы активации бицепса и трицепса пользователя. Задача оставалась прежней — минимизировать ошибку слежения за линией на экране.

Результаты тестирования показали любопытную закономерность:

* В системах первого порядка оба типа интерфейсов продемонстрировали сопоставимую точность и одинаковый уровень ошибки инверсии.
* В более сложных системах второго порядка миоэлектрический интерфейс показал значительно меньшую ошибку инверсии, то есть пользователи лучше осваивали и интернализировали сложную динамику через мышечную активность.

Докладчик признает, что точного механического объяснения этому феномену у науки пока нет. Однако, по его мнению, наиболее правдоподобная гипотеза заключается в разнице задержек сигнала: мышечная активация всегда предшествует реальному движению руки, поэтому миоэлектрический контур имеет меньшую задержку, что помогает точнее выстраивать упреждающие сигналы. Главный вывод этого этапа: люди гибко перестраивают свои внутренние модели в зависимости от динамики устройства.

## 🎮 Математические игры: когда обучаются оба
[[JUMP:12:44]]
Ситуация в корне меняется, если машина перестает быть статичным объектом и начинает применять собственные алгоритмы адаптации. В этот момент взаимодействие превращается в математическую игру с непрерывным временем и непрерывными переменными решений, где у каждого агента есть свои приоритеты.

В основе исследовательского подхода лежит базовая гипотеза теории управления: оба участника стремятся минимизировать свои функции стоимости (cost functions). Хотя в реальности мотивация людей гораздо сложнее, докладчик утверждает, что в жестко заданных лабораторных условиях человек ведет себя близко к математическому оптимизатору.

При этом исследователи не требуют от агентов глобальной идеальной оптимизации, а предполагают наличие у них ограниченной рациональности (bounded rationality). Это означает, что и машина, и человек используют методы локального поиска, аналогичные градиентному спуску — совершают небольшие шаги, оценивают последствия и корректируют стратегию.

Для проверки этих идей была создана простейшая скалярная игра. Пользователь двигал курсор по горизонтали, пытаясь сделать вертикальную полосу на экране как можно короче. Скрытый от него параметр машины также влиял на высоту этой полосы. Масштабировать эксперимент помогла краудсорсинговая платформа Prolific: вместо недель очных тестов ученые собирали данные сотен участников за один обеденный перерыв.

## ⚖️ От равновесия Нэша до диктата машины
[[JUMP:17:02]]
В играх с несовпадающими интересами (так называемых играх с ненулевой суммой) возможны различные типы финальных исходов (равновесий). Простейший вариант — равновесие Нэша, при котором ни один из игроков не может снизить свои издержки, изменив стратегию в одностороннем порядке. Другой вариант — равновесие Штакельберга, возникающее при строгой очередности ходов, когда один агент лидирует, а второй подстраивается под его действия.

В первом эксперименте машина адаптировалась с помощью градиентного спуска, а инженеры меняли скорость ее обучения (параметр альфа). Результаты выявили четкую закономерность:

* При крайне медленном обучении машины система предсказуемо сходилась к равновесию Нэша.
* С увеличением скорости адаптации машины происходил системный сдвиг в сторону человеко-центрированного равновесия Штакельберга.

Когда машина мгновенно реагирует на любые изменения, она фактически в реальном времени решает задачу наилучшего ответа, отдавая инициативу человеку. Тот факт, что траектории движения в пространстве действий плавно смещались от одной точки к другой, по словам автора, косвенно подтверждает гипотезу о том, что люди действительно используют механизмы, похожие на локальный градиентный спуск.

## 🧠 Бесконечный регресс и границы рациональности
[[JUMP:24:19]]
Второй эксперимент был нацелен на достижение конъюнктурного равновесия (conjectural equilibrium). Этот концепт описывает ситуацию, когда и человек, и машина строят внутренние модели друг друга. В теории это порождает бесконечный регресс: человек думает о том, как машина думает о человеке, машина пытается просчитать этот шаг, и так далее. Интересно, что математически этот сложнейший тип равновесия был описан еще в 1924 году, задолго до классических работ Джона Нэша 1950-х годов.

Чтобы реализовать этот сценарий, машина совершала небольшие колебания своих параметров, оценивая реакцию человека и обновляя свою модель его поведения. Эксперимент подтвердил: система успешно переходила к конъюнктурному равновесию. По мнению докладчика, это служит сильным доказательством того, что люди способны обучаться внутренней модели алгоритма, с которым они взаимодействуют.

Профессор Стэнфордского университета Дорса Садиг (Dorsa Sadigh) в ходе дискуссии поинтересовалась, как именно ограниченная рациональность проявляется на практике. Она привела аналогию с вождением автомобиля: в реальном трафике люди не уходят в бесконечный регресс мыслей, так как ограничены во времени, и используют максимум два уровня «теории разума». Также она напомнила про эксперименты с игрой Lunar Lander, где люди управляют плохо не из-за глупости, а потому что ошибочно пытаются применять декартов контроль там, где нужно управлять ускорением и двигателями. Докладчик согласился с тем, что тип достигаемого равновесия как раз и отражает глубину стратегического мышления человека в конкретной игре, а само исследование можно назвать хроникой ограничений человеческих возможностей — как на когнитивном, так и на сенсомоторном уровнях.

## 🕹️ Как машина перехитряет человека
[[JUMP:32:49]]
В третьем эксперименте исследователи решили проверить, может ли машина принудительно направить систему к своему собственному глобальному минимуму стоимости, который крайне неверен и невыгоден для человека. Для этого машина использовала алгоритм политического градиента (policy gradient), меняя наклон своей линейной стратегии и отслеживая реакцию пользователя.

Результат оказался поразительным: система сошлась к так называемому обратному равновесию Штакельберга (Reverse Stackelberg Equilibrium, RSE). Машина фактически создала такие условия и стимулы, при которых человек, действуя в рамках своей локальной рациональности, сам пришел в нужную ей точку.

По словам докладчика, в этой игре алгоритм полностью перехитрил и подчинил себе человека. Это делает исследование весьма отрезвляющим: простые адаптивные алгоритмы в физических устройствах вокруг нас способны жестко программировать, обусловливать и менять человеческое поведение, если пользователь не понимает глобальной логики работы системы. Исход взаимодействия определяет именно выбор алгоритма со стороны машины.

## 🦾 Управление усилиями в высокоразмерных нейроинтерфейсах
[[JUMP:36:04]]
В финальной части доклада ученые перенесли эти принципы в область высокоразмерных неинвазивных нейрокомпьютерных интерфейсов, разработанных совместно с нейробиологом Эми Орсборн (Amy Orsborne). На предплечье испытуемого накладывалась матрица из 64 EMG-электродов высокого разрешения. Программный декодер преобразовывал этот массив данных в двухмерную скорость движения курсора, которым нужно было отслеживать сложную кривую на экране.

Для этого эксперимента была задана комплексная функция стоимости, состоящая из двух компонентов — ошибки слежения и усилий декодера (размера матрицы усиления). Исследователи исходили из предположения, что мозг человека минимизирует аналогичные параметры — ошибку и собственное мышечное напряжение. Штраф за усилия работает как регуляризация (по аналогии со стандартным линейно-квадратичным регулятором LQR в теории управления), не позволяя бесконечно завышать коэффициенты усиления и плодить шумы.

Математическая модель предсказала, что мозг и декодер будут стремиться взаимно инвертировать друг друга. Практические тесты подтвердили эти выводы, продемонстрировав стабильность замкнутого контура. Главное достижение эксперимента заключалось в управлении параметром штрафа машины (лямбда):

* При повышении лямбды затраты усилий со стороны машины снижались.
* Человеку (энкодеру) приходилось зеркально увеличивать свои мышечные усилия и коэффициенты усиления, чтобы компенсировать пассивность машины.

По мнению автора, это открывает огромные перспективы для медицины. В контексте клинической реабилитации врачи смогут через тонкую настройку параметров машинного обучения строго дозировать и направлять физические усилия, которые пациент должен прикладывать при выполнении упражнений.

## ❓ Будущее теории игр во взаимодействии людей и ИИ
[[JUMP:46:10]]
В финальной дискуссии слушатели подняли вопросы о расширении рамок исследования. Отвечая на вопрос о применимости подхода вне задач моторного контроля, докладчик отметил прямые перспективы интеграции теории игр в носимую электронику, экзоскелеты и инвазивные интерфейсы. Однако вопрос о том, стоит ли человеку и крупным роботам делить одно физическое пространство, по его признанию, остается открытым и дискуссионным.

Другой участник семинара спросил о будущем систем в эпоху больших языковых моделей (LLM), которые дают машинам семантическое понимание человека. Ученый признался, что точного ответа у него нет, но упомянул работы своей коллеги Лиллиан Рэтлифф (Lillian Ratliff), исследующей взаимодействие двух крупномасштабных ИИ-алгоритмов. По его мнению, в будущем было бы потрясающе зафиксировать и математически описать равновесие Нэша между LLM и человеком, хотя для этого сначала нужно строго формализовать функции стоимости, которые они минимизируют.

Также обсуждались альтернативные методы оптимизации без вычисления градиентов (методы второго порядка) и проекция теории на спорт. Докладчик согласился, что в динамичных играх, таких как настольный теннис, соперники непрерывно строят модели друг друга и мгновенно эксплуатируют любые слабости оппонента. В шутку он добавил, что регулярно тестирует уровни стратегического мышления и границы рациональности на своей семилетней дочери во время совместных настольных и спортивных игр.