Лекция Стэнфорда об основах обучения ИИ на предпочтениях человека

Stanford Online 2,2 тыс. 1 ч 19 мин 6 мин 11.09.2025
Главное

Лекция из курса Стэнфордского университета CS329H (осень 2024 года) посвящена моделям дискретного выбора, которые составляют фундамент современных систем обучения ИИ на основе предпочтений человека (RLHF). В материале подробно рассматриваются математические основы теории полезности, трансформация классических экономических инструментов в алгоритмы машинного обучения, а также прагматичные компромиссы при проектировании таких пайплайнов. Особое внимание уделяется базовым допущениям о рациональности человеческого поведения и фундаментальным различиям между реальными и гипотетическими данными исследований.

🚗 Теория дискретного выбора: от логистики до языковых моделей 0:05

Основная цель моделирования выбора заключается в создании набора инструментов, помогающих предсказать поведение отдельного человека или группы людей в конкретном контексте. В рамках машинного обучения этот процесс выглядит стандартно: исследователь наблюдает за решениями людей, формирует на основе этих наблюдений датасет, обучает модель и использует её для прогнозирования будущих выборов в абсолютно новых условиях. Подобные методы находят широкое прикладное применение в самых разных сферах:

🕰️ Эволюция моделей выбора: от изучения еды до Нобелевской премии 7:17

Теория моделирования выбора развивалась на протяжении последнего столетия, объединяя психологию, микроэкономику и компьютерные науки. Первые зафиксированные исследования в этой области восходят к 1920-м годам, когда Луи Терстоун (Thurstone) изучал структуру пищевых предпочтений людей. Позже, в 1959 году, Дункан Люс (Luce) разработал логит-анализ для качественного поведения выбора. В 1970-х годах эти идеи окончательно трансформировались в математический базис микроэкономики и прикладной теории полезности.

Пиком академического признания этого математического аппарата дискретного выбора стало вручение Нобелевской премии по экономике Дэниелу Макфаддену (McFadden) в 2000 году. Профессор подчеркивает, что теоретические наработки Макфаддена имели колоссальное практическое значение для урбанистики. Ученый использовал свои модели для проектирования транспортной системы BART (Bay Area Rapid Transit) в Сан-Франциско, рассчитывая вероятные предпочтения населения для точного планирования маршрутов и мест размещения станций метро. Сегодня те же концепции вековой давности остаются ключевой технологией ИИ.

🧮 Математический фундамент: скрытая полезность и её свойства 12:25

В основе дискретных моделей лежит фундаментальное допущение о существовании так называемой полезности (utility), которую в экономике трактуют как выгоду или ценность, а в обучении с подкреплением — как вознаграждение (reward). Ключевой постулат заключается в том, что полезность предмета напрямую связана с частотой, с которой человек выбирает его при многократном сравнении с альтернативами. Лектор отмечает, что истинная полезность принципиально ненаблюдаема — это латентная переменная, которую можно измерить только через выраженные или выявленные предпочтения.

При попарном сравнении объектов $i$ и $j$ исследователь фиксирует дискретную бинарную метку $Y$, равную 1, если выбран первый объект, и 0 в противном случае. Математическое описание процесса строится на векторе признаков $Z$ (или $X$), который кодирует характеристики как самого человека, так и доступных альтернатив. Профессор обращает внимание на важные математические инварианты функции полезности:

Поскольку модель фиксирует исключительно информацию о порядке предпочтений (ранжировании), выученную функцию полезности невозможно напрямую сравнивать для разных датасетов или контекстов. По словам лектора, в экономике и психологии для решения этой проблемы традиционно используют нормализацию, например, стандартизацию дисперсии шума.

📉 Бинарный выбор: мост к логистической регрессии 27:29

В простейшем сценарии с двумя альтернативами математический аппарат существенно упрощается. Если предположить, что случайный шум в оценке альтернатив распределен независимо и одинаково (IID) по закону экстремальных значений (extreme value noise), то вероятность выбора объекта сводится к стандартной логистической функции. Таким образом, алгоритмом для настройки параметров $\beta$ становится обычная логистическая регрессия. Если же в качестве модели шума выбрать стандартное нормальное распределение, получается пробит-модель (probit model).

В ходе лекции возникла дискуссия о поведении моделей при обработке данных от множества разных людей. Лектор выделил три основных подхода к моделированию индивидуальных различий:

  1. Полное объединение (pooling): допущение, что у всех людей одинаковая функция полезности, а их действия — это просто разные наблюдения одной системы.
  2. Изолированные модели: обучение персональной модели для каждого пользователя, что лишает систему преимуществ совместного обучения.
  3. Связанные параметры: компромиссный вариант, где индивидуальные параметры $\beta$ связаны между собой (например, через структуру низкого ранга).

Для многоклассового выбора из $J$ альтернатив применяется мультиклассовая логистическая регрессия. Профессор указал, что для учета корреляции между случайными факторами разных вариантов можно использовать гауссовский шум с заданной ковариационной матрицей. На практике такие вычисления реализуются через стандартные библиотеки Python (например, statsmodels) или пакеты языка R. При этом к моделям выбора в полной мере применимы классические концепции машинного обучения, включая дилемму смещения-дисперсии и риск переобучения при избыточной сложности функций.

📊 Шкала Лайкерта и модель Плакетта-Люса для ранжирования 57:14

Реальные предпочтения часто выходят за рамки бинарного выбора «да/нет». Например, при использовании шкалы Лайкерта (оценка от 1 до 5) модель должна оперировать набором упорядоченных порогов. Для решения таких задач применяется упорядоченная логит-модель (ordered logit model), параметры которой настраиваются методом максимального правдоподобия с помощью градиентного спуска. Если же исследователю необходимо смоделировать полный ранжированный список из $J$ элементов, стандартом становится модель Плакетта-Люса (Plackett-Luce), разработанная в 1970-х годах и активно применяемая в биомедицине и генетике. Она раскладывает вероятность упорядоченного списка на произведение последовательных выборов: сначала определяется вероятность первого места, затем второго из оставшихся, и так далее.

Один из студентов поднял критический вопрос: что происходит с моделью, если предпочтения человека цикличны и транзитивность нарушается (например, пользователь предпочитает вариант A варианту B, B предпочитает C, но C выбирает вместо A)? Лектор признал, что вся классическая теория опирается на аксиому «рационального выбора», которая исключает подобные циклы на уровне математического ожидания. По мнению профессора, кажущаяся иррациональность людей часто объясняется банальной нехваткой признаков в модели: добавление правильного контекста способно вернуть систему в рамки транзитивности.

👥 Дилемма данных: выявленные предпочтения против заявленных 1:07:37

Сбор данных о предпочтениях всегда упирается в выбор методологии. Лектор подробно описал две фундаментальные категории данных:

Главный плюс заявленных предпочтений — идеальный контроль над экспериментом и отсутствие вмешивающихся факторов (конфаундеров). Однако их критикуют за нереалистичность. Лектор привел в пример выборы: люди могут декларировать голосование за одного кандидата, но в кабинке поступить иначе. В обучении языковых моделей исследователи чаще всего работают именно с заявленными предпочтениями, когда асессоры в комнате кликают на микро-варианты текстов, не неся никаких финансовых или жизненных издержек за свой выбор.

Реальный мир, напротив, полон шума. Профессор поделился забавной личной историей о том, как его трехлетняя дочь берет его смартфон и начинает хаотично нажимать и свайпать видео на YouTube, генерируя крайне искаженные сигналы для рекомендательного алгоритма, которые требуют серьезной очистки. В финале дискуссии студенты отметили важный психологический аспект: когда на кону стоят собственные деньги, люди склонны к неприятию риска (risk averse), тогда как в гипотетических симуляциях заявленных предпочтений они ведут себя как классические максимизаторы ожидаемой полезности, поскольку ничем не рискуют.

💬 Цитаты

«Истинная полезность принципиально ненаблюдаема — это латентная переменная, которую можно измерить только через выраженные предпочтения.»

Лектор Стэнфорда 13:47

«Когда на кону стоят собственные деньги, люди склонны к неприятию риска.»

👥 Спикер
📖 Термины
Полезность (Utility)
Латентная переменная, отражающая субъективную ценность или вознаграждение, которое человек получает от выбора альтернативы.
Модель Плакетта-Люса
Вероятностная модель для ранжирования списка элементов через последовательный выбор лучшего из оставшихся вариантов.
Заявленные предпочтения
Выбор, который человек совершает в гипотетических или лабораторных условиях без реальных экономических последствий.
📊 Цифры
🗓 Хронология
  1. 1920-е Луи Терстоун проводит первые исследования пищевых предпочтений.
  2. 1959 Дункан Люс разрабатывает логит-анализ для моделирования качественного выбора.
  3. 1970-е Теория дискретного выбора интегрируется в микроэкономику и применяется для проектирования метро BART.
  4. 2000 Дэниел Макфадден получает Нобелевскую премию за теоретический фундамент дискретного выбора.
  5. 2024 В Стэнфорде читается курс CS329H, связывающий классические модели выбора с обучением ИИ.
⚖️ Другая сторона
Искусственный интеллект Stanford Online теория полезности модель Плакетта-Люса логистическая регрессия дискретный выбор