Лекция Стэнфорда об основах обучения ИИ на предпочтениях человека

Лекция из курса Стэнфордского университета CS329H (осень 2024 года) посвящена моделям дискретного выбора, которые составляют фундамент современных систем обучения ИИ на основе предпочтений человека (RLHF). В материале подробно рассматриваются математические основы теории полезности, трансформация классических экономических инструментов в алгоритмы машинного обучения, а также прагматичные компромиссы при проектировании таких пайплайнов. Особое внимание уделяется базовым допущениям о рациональности человеческого поведения и фундаментальным различиям между реальными и гипотетическими данными исследований.

🚗 Теория дискретного выбора: от логистики до языковых моделей 0:05

Основная цель моделирования выбора заключается в создании набора инструментов, помогающих предсказать поведение отдельного человека или группы людей в конкретном контексте. В рамках машинного обучения этот процесс выглядит стандартно: исследователь наблюдает за решениями людей, формирует на основе этих наблюдений датасет, обучает модель и использует её для прогнозирования будущих выборов в абсолютно новых условиях. Подобные методы находят широкое прикладное применение в самых разных сферах:

Маркетинг: прогнозирование предпочтений потенциальных клиентов на коммерческих сайтах (например, автодилеров) с использованием вектора признаков товара (бренд, цена) и демографических данных самих пользователей.
Транспортное планирование и логистика: построение оптимальных маршрутов и графиков доставки с учетом погоды, трафика, стоимости проезда и личных приоритетов водителя, таких как готовность ехать дольше ради высокой скорости или выбор кратчайшего пути.
Управление энергопотреблением: планирование и оптимизация последовательности действий потребителей или цепочек поставок.
Большие языковые модели (LLM): моделирование предпочтений человека при оценке качества сгенерированных текстов и документов на втором этапе обучения современных нейросетей.

🕰️ Эволюция моделей выбора: от изучения еды до Нобелевской премии 7:17

Теория моделирования выбора развивалась на протяжении последнего столетия, объединяя психологию, микроэкономику и компьютерные науки. Первые зафиксированные исследования в этой области восходят к 1920-м годам, когда Луи Терстоун (Thurstone) изучал структуру пищевых предпочтений людей. Позже, в 1959 году, Дункан Люс (Luce) разработал логит-анализ для качественного поведения выбора. В 1970-х годах эти идеи окончательно трансформировались в математический базис микроэкономики и прикладной теории полезности.

Пиком академического признания этого математического аппарата дискретного выбора стало вручение Нобелевской премии по экономике Дэниелу Макфаддену (McFadden) в 2000 году. Профессор подчеркивает, что теоретические наработки Макфаддена имели колоссальное практическое значение для урбанистики. Ученый использовал свои модели для проектирования транспортной системы BART (Bay Area Rapid Transit) в Сан-Франциско, рассчитывая вероятные предпочтения населения для точного планирования маршрутов и мест размещения станций метро. Сегодня те же концепции вековой давности остаются ключевой технологией ИИ.

🧮 Математический фундамент: скрытая полезность и её свойства 12:25

В основе дискретных моделей лежит фундаментальное допущение о существовании так называемой полезности (utility), которую в экономике трактуют как выгоду или ценность, а в обучении с подкреплением — как вознаграждение (reward). Ключевой постулат заключается в том, что полезность предмета напрямую связана с частотой, с которой человек выбирает его при многократном сравнении с альтернативами. Лектор отмечает, что истинная полезность принципиально ненаблюдаема — это латентная переменная, которую можно измерить только через выраженные или выявленные предпочтения.

При попарном сравнении объектов $i$ и $j$ исследователь фиксирует дискретную бинарную метку $Y$, равную 1, если выбран первый объект, и 0 в противном случае. Математическое описание процесса строится на векторе признаков $Z$ (или $X$), который кодирует характеристики как самого человека, так и доступных альтернатив. Профессор обращает внимание на важные математические инварианты функции полезности:

Аддитивная инвариантность: добавление любой положительной константы ко всем значениям полезности не меняет итоговый выбор, так как разница между альтернативами при вычитании остается прежней.
Инвариантность к масштабу: глобальное масштабирование (умножение на коэффициент) сохраняет исходную структуру вероятностей выбора.

Поскольку модель фиксирует исключительно информацию о порядке предпочтений (ранжировании), выученную функцию полезности невозможно напрямую сравнивать для разных датасетов или контекстов. По словам лектора, в экономике и психологии для решения этой проблемы традиционно используют нормализацию, например, стандартизацию дисперсии шума.

📉 Бинарный выбор: мост к логистической регрессии 27:29

В простейшем сценарии с двумя альтернативами математический аппарат существенно упрощается. Если предположить, что случайный шум в оценке альтернатив распределен независимо и одинаково (IID) по закону экстремальных значений (extreme value noise), то вероятность выбора объекта сводится к стандартной логистической функции. Таким образом, алгоритмом для настройки параметров $\beta$ становится обычная логистическая регрессия. Если же в качестве модели шума выбрать стандартное нормальное распределение, получается пробит-модель (probit model).

В ходе лекции возникла дискуссия о поведении моделей при обработке данных от множества разных людей. Лектор выделил три основных подхода к моделированию индивидуальных различий:

Полное объединение (pooling): допущение, что у всех людей одинаковая функция полезности, а их действия — это просто разные наблюдения одной системы.
Изолированные модели: обучение персональной модели для каждого пользователя, что лишает систему преимуществ совместного обучения.
Связанные параметры: компромиссный вариант, где индивидуальные параметры $\beta$ связаны между собой (например, через структуру низкого ранга).

Для многоклассового выбора из $J$ альтернатив применяется мультиклассовая логистическая регрессия. Профессор указал, что для учета корреляции между случайными факторами разных вариантов можно использовать гауссовский шум с заданной ковариационной матрицей. На практике такие вычисления реализуются через стандартные библиотеки Python (например, statsmodels) или пакеты языка R. При этом к моделям выбора в полной мере применимы классические концепции машинного обучения, включая дилемму смещения-дисперсии и риск переобучения при избыточной сложности функций.

📊 Шкала Лайкерта и модель Плакетта-Люса для ранжирования 57:14

Реальные предпочтения часто выходят за рамки бинарного выбора «да/нет». Например, при использовании шкалы Лайкерта (оценка от 1 до 5) модель должна оперировать набором упорядоченных порогов. Для решения таких задач применяется упорядоченная логит-модель (ordered logit model), параметры которой настраиваются методом максимального правдоподобия с помощью градиентного спуска. Если же исследователю необходимо смоделировать полный ранжированный список из $J$ элементов, стандартом становится модель Плакетта-Люса (Plackett-Luce), разработанная в 1970-х годах и активно применяемая в биомедицине и генетике. Она раскладывает вероятность упорядоченного списка на произведение последовательных выборов: сначала определяется вероятность первого места, затем второго из оставшихся, и так далее.

Один из студентов поднял критический вопрос: что происходит с моделью, если предпочтения человека цикличны и транзитивность нарушается (например, пользователь предпочитает вариант A варианту B, B предпочитает C, но C выбирает вместо A)? Лектор признал, что вся классическая теория опирается на аксиому «рационального выбора», которая исключает подобные циклы на уровне математического ожидания. По мнению профессора, кажущаяся иррациональность людей часто объясняется банальной нехваткой признаков в модели: добавление правильного контекста способно вернуть систему в рамки транзитивности.

👥 Дилемма данных: выявленные предпочтения против заявленных 1:07:37

Сбор данных о предпочтениях всегда упирается в выбор методологии. Лектор подробно описал две фундаментальные категории данных:

Выявленные предпочтения (revealed preferences): наблюдение за реальными действиями людей в настоящих жизненных ситуациях (покупка автомобиля, просмотр видео).
Заявленные предпочтения (stated preferences): гипотетические ответы испытуемых в контролируемой лабораторной среде (опросы, анкетирование, оценка ответов LLM).

Главный плюс заявленных предпочтений — идеальный контроль над экспериментом и отсутствие вмешивающихся факторов (конфаундеров). Однако их критикуют за нереалистичность. Лектор привел в пример выборы: люди могут декларировать голосование за одного кандидата, но в кабинке поступить иначе. В обучении языковых моделей исследователи чаще всего работают именно с заявленными предпочтениями, когда асессоры в комнате кликают на микро-варианты текстов, не неся никаких финансовых или жизненных издержек за свой выбор.

Реальный мир, напротив, полон шума. Профессор поделился забавной личной историей о том, как его трехлетняя дочь берет его смартфон и начинает хаотично нажимать и свайпать видео на YouTube, генерируя крайне искаженные сигналы для рекомендательного алгоритма, которые требуют серьезной очистки. В финале дискуссии студенты отметили важный психологический аспект: когда на кону стоят собственные деньги, люди склонны к неприятию риска (risk averse), тогда как в гипотетических симуляциях заявленных предпочтений они ведут себя как классические максимизаторы ожидаемой полезности, поскольку ничем не рискуют.