«Пощекотать ChatGPT»: зачем на самом деле нужны промт-инженеры

В рамках учебного курса Стэнфордского университета CS329H состоялась лекция, посвященная человекоориентированному дизайну в эпоху бурного развития искусственного интеллекта. Лектор подробно разобрал, почему современная необходимость подбирать «магические промты» для языковых моделей является признаком несовершенства технологий, и как методы взаимодействия человека и компьютера (HCI) помогают преодолеть этот разрыв. В материале рассматриваются ключевые концепции дизайн-мышления, практические примеры гибридных интерфейсов и многоуровневые методологии оценки систем машинного обучения.

🚪 Парадокс «дверей Нормана» в искусственном интеллекте 0:05

Дискуссия о дизайне современных систем искусственного интеллекта начинается с фундаментального сдвига парадигмы — перехода от обсуждения технических алгоритмов к анализу того, как люди взаимодействуют с технологиями. В качестве классической аналогии лектор Стэнфордского университета приводит концепцию «дверей Нормана». Каждый человек сталкивался с дверью, которую совершенно непонятно как открывать: на ней есть ручка, но нужно ли ее толкать, тянуть или сдвигать в сторону — остается загадкой. Ни одно из очевидных действий не срабатывает, так как дверь оказывается раздвижной.

Традиционно в обществе принято считать, что если пользователь совершает ошибку при работе с устройством, то проблема кроется в его собственной невнимательности или нехватке практических навыков. Однако ключевой тезис лекции заключается в противоположном: подобные ситуации — это исключительно следствие плохого дизайна. Инфраструктура мира, включая создаваемые инструменты искусственного интеллекта, зачастую не работает для людей именно потому, что она изначально не была спроектирована должным образом с учетом человеческого фактора. Обучение на основе человеческих предпочтений должно стать мощным инструментом для исправления этих ошибок.

Эта проблема особенно актуальна для крупномасштабных языковых моделей. По мнению лектора, текущее положение дел в индустрии, когда основным способом взаимодействия с ИИ стали «магические промты», выглядит крайне странно. Пользователи вынуждены заниматься ментальной гимнастикой, пытаясь угадать точные формулировки, чтобы заставить модель выполнить простую задачу. В ИИ-среде даже сформировалась целая культура инфлюенсеров, создающих гайдлайны по промтингу. С точки зрения человекоориентированного дизайна, необходимость в таких ухищрениях — это прямое свидетельство провала разработчиков интерфейса, создавших хаотичный процесс с непредсказуемым результатом.

При этом в ходе лекции возникла дискуссия с аудиторией. Один из студентов резонно отметил, что в случае с обычными дверьми их создатели досконально понимают физику процесса, тогда как внутренние механизмы работы современных нейросетей во многом остаются «черным ящиком». Лектор согласился с этим аргументом, признав, что неопределенность усложняет задачу. Тем не менее, по его словам, хрупкость методов оптимизации и наше неполное понимание внутренних процессов ИИ не должны служить оправданием для отказа от попыток создавать стабильные, удобные и интуитивно понятные продукты.

🖥️ Эволюция интерфейсов: от перфокарт до чат-ботов 11:55

Главная задача дисциплины человеко-компьютерного взаимодействия (HCI) — сократить ментальный разрыв между возможностями человека и функциями компьютера. Исторически этот процесс шел по пути постепенного расширения возможностей вычислительной техники ради удобства пользователя. Эволюционный трек можно представить в виде последовательной цепочки технологий:

Перфокарты: требовали от оператора буквального программирования на физическом уровне, полностью исключая массовое использование технологии обычными людьми.
Командная строка (CLI): значительно продвинула индустрию вперед, однако до сих пор требует от пользователя высочайшего уровня экспертизы и знания специфических команд.
Графический пользовательский интерфейс (GUI): совершил революцию за счет внедрения понятных визуальных метафор, иконок, манипуляторов типа «мышь» и сенсорных экранов.

По мнению спикера, аналогичный путь сегодня проделывают и технологии искусственного интеллекта. Сначала для работы с ИИ требовалось писать сложный код, затем появилось промтирование, а сегодня стандартом становятся диалоговые интерфейсы (чат-боты). Успех современных ИИ-продуктов во многом обусловлен тем, что они позволили неподготовленным пользователям решать реальные задачи на естественном языке. Однако лектор считает, что пропасть между желанием пользователя и интерфейсом ИИ все еще шире, чем в традиционных компьютерных системах, и перед разработчиками стоит вызов по созданию принципиально новых механик взаимодействия.

В контексте радикального упрощения интерфейсов слушатели лекции подняли вопрос о перспективах технологии Neuralink, позволяющей подключаться к компьютеру напрямую через мозг. Размышляя об этом, лектор высказал мнение, что широкое внедрение подобных имплантов займет много времени, так как текущие прототипы все еще обладают крайне ограниченной пропускной способностью передачи данных и требуют от человека высокой концентрации. Кроме того, по его прогнозам, помимо чисто технологических барьеров, человечеству придется столкнуться со сложнейшими проблемами социального управления и этики, ведь далеко не каждый готов пойти на рискованную хирургическую операцию ради интерфейса. На данный момент технология успешно решает узкие медицинские задачи для людей с тяжелыми неврологическими расстройствами, но до массового моста между разумом и ИИ еще далеко.

Другой важный аспект эволюции интерфейсов — это уровень подготовки самого пользователя. Отвечая на вопрос о роли образования, лектор подчеркнул, что проектирование систем должно быть глубоко контекстуальным. Разработчик обязан четко понимать, для кого он создает инструмент, чтобы образование или бэкграунд человека не становились дискриминирующим фактором, отсекающим его от использования технологий.

🎯 Техноцентричный подход против человекоориентированного дизайна 24:05

В современной IT-индустрии лектор выделяет два противоположных лагеря разработчиков. Первый практикует техноцентричный дизайн (Technology-centric design), когда инженеры развивают технологию ради самой технологии, стремясь оптимизировать абстрактные метрики. В таком сценарии пользователи превращаются в обезличенные цифры на графиках. Обратной стороной техноцентризма становится то, что создав очередную крутую модель, инженеры начинают лихорадочно искать, к какой бы реальной проблеме ее применить.

Второй лагерь опирается на принципы человекоориентированного дизайна (User-centric design), где в центр процесса ставится конкретный пользователь, его потребности и боли. Идеально спроектированная технология, согласно цитате исследователя Марка Вайзера, должна буквально «исчезать», бесшовно вплетаясь в ткань повседневной жизни, как это произошло с сенсорными экранами. Полноценный дизайн не требует от человека изучения толстых мануалов.

Современные популярные чат-боты, по мнению лектора, представляют собой компромиссную смесь обоих подходов. С одной стороны, фундаментальные базовые языковые модели обладают колоссальными массивами информации, но напрямую взаимодействовать с ними невероятно сложно. С другой стороны, такие методы как контролируемое тонкое обучение (SFT) и настройка на основе предпочтений человека (RLHF) решают именно интерфейсную задачу. Они переводят скрытые возможности модели на язык удобного для пользователя чата. Но как только система начинает ошибаться, интерфейс снова скатывается в техноцентризм, требуя от человека навыков промт-инжиниринга.

💎 Метод «двойного алмаза» и дизайн-мышление 29:17

Для преодоления техноцентричных ловушек в методологии HCI активно применяется концепция дизайн-мышления, которая бросает вызов стандартному инженерному approach. Обычно программиста зажигает сама техническая задача: он находит проблему и сразу же пишет для нее решение. Дизайн-мышление требует остановиться и многократно задать вопрос «Почему?» (методика «пяти почему»), чтобы докопаться до первопричины проблемы.

В качестве исторического примера лектор вспомнил знаменитое изречение Генри Форда: «Если бы я спросил людей, чего они хотят, они бы попросили более быстрых лошадей». Обыватель видит проблему поверхностно (нужно быстрее перемещаться, значит, надо ускорить лошадь), и только глубокая деконструкция позволяет понять истинный запрос и создать принципиально новый продукт — автомобиль.

Для операционализации этого процесса используется знаменитый метод «двойного алмаза» (Double Diamond), состоящий из двух ключевых фаз, каждая из которых включает этапы расхождения (дивергенции) и схождения (конвергенции):

Алмаз проблемы:
- Открытие (Discovery): этап расширения контекста, включающий полевые исследования, глубинные интервью, опросы и анализ рынка для сбора всех возможных «почему».
- Определение (Define): этап синтеза и сужения, когда с помощью таких инструментов, как партисипативный дизайн и диаграммы сродства (affinity diagrams), хаотичные данные группируются для точной формулировки корневой причины проблемы.
Алмаз решения:
- Разработка (Develop): этап генерации идей, создания сценариев (storytelling) и быстрых «грязных» прототипов.
- Реализация (Deliver): тестирование прототипов в реальном контексте пользователей и создание минимально жизнеспособного продукта (MVP).

Лектор акцентирует внимание на том, что этот процесс никогда не бывает линейным. На практике «двойной алмаз» превращается в расширяющуюся спираль или петлю: разработчики развертывают MVP, наблюдают за реакцией пользователей, обнаруживают новые скрытые проблемы и заходят на следующий круг проектирования.

🪄 Промт-инжиниринг как интерфейс высокой неопределенности 43:52

Рассматривая промт-инжиниринг через призму UX-дизайна, исследователи констатируют его фундаментальную несостоятельность. Хороший интерфейс спроектирован так, чтобы переводить пользователя из зоны высокой неопределенности в зону понятных, надежных и предсказуемых действий. Промтинг же оставляет пользователя в состоянии вечного хаоса.

Главная беда промтинга — его тотальная хрупкость. По словам лектора, стоит компании OpenAI изменить номер версии модели или обновить алгоритм под капотом, как идеально настроенный промт, над которым команда трудилась месяцами, полностью ломается. Живой отклик аудитории в зале подтвердил, что с этим регулярно сталкиваются все разработчики коммерческих ИИ-продуктов. Лектор процитировал популярную в индустрии шутку: «Промт-инженеры существуют лишь для того, чтобы пощекотать ChatGPT в правильном месте, дабы она выплюнула нужный ответ».

В конечном итоге, чтобы добиться от модели хоть какой-то стабильности результатов, промты разрастаются до огромных, жестко структурированных шаблонов. В этот момент естественный язык ИИ окончательно перестает быть естественным, превращаяся в подобие стилизованного языка программирования или командной строки, недоступного для обычных людей.

🎨 Гибридные интерфейсы: кейс системы PromptCharm 48:06

В качестве эффективного решения проблемы «слепого» промтинга лектор привел исследование своих коллег, разработавших систему PromptCharm для гибридного взаимодействия с визуальными языковыми моделями (VLM). Изучая поведение новичков, авторы обнаружили огромный концептуальный разрыв: люди прекрасно представляют, какую картинку они хотят получить, но совершенно не умеют выразить это нужными для нейросети словами.

Чтобы преодолеть этот барьер, в интерфейс системы PromptCharm были заложены пять ключевых шагов автоматизации и контроля:

Автоматическое расширение и редактирование текста. Пользователь вводит простую фразу (например, «картина с волком у луны»), а система сама дописывает профессиональные параметры: указывает конкретный художественный стиль, освещение или тег «trending on ArtStation». При этом, в отличие от коммерческих чат-ботов, этот процесс открыт — пользователь видит изменения и может их скорректировать.
Помощь в исследовании (Exploration). Графический интерфейс предлагает подсказки с именами художников или стилей, помогая сформировать точный ментальный образ.
Быстрое прототипирование. Система мгновенно генерирует дешевые изображения в низком разрешении, используя особенности диффузионных моделей, что позволяет пользователю быстро выбрать лучшее направление движения.
Постхок-объяснения на основе кросс-внимания. Алгоритм анализирует веса кросс-внимания (cross-attention) в модели Stable Diffusion и подсвечивает пользователю, какие именно слова в промте повлияли на конкретные области сгенерированной картинки.
Прямое манипулирование (Inpainting). Вместо бесконечного переписывания текста пользователь может просто выделить мышкой область на картинке (например, гору на заднем плане) и стереть ее или дорисовать поверх новый объект с помощью простых инструментов.

Подобные гибридные интерфейсы доказывают, что правильная комбинация текстового ввода и классических элементов GUI позволяет пользователям добиваться качественных результатов без необходимости тратить годы на изучение недокументированных особенностей нейросетей.

🤝 Проблема калибровки доверия и этика систем 56:31

Проектирование интерактивных систем с ИИ неизбежно упирается в психологические аспекты, среди которых ключевыми являются понятия доверия (trust) и опоры (reliance). Доверие — это субъективная человеческая оценка надежности и честности машины. Опора — это фактическая зависимость человека от действий ИИ при выполнении задачи.

Лектор описывает четыре квадранта взаимодействия человека и ИИ, обращая внимание на две опасные зоны декалибровки:

Недодоверие (Underreliance): пользователь сталкивается с единичной ошибкой системы, разочаровывается, начинает считать технологию «мусором» и полностью отвергает подсказки ИИ, даже когда они абсолютно верны.
Слепое овеществление / Сверхдоверие (Overreliance / Automation bias): человек бездумно принимает любые решения алгоритма, делегируя ему ответственность, что критично в ситуациях, когда ИИ ошибается.

Для калибровки доверия и удержания пользователя в «зеленой» зоне адекватного восприятия лектор предлагает использовать интерфейсные триггеры. Во-первых, демонстрация неопределенности: вместо точных процентов ИИ должен выдавать понятные человеку диапазоны («низкий», «средний», «высокий» уровень уверенности). Во-вторых, визуализация процесса работы: как показывает практика, когда интерфейс демонстрирует, что внутри происходит вычисление и «осмысление» сложной задачи, люди строят более адекватные ментальные модели и точнее оценивают сложность процессов.

Отдельный пласт проектирования — это подотчетность (accountability) и этика. Ошибка перевода в обычном развлекательном чат-боте имеет нулевые риски. Однако если та же языковая модель используется для автоматического перевода показаний в суде при принятии решения о предоставлении политического убежища, малейшая неточность может разрушить человеческую жизнь. По мнению лектора, пользователи системы (в данном случае судьи и адвокаты) должны четко понимать границы применимости и слабые места ИИ-инструментов.

В вопросах прозрачности лектор озвучил спорный, но важный тезис: тезис о том, что мы не должны доверять моделям, которых не понимаем, бьется о реальность. В человеческой практике есть масса примеров обратного. Так, большинство врачей успешно используют томографы (МРТ) для спасения жизней, понимая лишь принципы «входа и выхода», но не являясь при этом физиками-ядерщиками. Аналогично, человечество десятилетиями доверяло аспирину, не зная точного биохимического механизма его работы. Главное — не доскональное знание кода нейросети, а выстраивание интерфейсов смешанной инициативы (Mixed-initiative systems), где действия автоматических агентов запускаются только тогда, когда ожидаемая ценность для человека превышает риски невмешательства.

📊 Как правильно оценивать взаимодействие человека и ИИ 1:09:02

Финальный блок лекции был посвящен методологии оценки (evaluation) систем человеко-ИИ взаимодействия, которую авторы курса предлагают рассматривать через призму четырех фундаментальных вопросов: Как? Что? Кто? Когда?.

Разбирая вопрос «Как оценивать?», лектор разделяет подходы по типам методов и метрик:

Количественные методы: фиксируют сухие цифры — скорость выполнения задачи, процент успешных исходов, количество написанных строк кода.
Качественные методы: через опросы и открытые интервью выявляют уровень стресса, фрустрации или удовлетворенности пользователя.

Спикер отмечает поразительный разрыв: бенчмарки языковых моделей могут демонстрировать идеальные количественные показатели, но реальный жизненный опыт людей при взаимодействии с этими моделями часто радикально расходится с тестовыми графиками. Это сигнализирует о несовершенстве современных систем тестирования.

По типу оценки делятся на:

Внутренние (Intrinsic): изолированное тестирование самой модели на чистое выполнение задач (например, подсчет логарифмического правдоподобия) без участия людей.
Внешние (Extrinsic): оценка эффективности ИИ в рамках реального нисходящего бизнес-процесса (например, не абстрактное автодополнение кода из датасета, а реальное парное программирование инженера с ассистентом в IDE).

Вопрос «Что оценивается?» подразумевает разделение тестов на проверку базовой технологии, UX-интерфейса или всей сквозной (end-to-end) системы целиком. В качестве примера приводится инструмент Critique, где ИИ выступает в роли автоматического рецензента кода, подсвечивая строки для удаления или модификации.

При поиске ответа на вопрос «Кто оценивает?» критически важно разделять целевые группы. Продукт, идеально подходящий для экспертов, окажется бесполезным для рядовых пользователей. Дизайн тестирования для образовательной среды должен точечно учитывать специфику трех разных групп: учителей, учеников и их родителей.

Наконец, фактор времени («Когда оценивать?») задает три временных масштаба исследований:

Мгновенная оценка: фиксация параметров непосредственно в момент совершения действия.
Краткосрочная оценка: анализ сессии взаимодействия, состоящей из нескольких раундов.
Долговременная (лонгитюдная) оценка: развертывание системы в реальной жизни групп на недели, месяцы или годы для отслеживания долгосрочных эффектов влияния технологии на когнитивные способности и продуктивность людей.

Эффективная оценка сама по себе становится сложной дизайнерской задачей, требующей от инженеров не просто фиксации бенчмарков, а глубокого понимания контекста развертывания систем в реальном мире.