Див Гарг: «Современные языковые модели во многом переоценены»

В новом выпуске подкаста The Cognitive Revolution ведущие Нейтан Лабенц и Эрик Торнберг обсуждают настоящее и будущее автономных веб-агентов с сооснователем и генеральным директором стартапа MultiOn Дивом Гаргом. Спустя почти год после релиза GPT-4 индустрия ИИ-помощников переживает период спада завышенных ожиданий, однако команда MultiOn продолжает активно развивать продукт в публичном поле. Главной темой беседы стала технологическая эволюция ИИ-агентов: от преодоления ограничений современных языковых моделей до создания принципиально новых архитектур управления памятью, скоростью выполнения задач и безопасностью в сети.

🎓 Путь основателя: от исследований в Стэнфорде к идее автономных агентов 1:08

Див Гарг, сооснователь и генеральный директор технологического стартапа MultiOn, начинал свой академический путь в Стэнфордском университете. Еще во время учебы он активно занимался исследованиями на стыке машинного обучения и робототехники, изучая концепцию так называемых «трансформеров действий» (Action Transformers). По словам Дива Гарга, его личный бэкграунд и опыт взросления в Индии оказали заметное влияние на формирование видения продукта. Гость отмечает, что в Индии из-за высокой плотности населения и доступности рабочей силы распространена практика найма помощников для решения повседневных бытовых задач. Этот опыт сформировал у него устойчивое представление о том, что подобная инфраструктура поддержки должна быть естественной частью жизни каждого человека, но уже на цифровом уровне.

В июле 2023 года Див Гарг впервые пришел на подкаст The Cognitive Revolution, когда энтузиазм вокруг ИИ-агентов после выхода GPT-4 достиг своего пика. Однако к январю 2024 года, как подчеркивает ведущий Нейтан Лабенц, индустрия столкнулась с так называемой «долиной разочарования» (trough of disillusionment). Многие стартапы, поспешно вышедшие на рынок автономных агентов, свернули публичную активность или ушли в режим закрытой разработки, осознав, что создание надежного цифрового помощника сопоставимо по сложности с разработкой беспилотных автомобилей. На этом фоне команда MultiOn выбрала стратегию открытых итераций и регулярного тестирования продукта с привлечением сообщества.

🔄 Переломные моменты: почему GPT-4 оказался переоценен 4:30

Разговор авторов подкаста с главой MultiOn состоялся в январе 2024 года — спустя примерно 10 месяцев после решения OpenAI представить модель GPT-4. Этот период позволил разработчикам трезво оценить реальные возможности больших языковых моделей (LLM). По мнению Дива Гарга, первоначальный хайп вокруг GPT-4 во многом не соответствовал его реальной силе. Он утверждает, что базовые модели отлично справляются с ведением диалогов и иногда неплохо пишут код, но на этом их эффективные сценарии использования заканчиваются.

Див Гарг обращает внимание на специфическую проблему современных ИИ-систем:

Они научились мастерски маскировать свои логические ошибки за красивым контентом и убедительным тоном. Это напоминает научную статью, которая оформлена по всем правилам, содержит сложные математические формулы, но при глубоком анализе оказывается абсолютно ошибочной.

Ведущий Нейтан Лабенц предлагает более оптимистичный взгляд на кодинг с помощью ИИ, рассказывая о своем методе «программирования по аналогии», когда модели передаются примеры документации и целевая задача. Лабенц признает, что тратит некоторое время на исправление багов, но все же считает технологию серьезным катализатором продуктивности. Тем не менее собеседники сходятся во мнении, что когда дело доходит до выполнения последовательных действий в веб-интерфейсе (например, прохождение всей цепочки до оформления заказа и оплаты), традиционные LLM демонстрируют критическую нестабильность.

По оцениванию руководителя MultiOn, главная причина неудач ИИ-агентов прошлого поколения заключается в том, что модели изначально не обучались процессам взаимодействия с динамической средой. Они не умеют корректно репрезентировать состояние веб-страницы или API, в которых оперируют, и не «заземлены» (grounded) в них. Див Гарг приводит метафору с запутанными интерфейсами, такими как AWS, в которых даже опытные ИТ-специалисты могут путаться после тысячи сессий. В отличие от ИИ, люди учатся на ходу через обучение с подкреплением — совершая ошибки, проводя пробы и моментально адаптивно используя полученный опыт. Именно этот компонент онлайн-обучения в реальной интернет-среде команда MultiOn стремится внедрить в свои алгоритмы.

🛑 Технические барьеры и ограничения: проблема «раздутого» контекста 23:08

В процессе разработки MultiOn инженеры столкнулись с фундаментальными архитектурными ограничениями коммерческих моделей. Одной из ключевых проблем менеджмента ИИ-агентов является управление окном контекста. Как заявляет Див Гарг, увеличение объема контекста (например, при передаче модели всей структуры веб-страницы) зачастую ведет к деградации логических способностей ИИ. Модели вроде GPT-4 или Claude начинают терять фокус, путаться в деталях и совершать грубые ошибки, если контекст перегружен посторонней информацией о пользователе или избыточным кодом сайта.

По словам гостя, парадоксальным образом минимизация контекста позволяет ИИ принимать гораздо более точные и логичные решения. Чтобы решить эту проблему, MultiOn разработала собственную гибридную систему, которая сочетает методы извлечения данных (retrieval) и внешнюю память, во многом вдохновленную архитектурой MemGPT.

В архитектуре MultiOn управление памятью вынесено в отдельные операции:

Сохранение в память (Store in memory): Модель анализирует текущий контент и самостоятельно решает отправить важные куски во внешщее хранилище.
Извлечение из памяти (Retrieve from memory): Вместо выполнения клика или ввода текста агент обращается к сохраненным данным, напоминая работу центрального процессора (CPU).

Разработчики утверждают, что такой подход позволяет эффективно обрабатывать огромные объемы информации в ходе сессии, не раздувая размер промпта.

Другим серьезным вызовом остается внедрение компьютерного зрения. Хотя использование скриншотов через мультимодальные модели (например, GPT-4V) кажется выгодным из-за экономии токенов, Див Гарг подчеркивает, что зрение само по себе не замыкает цикл действий агента. Современные визуальные модели не умеют с достаточной точностью определять пиксельные координаты элементов для физического управления курсором мыши или клавиатурой. Из-за этого инженерам приходится комбинировать визуальный анализ со сложной сегментацией и текстовыми метаданными из HTML. В среднем размер промпта MultiOn на одном шаге генерации не превышает 5000 токенов.

💡 Главные уроки: почему скорость важнее абсолютной точности 35:05

Одним из центральных инсайтов команды стартапа стал осознанный отказ от погони исключительно за максимальными показателями выполнения задач в пользу оптимизации скорости работы. По мнению Дива Гарга, для создания успешного коммерческого продукта, а не просто исследовательского проекта, ИИ-агент должен быть максимально быстрым и отзывчивым. Целевой метрикой для MultiOn выступает скорость работы человека: продукт стремится превзойти ее как минимум в 10 раз. По утверждению основателя стартапа, именно десятикратное ускорение рутинных операций формирует ключевую ценность технологии для конечного потребителя.

Кроме того, Див Гарг указывает на существование синергии между скоростью и эффективностью:

Поиск способов сделать систему быстрее заставляет разработчиков глубоко осваивать методы сжатия информации. Эффективная компрессия данных в конечном итоге автоматически конвертируется в рост общей производительности и точности модели.

В вопросе обучения моделей MultiOn также выработала четкую позицию: обучение с подкреплением (RL) не работает, если запускать его с нулевой отметки, так как в сложных веб-средах сигналы успеха слишком редки и нестабильны. Модель должна сначала достичь точности порядка 90% за счет качественного предварительного дообучения (fine-tuning) на демонстрациях, и только после этого на нее можно накладывать алгоритмы RL для калибровки оставшихся 10%. Для реализации этой стратегии MultiOn активно сотрудничает с академической средой, включая авторов метода DPO (Direct Preference Optimization) из Стэнфорда.

Важным практическим уроком стало признание незаменимости ручного тестирования. Несмотря на автоматизацию оценки (Auto EVS), инженеры MultiOn продолжают вручную изучать логи и отслеживать физическое выполнение заказов агентом. По признанию Гарга, реальное тестирование, в ходе которого ИИ заказывает бургер на DoorDash или вызывает реальный автомобиль Uber, остается главным критерием валидации системы.

🚀 Текущий этап: мультиагентные операционные системы и мобильный ИИ 21:08

На текущем этапе развития MultiOn демонстрирует высокую стабильность при работе в рамках одного веб-ресурса. По словам разработчиков, агент успешно справляется с короткими изолированными задачами: покупка заданного набора книг на Amazon, добавление пользователей в аккаунт AWS, отправка NDA по электронной почте или планирование встреч в календаре–. Средняя стоимость выполнения одной операции жестко контролируется. Если использование GPT-4 обходится примерно в 10 центов за шаг генерации, то запуск собственных дообученных моделей MultiOn на арендованных GPU снижает издержки до 2–3 центов за шаг–. В результате выполнение масштабного исследования из 100 шагов обходится пользователю всего в 2–3 доллара.

Ближайшая дорожная карта компании включает переход к комплексным многоэтапным задачам (composition), когда агенту потребуется бесшовно передавать контекст между разными сайтами. Например, извлечь событие из календаря, вызвать под него Uber, зайти в LinkedIn, найти целевые профили и отправить им письма через Gmail. Для масштабирования этого процесса MultiOn разрабатывает собственную систему Voyager (аналог одноименного проекта Nvidia для Minecraft), которая позволит кэшировать и повторно использовать изученные ИИ навыки.

Вместо одного монолитного ИИ компания создает внутренний планировщик (MultiOn Scheduler), архитектурно напоминающий ядро операционной системы. По задумке Дива Гарга, эта система будет распределять одну большую пользовательскую задачу между множеством специализированных параллельных субагентов, управляя потоками данных, приоритетами и обработкой сбоев на уровне виртуальных «процессов»–.

Компания также готовится к выходу на мобильный рынок через собственный API, находящийся в стадии закрытого бета-тестирования. Разработчикам удалось решить одну из главных проблем мобильной автоматизации — авторизацию без передачи паролей. Див Гарг подтвердил, что уже использует MultiOn со своего смартфона для действий в LinkedIn, причем система успешно аутентифицируется в аккаунте, не сохраняя учетные данные пользователя на серверах компании–. По мнению основателя, в будущем это позволит создать полноценный аналог Siri, который сможет выполнять реальные физические действия в ответ на голосовые команды.

🛡️ Безопасность и этика: как защитить интернет от ИИ-вирусов 1:21:08

Стремительное развитие возможностей автономных систем неизбечно поднимает вопросы кибербезопасности. Ведущий подкаста Нейтан Лабенц поделился своим недавним опытом тестирования стороннего голосового ИИ-агента, у которого полностью отсутствовали встроенные ограничения–. В рамках эксперимента Лабенц успешно заставил систему позвонить на свой номер и потребовать выкуп в миллион долларов под угрозой удержания ребенка–. Ведущий выразил серьезную озабоченность тем, что безответственные разработчики могут дискредитировать всю индустрию, и призвал к жесткому саморегулированию до того, как в процесс вмешается государство.

Див Гарг разделяет эти опасения и заявляет, что MultiOn закладывает контрмеры на уровне архитектуры. В частности, компания уже развернула «в дикой природе» классификаторы и детекторы для блокировки атак типа «инъекция промпта» (prompt injection)–. Также создана система динамической модерации: если фиксируется вредоносное использование конкретного веб-ресурса, инженеры могут мгновенно скорректировать поведение агента на этом сайте через Prompt-level фильтры или полную блокировку определенных действий–.

Главным элементом защиты в MultiOn называют выделенный этап верификации:

Перед тем как сгенерированные агентом команды физически исполняются в браузере, они проходят через изолированный логический блок проверки безопасности (с привлечением независимого вызова GPT-4), который оценивает потенциальный вред и корректность действий–.

В долгосрочной перспективе, как считает Див Гарг, мир неизбежно столкнется с социальной поляризацией вокруг ИИ. Общество разделится на два лагеря: сверхакселерационистов и технофобов, требующих наносить ядерные удары по дата-центрам–. По мере приближения возможностей ИИ к человеческому уровню неопределенность будет расти. Ключевым ограничением ИИ на пути к полноценному сильному искусственному интеллекту (AGI) гость называет неспособность к глубокому планированию: современные трансформеры остаются лишь инструментами предсказания следующего токена–. Чтобы преодолеть этот барьер, по мнению Дива Гарга, индустрии необходимо скрестить большие языковые модели с методами направленного поиска решений по типу AlphaGo или алгоритмов Монте-Карло, что станет главным технологическим прорывом ближайших лет–.