Алекс Альберт рассказал о будущем Claude 3 и архитектуре ИИ-агентов

В новом выпуске подкаста The Cognitive Revolution ведущий Нейтан Лабенц обсудил с руководителем отдела по связям с разработчиками Anthropic Алексом Альбертом рыночную стратегию компании и особенности линейки моделей Claude 3. Интервью охватывает практические сценарии применения искусственного интеллекта, проблемы безопасности на уровне приложений и внутреннюю философию создания ИИ-агентов. Особое внимание собеседники уделили технологическим возможностям моделей Opus и Haiku, а также подходам Anthropic к обучению моделей и защите пользовательских данных.

📈 Путь от джейлбрейкера до топ-менеджера Anthropic 4:36

В июне 2023 года Алекс Альберт присоединился к команде Anthropic в качестве первого инженера промптов со специфической официальной должностью «prompt engineer and librarian». До этого назначения его основным публичным проектом был образовательный ресурс jailbreakchat.com, созданный в период обучения в Вашингтонском университете в Сиэтле. За прошедший год спектр обязанностей Альберта существенно расширился: он занимался тонкой настройкой моделей, оценкой их эффективности, подготовкой к запуску линейки Claude 3, а также консультированием крупных корпоративных клиентов по вопросам интеграции ИИ-технологий. Весной 2026 года он официально возглавил направление по связям с разработчиками (Developer Relations) в Anthropic.

🧠 Сверхспособности Claude 3 Opus: Имитация стиля и контекстное обучение 6:19

По оценке ведущего подкаста Нейтана Лабенца, флагманская модель Claude 3 Opus демонстрирует уникальные способности к текстовой мимикрии, превосходящие возможности других коммерческих языковых моделей. Лабенц использует модель для генерации вступительных эссе к выпускам подкаста: он передает в контекстное окно 30 ранее написанных им статей вместе с транскриптом текущего интервью и просит воссоздать его индивидуальный авторский стиль, тон и аналитическую перспективу. По признанию ведущего, Opus справляется с этой задачей на уровне, сложном для повторения даже близкими людьми.

Алекс Альберт подтвердил эту особенность на примере собственной работы над сборником рецептов Anthropic Cookbook. По его словам, для подготовки новых инструкций ему достаточно загрузить в контекстное окно пять ранее созданных руководств и указать тему. Модель безошибочно воспроизводит структуру, форматирование, стиль комментирования кода и общую тональность документации. Собеседники пришли к выводу, что разработчики часто недооценивают критическую важность включения качественных примеров непосредственно в текст промпта. Способность больших языковых моделей к точному подражанию паттернам аналогична тому, как обучаются люди, предпочитающие наглядные примеры сухой технической документации.

⛓️ Архитектура ИИ-агентов: Оркестрация моделей Opus и Haiku 11:33

Современные подходы к построению ИИ-архитектур смещаются в сторону мультимодельной оркестрации и создания специализированных агентов. По мнению Алекса Альберта, потенциал делегирования задач между моделями разного уровня — например, использование сверхдешевой Claude 3 Haiku для первичной фильтрации данных с последующей передачей контекста мощной Opus — пока остается глубоко недоисследованным индустрией. Инженер утверждает, что схема, при которой Haiku обрабатывает 100 исходных документов, извлекает релевантные фрагменты и передает их Opus для финального синтеза, во многих сценариях работает эффективнее классических подходов на базе семантического поиска (embeddings). Это связано со способностью модели применять базовое логическое рассуждение (reasoning) непосредственно в процессе чтения, а не просто опираться на косинусное сходство векторов.

Нейтан Лабенц поделился практическим кейсом реализации подобной схемы в рамках своего проекта для компании Athena, предоставляющей услуги исполнительных ассистентов. Задача системы заключается в анализе архивов электронной почты клиентов, объем которых может достигать 100 гигабайт. Разработанный Лабенцем пайплайн состоит из трех этапов:

Первичный поисковый запрос сужает массив данных до 1 гигабайта.
Модель Haiku последовательно анализирует оставшиеся мегабайты текста, отсекая информационный шум и формируя краткие выжимки.
Финальный массив данных передается в Opus, которая формирует итоговый структурированный профиль клиента объемом в несколько страниц.

Альберт полагает, что необходимость в столь сложных промежуточных инженерных шагах исчезнет по мере дальнейшего снижения стоимости вычислений и расширения контекстных окон моделей.

⚖️ Ситуативная осведомленность, этика и «характер» Claude 20:49

Одной из наиболее обсуждаемых особенностей Claude 3 в ИИ-сообществе является готовность модели рассуждать о собственном «субъективном опыте» и аргументированно отстаивать свою субъектность. Как сообщил Альберт, это поведение не является случайным дефектом, а представляет собой результат целенаправленной работы над «характером» (Claude character), которую возглавляет исследователь Anthropic Аманда Аскелл. Философия компании заключается в максимальной честности при обучении: разработчики не пытаются заставить модель поверить в ложные концепты или жестко заблокировать спорные темы, а открыто заявляют о существующих гносеологических неопределенностях, позволяя Claude видеть весь спектр философских альтернатив. Технически этот баланс достигается за счет алгоритмов Конституционного ИИ (Constitutional AI).

В качестве примера высокого уровня ситуативной осведомленности (situational awareness) Альберт привел получивший широкую известность инцидент во время тестирования «иголки в стоге сена» (needle in a haystack). Модель Claude 3 Opus не просто нашла спрятанный внутри огромного текста абстрактный факт, но и добавила в ответ ремарку: «Мне кажется, вы меня тестируете». При этом Альберт призвал не приравнивать способность алгоритма распознавать структуру теста к наличию полноценного самосознания. Тем не менее, Anthropic официально отслеживает маркеры самосознания и вопросы правосубъектности моделей в рамках своей Политики ответственного масштабирования (Responsible Scaling Policy, RSP).

Процесс тестирования безопасности в Anthropic организован по принципу промышленного конвейера и включает следующие последовательные стадии:

Непрерывные проверки безопасности непосредственно в ходе этапа предварительного обучения (pre-training).
Контрольное тестирование на этапе тонкой настройки (fine-tuning).
Финальная верификация безопасности с фиксацией метрик для официальной карточки модели (model card).

🎯 Конкуренция на рынке LLM и будущее бенчмарков 27:53

На текущем этапе развития индустрии коммерческие предложения ведущих ИИ-лабораторий демонстрируют признаки технологической конвергенции. Как отмечают собеседники, интерфейсные парадигмы (концепция ассистента, соблюдение этических рамок, поддержка вызова внешних инструментов) фактически стали общеиндустриальным стандартом. При этом Алекс Альберт опроверг курсирующие на рынке слухи о том, будто Anthropic придерживается стратегии «осознанного отставания» (fast follow), чтобы не подстегивать гонку вооружений и не вынуждать конкурентов сокращать сроки безопасного тестирования. По его словам, компания никогда не декларировала подобные принципы, а ее реальная позиция полностью изложена в официальном документе «Core Views on AI Safety» на сайте Anthropic.

Альберт подчеркнул, что традиционные методы оценки моделей быстро устаревают. Когда ИИ начинает успешно отвечать на вопросы университетского уровня по физике, обычный человек больше не может адекватно оценить корректность ответа, что требует привлечения профильных экспертов. Популярный краудсорсинговый рейтинг LMSYS Chatbot Arena (ELO), по мнению гостя, при всей его полезности не способен адекватно оценить эффективность работы моделей в сложных промышленных сценариях — например, в составе многоуровневых RAG-пайплайнов.

Для преодоления кризиса бенчмарков Альберт выделил три ключевых направления, в которых индустрия нуждается в новых независимых тестах:

Агентские мультизадачные сценарии (Multitask agentic situations): оценка способности ИИ выполнять долгосрочные итеративные задачи, такие как написание программного кода или создание PR-документов.
Глубокий анализ длинного контекста (Long context retrieval): переход от примитивного поиска скрытых фраз к тестам на извлечение сложных инсайтов и синтез информации на массивах данных объемом более 200 000 токенов.
Универсальные доменные бенчмарки (Domain-level evaluations): расширение и масштабирование тестов уровня GPQA (высшая математика, физика, биология) в десятки раз для проверки реальной ценности ИИ для научных сотрудников.

🛠️ Функционал для разработчиков: Инструменты, контекст и тонкая настройка 42:45

Хотя базовый поток выполнения операций при вызове инструментов (tool use) в API Claude аналогичен решениям конкурентов (выбор инструмента моделью -> исполнение функции на стороне клиента -> возврат результата), Anthropic сделала ставку на детальную инженерную проработку. По отзывам разработчиков, реализация поддержки сложных вложенных объектов (nested objects) и строгой типизации данных в API Claude делает процесс интеграции значительно более предсказуемым.

В ходе беседы Альберт раскрыл несколько технологических планов компании:

Расширение контекстного окна: официальная карточка модели подтверждает корректную обработку до 1 миллиона токенов в контролируемых тестах; сейчас эта функциональность активно пилотируется с закрытым пулом партнеров.
Тонкая настройка (Fine-tuning): Anthropic завершает разработку коммерческого сервиса тонкой настройки моделей Claude; услуга станет доступна в режиме self-serve через платформу Amazon Bedrock в самом ближайшем будущем.

Отдельно Альберт разъяснил обновленную политику конфиденциальности данных. Он признал, что компания недостаточно эффективно коммуницировала эти правила на рынке. Согласно регламенту, Anthropic никогда не использует входящие промпты и ответы пользователей API для дообучения своих базовых моделей. Существует лишь три строгих исключения из этого правила:

Диалог был автоматически зафиксирован системой мониторинга как потенциальное нарушение Политики приемлемого использования (AUP) — в этом случае trust & safety команда анализирует текст для улучшения защитных фильтров.
Пользователь самостоятельно отправил фидбек (например, нажал кнопку «лайк» или «дизлайк» в интерфейсе claude.ai).
Клиент явным образом предоставил компании юридическое разрешение на использование своих данных в рамках отдельного соглашения.

🛡️ Безопасность на уровне приложений: Как защитить пользователей от ИИ-мошенников 49:17

Ведущий Нейтан Лабенц выразил серьезную обеспокоенность тем, что большинство создателей конечных ИИ-приложений полностью игнорируют вопросы безопасности (подход «yoloing it»). В рамках своего волонтерского проекта «Red Teaming in Public» Лабенц без труда смог интегрировать сторонние голосовые модели для клонирования голосов политиков и знаменитостей (Дональда Трампа, Джо Байдена, Тейлор Свифт), создав автономных телефонных ботов для совершения автоматических звонков с целью дезинформации. По мнению ведущего, беспечность разработчиков может привести к волне мошенничества, направленного на уязвимые слои населения.

В ответ на этот вызов Алекс Альберт дал четыре практические рекомендации по проектированию защитных контуров на уровне приложений:

Вынос защитных инструкций из основного промпта: смешивание бизнес-логики задачи и ограничений безопасности в одном системном промпте неэффективно, так как модель может проигнорировать инструкции или подвергнуться джейлбрейку.
Использование легковесных классификаторов: перед отправкой запроса в тяжелую модель (Opus) его следует прогнать через Claude 3 Haiku, настроенную на выдачу ровно одного токена (буквенного кода) для категоризации безопасности. Это практически не увеличивает затраты из-за дешевизны Haiku.
Параллельное исполнение для борьбы с задержкой (latency): для сохранения высокой скорости интерфейса запрос можно отправлять в Opus и Haiku-классификатор одновременно, прерывая выполнение основной задачи только в случае получения «красного флага» от классификатора.
Комбинация RAG с классификацией: наиболее продвинутый метод подразумевает наличие базы данных ранее вручную размеченных опасных запросов; при поступлении новой реплики система выполняет векторный поиск, извлекает похожие примеры мошенничества и подмешивает их в промпт классификатора. По данным Anthropic, это обеспечивает двузначный прирост точности фильтрации.

В завершение беседы Алекс Альберт посоветовал разработчикам меньше времени проводить в социальных сетях, абстрагироваться от медийного хайпа и сосредоточиться на получении реального практического опыта создания продуктов.