a16z: Как DeepSeek R1 обрушил стоимость обучения ИИ и открыл новую эру рассуждающих моделей

Появление китайской модели DeepSeek R1 вызвало в индустрии искусственного интеллекта одновременно восхищение и опасения. В новом выпуске подкаста эксперты фонда a16z (Andreessen Horowitz) подробно разобрали архитектуру, методы обучения и экономические последствия выхода этой модели, которая доказала: для создания ИИ мирового уровня больше не требуются гигантские бюджеты и бесконечные массивы данных, созданных людьми.

🧠 Что такое рассуждающие модели и почему они меняют рынок 0:04

DeepSeek R1 относится к новому классу так называемых «рассуждающих моделей» (reasoning models), которые принципиально отличаются от классических LLM по способу генерации ответа. В то время как обычные модели (например, GPT-4o Mini) выдают ответ практически мгновенно, опираясь на статистические закономерности , рассуждающая модель начинает «думать» вслух.

По мнению ведущих, это напоминает внутренний монолог:

Модель строит теории и выдвигает гипотезы.
Она ставит под сомнение собственные выводы в процессе работы.
Она корректирует путь решения, если заходит в тупик .

В качестве примера участники дискуссии приводят вопрос по орбитальной механике. Если классическая модель дает прямой ответ, то дистиллированная версия DeepSeek R1 (даже очень маленького размера) начинает «суетиться» и рассуждать, что в конечном итоге приводит её к верному результату, который ранее был доступен только огромным закрытым системам .

🏗️ Эволюция обучения: от человеческих примеров к самообучению 2:15

Традиционный процесс обучения ИИ, который Майкл (Michael, эксперт a16z) называет «классическим», состоит из трех этапов:

Pre-training (Предварительное обучение): модель поглощает весь доступный интернет, обучаясь предсказывать следующее слово .
SFT (Supervised Fine-Tuning): люди пишут идеальные примеры вопросов и ответов, чтобы научить модель интерфейсу общения .
RLHF (Reinforcement Learning with Human Feedback): люди оценивают ответы модели, помогая ей выбрать «лучший из правильных» .

Однако DeepSeek предложила иной путь, который начался с модели DeepSeek Math. Главная инновация здесь заключалась в том, что модель начала учиться на собственном опыте . В таких областях, как математика или программирование, результат легко проверить автоматически с помощью правил (rule-based verifiers). Модель пробует решить задачу, и если ответ сходится, она получает «награду» и закрепляет пройденный путь рассуждений. Если нет — пробует снова. По словам Майкла, это фактически первый случай, когда качество модели удалось значительно повысить исключительно за счет обучения с подкреплением (RL), без участия человека на этапе генерации примеров .

🧪 Путь от R1-Zero к финальной версии R1 9:40

Путь DeepSeek к созданию топовой модели был итерационным и включал несколько промежуточных стадий:

DeepSeek R1-Zero

Это был «чистый» эксперимент: разработчики взяли базовую модель V3 и применили к ней обучение с подкреплением (RL) без предварительной настройки людьми .

Результат: Модель показала феноменальные способности к рассуждению, сравнимые с OpenAI o1.
Проблемы: Она была крайне неудобна для пользователя. По мнению участников, модель могла начать отвечать на английском, в середине перейти на китайский, бесконечно повторять один и тот же символ или выдавать нечитаемый текст . При этом финальный ответ оставался верным.

«Момент эврики» (Aha moment)

Во время обучения R1-Zero разработчики заметили уникальное явление, которое они назвали «моментом эврики». В цепочке рассуждений модель внезапно «осознавала» свою ошибку: «Подождите, кажется, я ошибаюсь, позвольте мне перепроверить это» . Ведущие сравнивают это с тем, как учатся люди — через осознание промахов и самокоррекцию.

Создание финальной DeepSeek R1

Чтобы исправить «плохое поведение» R1-Zero, команда DeepSeek использовала многоступенчатый процесс:

Cold Start (Холодный старт): они отобрали несколько тысяч идеальных цепочек рассуждений из R1-Zero (чистых, на одном языке, логичных) и дообучили на них базовую модель .
Генерация данных: вместо того чтобы нанимать PhD-математиков (чья работа над 600 000 примеров стоила бы около $60 млн ), они заставили модель саму генерировать эти данные.
Смешивание данных: к 600 000 синтетическим математическим задачам добавили 200 000 человеческих примеров по творческому письму и этике .

💰 Экономика ИИ и технические хитрости 17:58

Одной из самых обсуждаемых цифр стала стоимость обучения DeepSeek V3 — всего $5,5 млн в рыночных ценах на вычислительные мощности . Для сравнения, обучение аналогичных моделей Llama в прошлом году оценивалось более чем в $3 млн за один финальный прогон, но DeepSeek удалось достичь гораздо более высокой эффективности.

Собеседники отмечают, что реальные затраты выше из-за множества неудачных экспериментов — «стоимость самолета — это не только сборка, но и все тестовые полеты» . Однако DeepSeek внедрила ряд инноваций для экономии:

Multi-head Latent Attention (MLA): оптимизация механизма внимания, которая делает работу с контекстом более эффективной .
Mixture of Experts (MoE): использование 256 «экспертов», из которых при каждом запросе активируются лишь немногие, что снижает нагрузку на GPU .
FP8 Training: обучение в смешанной точности для ускорения вычислений .

По мнению экспертов a16z, эти инновации были продиктованы необходимостью: находясь под санкциями и имея ограниченный доступ к чипам, китайские инженеры сосредоточились на вычислительной эффективности сильнее, чем их западные коллеги .

🚀 Будущее: новые законы масштабирования 21:48

До недавнего времени индустрия считала, что производительность ИИ упирается в потолок, так как данные в интернете (созданные людьми) заканчиваются . DeepSeek и другие рассуждающие модели открывают «вторую кривую» развития.

Ключевые прогнозы участников дискуссии:

Рост нагрузки на инференс: Если раньше основные ресурсы шли на обучение, то теперь они смещаются в сторону вычислений во время ответа (test-time compute). Рассуждающие модели тратят в 20 раз больше токенов на один ответ . Если мир массово перейдет на такие модели, потребуется в 20 раз больше GPU для обслуживания запросов.
Синтетические данные: Ограничение человеческими знаниями преодолено. Модели могут генерировать бесконечное количество обучающих данных через самопроверку и RL .
Дистилляция на локальных устройствах: Эксперименты DeepSeek показали, что перенос (дистилляция) логики из большой R1 в маленькие модели (например, Llama 70B или 8B) работает гораздо эффективнее, чем попытка научить маленькую модель рассуждать с нуля .

В финале встречи эксперты отметили, что теперь мощные рассуждающие модели можно запускать локально на обычном ноутбуке через такие инструменты, как Ollama , что является огромным шагом вперед для всей ИИ-отрасли.