# a16z: Как DeepSeek R1 обрушил стоимость обучения ИИ и открыл новую эру рассуждающих моделей

Источник: https://www.youtube.com/watch?v=Ae_Ieh93K64
Канал: a16z (Andreessen Horowitz)
Опубликовано: 05.03.2025

---

Появление китайской модели DeepSeek R1 вызвало в индустрии искусственного интеллекта одновременно восхищение и опасения. В новом выпуске подкаста эксперты фонда a16z (Andreessen Horowitz) подробно разобрали архитектуру, методы обучения и экономические последствия выхода этой модели, которая доказала: для создания ИИ мирового уровня больше не требуются гигантские бюджеты и бесконечные массивы данных, созданных людьми.

## 🧠 Что такое рассуждающие модели и почему они меняют рынок
[[JUMP:00:04]]

DeepSeek R1 относится к новому классу так называемых «рассуждающих моделей» (reasoning models), которые принципиально отличаются от классических LLM по способу генерации ответа. В то время как обычные модели (например, GPT-4o Mini) выдают ответ практически мгновенно, опираясь на статистические закономерности [01:22], рассуждающая модель начинает «думать» вслух.

По мнению ведущих, это напоминает внутренний монолог:

*   Модель строит теории и выдвигает гипотезы.
*   Она ставит под сомнение собственные выводы в процессе работы.
*   Она корректирует путь решения, если заходит в тупик [01:49].

В качестве примера участники дискуссии приводят вопрос по орбитальной механике. Если классическая модель дает прямой ответ, то дистиллированная версия DeepSeek R1 (даже очень маленького размера) начинает «суетиться» и рассуждать, что в конечном итоге приводит её к верному результату, который ранее был доступен только огромным закрытым системам [02:02].

## 🏗️ Эволюция обучения: от человеческих примеров к самообучению
[[JUMP:02:15]]

Традиционный процесс обучения ИИ, который Майкл (Michael, эксперт a16z) называет «классическим», состоит из трех этапов:

1.  **Pre-training (Предварительное обучение):** модель поглощает весь доступный интернет, обучаясь предсказывать следующее слово [02:28].
2.  **SFT (Supervised Fine-Tuning):** люди пишут идеальные примеры вопросов и ответов, чтобы научить модель интерфейсу общения [02:41].
3.  **RLHF (Reinforcement Learning with Human Feedback):** люди оценивают ответы модели, помогая ей выбрать «лучший из правильных» [03:33].

Однако DeepSeek предложила иной путь, который начался с модели **DeepSeek Math**. Главная инновация здесь заключалась в том, что модель начала учиться на собственном опыте [06:11]. В таких областях, как математика или программирование, результат легко проверить автоматически с помощью правил (rule-based verifiers). Модель пробует решить задачу, и если ответ сходится, она получает «награду» и закрепляет пройденный путь рассуждений. Если нет — пробует снова. По словам Майкла, это фактически первый случай, когда качество модели удалось значительно повысить исключительно за счет обучения с подкреплением (RL), без участия человека на этапе генерации примеров [06:50].

## 🧪 Путь от R1-Zero к финальной версии R1
[[JUMP:09:40]]

Путь DeepSeek к созданию топовой модели был итерационным и включал несколько промежуточных стадий:

### DeepSeek R1-Zero
Это был «чистый» эксперимент: разработчики взяли базовую модель V3 и применили к ней обучение с подкреплением (RL) без предварительной настройки людьми [07:18]. 

*   **Результат:** Модель показала феноменальные способности к рассуждению, сравнимые с OpenAI o1.
*   **Проблемы:** Она была крайне неудобна для пользователя. По мнению участников, модель могла начать отвечать на английском, в середине перейти на китайский, бесконечно повторять один и тот же символ или выдавать нечитаемый текст [10:47]. При этом финальный ответ оставался верным.

### «Момент эврики» (Aha moment)
Во время обучения R1-Zero разработчики заметили уникальное явление, которое они назвали «моментом эврики». В цепочке рассуждений модель внезапно «осознавала» свою ошибку: «Подождите, кажется, я ошибаюсь, позвольте мне перепроверить это» [13:51]. Ведущие сравнивают это с тем, как учатся люди — через осознание промахов и самокоррекцию.

### Создание финальной DeepSeek R1
Чтобы исправить «плохое поведение» R1-Zero, команда DeepSeek использовала многоступенчатый процесс:

1.  **Cold Start (Холодный старт):** они отобрали несколько тысяч идеальных цепочек рассуждений из R1-Zero (чистых, на одном языке, логичных) и дообучили на них базовую модель [14:43].
2.  **Генерация данных:** вместо того чтобы нанимать PhD-математиков (чья работа над 600 000 примеров стоила бы около $60 млн [16:39]), они заставили модель саму генерировать эти данные.
3.  **Смешивание данных:** к 600 000 синтетическим математическим задачам добавили 200 000 человеческих примеров по творческому письму и этике [17:18].

## 💰 Экономика ИИ и технические хитрости
[[JUMP:17:58]]

Одной из самых обсуждаемых цифр стала стоимость обучения DeepSeek V3 — всего **$5,5 млн** в рыночных ценах на вычислительные мощности [18:11]. Для сравнения, обучение аналогичных моделей Llama в прошлом году оценивалось более чем в $3 млн за один финальный прогон, но DeepSeek удалось достичь гораздо более высокой эффективности.

Собеседники отмечают, что реальные затраты выше из-за множества неудачных экспериментов — «стоимость самолета — это не только сборка, но и все тестовые полеты» [19:40]. Однако DeepSeek внедрила ряд инноваций для экономии:

*   **Multi-head Latent Attention (MLA):** оптимизация механизма внимания, которая делает работу с контекстом более эффективной [20:06].
*   **Mixture of Experts (MoE):** использование 256 «экспертов», из которых при каждом запросе активируются лишь немногие, что снижает нагрузку на GPU [08:48].
*   **FP8 Training:** обучение в смешанной точности для ускорения вычислений [21:23].

По мнению экспертов a16z, эти инновации были продиктованы необходимостью: находясь под санкциями и имея ограниченный доступ к чипам, китайские инженеры сосредоточились на вычислительной эффективности сильнее, чем их западные коллеги [21:35].

## 🚀 Будущее: новые законы масштабирования
[[JUMP:21:48]]

До недавнего времени индустрия считала, что производительность ИИ упирается в потолок, так как данные в интернете (созданные людьми) заканчиваются [22:01]. DeepSeek и другие рассуждающие модели открывают «вторую кривую» развития.

Ключевые прогнозы участников дискуссии:

1.  **Рост нагрузки на инференс:** Если раньше основные ресурсы шли на обучение, то теперь они смещаются в сторону вычислений во время ответа (test-time compute). Рассуждающие модели тратят в 20 раз больше токенов на один ответ [22:39]. Если мир массово перейдет на такие модели, потребуется в 20 раз больше GPU для обслуживания запросов.
2.  **Синтетические данные:** Ограничение человеческими знаниями преодолено. Модели могут генерировать бесконечное количество обучающих данных через самопроверку и RL [24:34].
3.  **Дистилляция на локальных устройствах:** Эксперименты DeepSeek показали, что перенос (дистилляция) логики из большой R1 в маленькие модели (например, Llama 70B или 8B) работает гораздо эффективнее, чем попытка научить маленькую модель рассуждать с нуля [25:15]. 

В финале встречи эксперты отметили, что теперь мощные рассуждающие модели можно запускать локально на обычном ноутбуке через такие инструменты, как Ollama [26:08], что является огромным шагом вперед для всей ИИ-отрасли.