a16z: Как DeepSeek R1 обрушил стоимость обучения ИИ и открыл новую эру рассуждающих моделей

a16z (Andreessen Horowitz) 11,2 тыс. 27 мин 5 мин 05.03.2025
Главное

Появление китайской модели DeepSeek R1 вызвало в индустрии искусственного интеллекта одновременно восхищение и опасения. В новом выпуске подкаста эксперты фонда a16z (Andreessen Horowitz) подробно разобрали архитектуру, методы обучения и экономические последствия выхода этой модели, которая доказала: для создания ИИ мирового уровня больше не требуются гигантские бюджеты и бесконечные массивы данных, созданных людьми.

🧠 Что такое рассуждающие модели и почему они меняют рынок 0:04

DeepSeek R1 относится к новому классу так называемых «рассуждающих моделей» (reasoning models), которые принципиально отличаются от классических LLM по способу генерации ответа. В то время как обычные модели (например, GPT-4o Mini) выдают ответ практически мгновенно, опираясь на статистические закономерности , рассуждающая модель начинает «думать» вслух.

По мнению ведущих, это напоминает внутренний монолог:

В качестве примера участники дискуссии приводят вопрос по орбитальной механике. Если классическая модель дает прямой ответ, то дистиллированная версия DeepSeek R1 (даже очень маленького размера) начинает «суетиться» и рассуждать, что в конечном итоге приводит её к верному результату, который ранее был доступен только огромным закрытым системам .

🏗️ Эволюция обучения: от человеческих примеров к самообучению 2:15

Традиционный процесс обучения ИИ, который Майкл (Michael, эксперт a16z) называет «классическим», состоит из трех этапов:

  1. Pre-training (Предварительное обучение): модель поглощает весь доступный интернет, обучаясь предсказывать следующее слово .
  2. SFT (Supervised Fine-Tuning): люди пишут идеальные примеры вопросов и ответов, чтобы научить модель интерфейсу общения .
  3. RLHF (Reinforcement Learning with Human Feedback): люди оценивают ответы модели, помогая ей выбрать «лучший из правильных» .

Однако DeepSeek предложила иной путь, который начался с модели DeepSeek Math. Главная инновация здесь заключалась в том, что модель начала учиться на собственном опыте . В таких областях, как математика или программирование, результат легко проверить автоматически с помощью правил (rule-based verifiers). Модель пробует решить задачу, и если ответ сходится, она получает «награду» и закрепляет пройденный путь рассуждений. Если нет — пробует снова. По словам Майкла, это фактически первый случай, когда качество модели удалось значительно повысить исключительно за счет обучения с подкреплением (RL), без участия человека на этапе генерации примеров .

🧪 Путь от R1-Zero к финальной версии R1 9:40

Путь DeepSeek к созданию топовой модели был итерационным и включал несколько промежуточных стадий:

DeepSeek R1-Zero

Это был «чистый» эксперимент: разработчики взяли базовую модель V3 и применили к ней обучение с подкреплением (RL) без предварительной настройки людьми .

«Момент эврики» (Aha moment)

Во время обучения R1-Zero разработчики заметили уникальное явление, которое они назвали «моментом эврики». В цепочке рассуждений модель внезапно «осознавала» свою ошибку: «Подождите, кажется, я ошибаюсь, позвольте мне перепроверить это» . Ведущие сравнивают это с тем, как учатся люди — через осознание промахов и самокоррекцию.

Создание финальной DeepSeek R1

Чтобы исправить «плохое поведение» R1-Zero, команда DeepSeek использовала многоступенчатый процесс:

  1. Cold Start (Холодный старт): они отобрали несколько тысяч идеальных цепочек рассуждений из R1-Zero (чистых, на одном языке, логичных) и дообучили на них базовую модель .
  2. Генерация данных: вместо того чтобы нанимать PhD-математиков (чья работа над 600 000 примеров стоила бы около $60 млн ), они заставили модель саму генерировать эти данные.
  3. Смешивание данных: к 600 000 синтетическим математическим задачам добавили 200 000 человеческих примеров по творческому письму и этике .

💰 Экономика ИИ и технические хитрости 17:58

Одной из самых обсуждаемых цифр стала стоимость обучения DeepSeek V3 — всего $5,5 млн в рыночных ценах на вычислительные мощности . Для сравнения, обучение аналогичных моделей Llama в прошлом году оценивалось более чем в $3 млн за один финальный прогон, но DeepSeek удалось достичь гораздо более высокой эффективности.

Собеседники отмечают, что реальные затраты выше из-за множества неудачных экспериментов — «стоимость самолета — это не только сборка, но и все тестовые полеты» . Однако DeepSeek внедрила ряд инноваций для экономии:

По мнению экспертов a16z, эти инновации были продиктованы необходимостью: находясь под санкциями и имея ограниченный доступ к чипам, китайские инженеры сосредоточились на вычислительной эффективности сильнее, чем их западные коллеги .

🚀 Будущее: новые законы масштабирования 21:48

До недавнего времени индустрия считала, что производительность ИИ упирается в потолок, так как данные в интернете (созданные людьми) заканчиваются . DeepSeek и другие рассуждающие модели открывают «вторую кривую» развития.

Ключевые прогнозы участников дискуссии:

  1. Рост нагрузки на инференс: Если раньше основные ресурсы шли на обучение, то теперь они смещаются в сторону вычислений во время ответа (test-time compute). Рассуждающие модели тратят в 20 раз больше токенов на один ответ . Если мир массово перейдет на такие модели, потребуется в 20 раз больше GPU для обслуживания запросов.
  2. Синтетические данные: Ограничение человеческими знаниями преодолено. Модели могут генерировать бесконечное количество обучающих данных через самопроверку и RL .
  3. Дистилляция на локальных устройствах: Эксперименты DeepSeek показали, что перенос (дистилляция) логики из большой R1 в маленькие модели (например, Llama 70B или 8B) работает гораздо эффективнее, чем попытка научить маленькую модель рассуждать с нуля .

В финале встречи эксперты отметили, что теперь мощные рассуждающие модели можно запускать локально на обычном ноутбуке через такие инструменты, как Ollama , что является огромным шагом вперед для всей ИИ-отрасли.

💬 Цитаты

«Рассуждающая модель начинает суетиться, теоретизировать и сомневаться в себе, пока не придет к правильному ответу.»

Ведущий a16z 01:49

«Стоимость самолета — это не только финальная сборка, но и все тестовые полеты, которые закончились неудачей.»

«Если бы мы все завтра перешли на рассуждающие модели, нам потребовалось бы в 20 раз больше мощностей для инференса.»

Ведущий a16z 22:39
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Inference (Инференс)
Процесс работы уже обученной модели при ответе на запрос пользователя.
MoE (Mixture of Experts)
Архитектура, в которой модель разделена на части ('экспертов'), и для каждого запроса активируется только их подмножество.
SFT (Supervised Fine-Tuning)
Метод дообучения модели на заранее подготовленных парах 'вопрос-ответ', созданных людьми.
RL (Reinforcement Learning)
Обучение с подкреплением, где модель получает награду за правильные действия.
Distillation (Дистилляция)
Перенос знаний и логики из большой и сложной модели в более компактную и быструю.
📊 Цифры
🗓 Хронология
  1. Конец 2023 Появление первых инновационных моделей от команды DeepSeek
  2. Декабрь 2024 Релиз базовой модели DeepSeek V3
  3. Январь 2025 Выход рассуждающей модели DeepSeek R1 и публикация отчета о её обучении
⚖️ Другая сторона
Искусственный интеллект DeepSeek R1 DeepSeek V3 a16z Reasoning Models LLM