Эволюция генеративных моделей: от GAN к диффузионным процессам

Stanford Online 14,8 тыс. 1 ч 12 мин 2 мин 02.09.2025
Главное

Генеративные модели в компьютерном зрении: от GAN к диффузионным процессам 0:05

Лекция Стэнфордского университета CS231N под руководством Stanford Online посвящена углубленному изучению генеративных моделей. В рамках занятия подробно рассматривается эволюция методов генерации данных — от противоборствующих нейронных сетей (GAN) до современных диффузионных моделей и их гибридных архитектур, доминирующих в текущей индустрии ИИ.

🤖 Генеративно-состязательные сети (GAN) 3:09

Генеративно-состязательные сети (GAN) представляют собой архитектуру, в которой две нейронные сети соревнуются друг с другом, обучаясь «на лету». В отличие от моделей, основанных на оценке правдоподобия (likelihood-based), таких как VAE или авторегрессионные модели, GAN не стремятся явно моделировать плотность распределения $P(X)$, а сосредоточены на возможности эффективно генерировать выборки из изученного распределения.

Механика обучения

Проблемы и ограничения

Тем не менее, GAN прославились благодаря способности создавать гладкие интерполяции в латентном пространстве, что было продемонстрировано в модели StyleGAN 3. Одной из самых значимых ранних моделей является DCGAN (автор — Алек Рэдфорд), заложившая основы архитектуры сверточных сетей для генерации.

🌊 Диффузионные модели и Rectified Flow 30:47

Диффузионные модели вытеснили GAN как доминирующий стандарт, предлагая более предсказуемое обучение и высокое качество генерации. Интуиция здесь заключается в постепенном удалении шума из данных.

Концепция Rectified Flow

В современных «выпрямленных потоках» (Rectified Flow) задача формулируется как обучение нейронной сети $f_\theta$ предсказанию вектора скорости $V$, указывающего направление от зашумленного изображения $X_T$ к чистому образцу $X$.

В отличие от GAN, диффузионные модели обладают стабильной кривой обучения, что значительно упрощает отладку.

Классификатор-бесплатное руководство (CFG)

Для повышения управляемости генерацией используется техника CFG (Classifier-Free Guidance). При обучении модель периодически «забывает» условие (текстовый промпт), обучаясь как безусловной, так и условной генерации. При генерации результат смещается в сторону вектора, обусловленного промптом, с помощью гиперпараметра $w$.

🏗️ Современная архитектура: Latent Diffusion Models 52:20

Современный стек генерации (например, Flux.1) представляет собой многоэтапный конвейер, объединяющий несколько подходов:

  1. VAE (Variational Autoencoder): сжатие изображения в латентное пространство (downsampling).
  2. Диффузионный трансформер (DiT): процесс денойзинга в этом компактном пространстве.
  3. Текстовый энкодер (T5/CLIP): интеграция условий в трансформер.

Для генерации видео добавляется временная размерность в латентное пространство, а сам декодер становится пространственно-временным автоэнкодером. Такие модели, как Sora от OpenAI или анонсированная недавно Google Veo 3, задают стандарты индустрии, обрабатывая десятки тысяч токенов.

💬 Цитаты

«Генерация видео — это та область, где прогресс происходит буквально каждую неделю.»

«Впервые обучая диффузионную модель и видя стабильную функцию потерь, хочется сказать: 'О боже, это потрясающе'.»

👥 Спикер
🎬 Упомянутые фильмы и сериалы
🔗 Упомянутые сайты и проекты
📖 Термины
Mode Collapse
Проблема в GAN, при которой генератор начинает выдавать ограниченный набор однообразных примеров.
Classifier-Free Guidance (CFG)
Метод усиления влияния текстового условия на результат генерации путем смешивания условного и безусловного предсказаний.
Latent Space
Сжатое представление данных, в котором модель работает более эффективно, чем с сырыми пикселями.
Distillation
Техники ускорения генерации (инференса) диффузионных моделей путем уменьшения количества итераций.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект GAN Diffusion Models Rectified Flow Latent Diffusion Stanford CS231N