Эволюция генеративных моделей: от GAN к диффузионным процессам

Генеративные модели в компьютерном зрении: от GAN к диффузионным процессам 0:05

Лекция Стэнфордского университета CS231N под руководством Stanford Online посвящена углубленному изучению генеративных моделей. В рамках занятия подробно рассматривается эволюция методов генерации данных — от противоборствующих нейронных сетей (GAN) до современных диффузионных моделей и их гибридных архитектур, доминирующих в текущей индустрии ИИ.

🤖 Генеративно-состязательные сети (GAN) 3:09

Генеративно-состязательные сети (GAN) представляют собой архитектуру, в которой две нейронные сети соревнуются друг с другом, обучаясь «на лету». В отличие от моделей, основанных на оценке правдоподобия (likelihood-based), таких как VAE или авторегрессионные модели, GAN не стремятся явно моделировать плотность распределения $P(X)$, а сосредоточены на возможности эффективно генерировать выборки из изученного распределения.

Механика обучения

Генератор (G): преобразует шум (латентную переменную $Z$) в данные, пытаясь обмануть дискриминатор.
Дискриминатор (D): классифицирует входные данные как «реальные» или «фейковые».
Игровой процесс: это минимаксная игра, где дискриминатор стремится максимизировать вероятность правильной классификации, а генератор — минимизировать её.

Проблемы и ограничения

Отсутствие интерпретируемых метрик: в GAN нет классической функции потерь (loss), по которой можно однозначно судить о прогрессе обучения.
Нестабильность: процесс обучения фундаментально нестабилен, склонен к «коллапсу моды» (mode collapse) и может внезапно привести к генерации случайного шума.
Сложность: для достижения высокого качества изображений требуется крайне тщательная настройка гиперпараметров и нормализации.

Тем не менее, GAN прославились благодаря способности создавать гладкие интерполяции в латентном пространстве, что было продемонстрировано в модели StyleGAN 3. Одной из самых значимых ранних моделей является DCGAN (автор — Алек Рэдфорд), заложившая основы архитектуры сверточных сетей для генерации.

🌊 Диффузионные модели и Rectified Flow 30:47

Диффузионные модели вытеснили GAN как доминирующий стандарт, предлагая более предсказуемое обучение и высокое качество генерации. Интуиция здесь заключается в постепенном удалении шума из данных.

Концепция Rectified Flow

В современных «выпрямленных потоках» (Rectified Flow) задача формулируется как обучение нейронной сети $f_\theta$ предсказанию вектора скорости $V$, указывающего направление от зашумленного изображения $X_T$ к чистому образцу $X$.

Обучение: минимизация среднеквадратичной ошибки (MSE) между предсказанным вектором и вектором $Z-X$.
Инференс: итеративное удаление шума (обычно 30–50 шагов).

В отличие от GAN, диффузионные модели обладают стабильной кривой обучения, что значительно упрощает отладку.

Классификатор-бесплатное руководство (CFG)

Для повышения управляемости генерацией используется техника CFG (Classifier-Free Guidance). При обучении модель периодически «забывает» условие (текстовый промпт), обучаясь как безусловной, так и условной генерации. При генерации результат смещается в сторону вектора, обусловленного промптом, с помощью гиперпараметра $w$.

🏗️ Современная архитектура: Latent Diffusion Models 52:20

Современный стек генерации (например, Flux.1) представляет собой многоэтапный конвейер, объединяющий несколько подходов:

VAE (Variational Autoencoder): сжатие изображения в латентное пространство (downsampling).
Диффузионный трансформер (DiT): процесс денойзинга в этом компактном пространстве.
Текстовый энкодер (T5/CLIP): интеграция условий в трансформер.

Для генерации видео добавляется временная размерность в латентное пространство, а сам декодер становится пространственно-временным автоэнкодером. Такие модели, как Sora от OpenAI или анонсированная недавно Google Veo 3, задают стандарты индустрии, обрабатывая десятки тысяч токенов.