# Эволюция генеративных моделей: от GAN к диффузионным процессам

Источник: https://www.youtube.com/watch?v=Edr4uZFh4EE
Канал: Stanford Online
Опубликовано: 02.09.2025

---

## Генеративные модели в компьютерном зрении: от GAN к диффузионным процессам
[[JUMP:00:05]]

Лекция Стэнфордского университета CS231N под руководством Stanford Online посвящена углубленному изучению генеративных моделей. В рамках занятия подробно рассматривается эволюция методов генерации данных — от противоборствующих нейронных сетей (GAN) до современных диффузионных моделей и их гибридных архитектур, доминирующих в текущей индустрии ИИ.

## 🤖 Генеративно-состязательные сети (GAN)
[[JUMP:03:09]]

Генеративно-состязательные сети (GAN) представляют собой архитектуру, в которой две нейронные сети соревнуются друг с другом, обучаясь «на лету». В отличие от моделей, основанных на оценке правдоподобия (likelihood-based), таких как VAE или авторегрессионные модели, GAN не стремятся явно моделировать плотность распределения $P(X)$, а сосредоточены на возможности эффективно генерировать выборки из изученного распределения.

### Механика обучения

*   **Генератор (G):** преобразует шум (латентную переменную $Z$) в данные, пытаясь обмануть дискриминатор.
*   **Дискриминатор (D):** классифицирует входные данные как «реальные» или «фейковые».
*   **Игровой процесс:** это минимаксная игра, где дискриминатор стремится максимизировать вероятность правильной классификации, а генератор — минимизировать её.

### Проблемы и ограничения

*   **Отсутствие интерпретируемых метрик:** в GAN нет классической функции потерь (loss), по которой можно однозначно судить о прогрессе обучения.
*   **Нестабильность:** процесс обучения фундаментально нестабилен, склонен к «коллапсу моды» (mode collapse) и может внезапно привести к генерации случайного шума.
*   **Сложность:** для достижения высокого качества изображений требуется крайне тщательная настройка гиперпараметров и нормализации.

Тем не менее, GAN прославились благодаря способности создавать гладкие интерполяции в латентном пространстве, что было продемонстрировано в модели **StyleGAN 3**. Одной из самых значимых ранних моделей является **DCGAN** (автор — Алек Рэдфорд), заложившая основы архитектуры сверточных сетей для генерации.

## 🌊 Диффузионные модели и Rectified Flow
[[JUMP:30:47]]

Диффузионные модели вытеснили GAN как доминирующий стандарт, предлагая более предсказуемое обучение и высокое качество генерации. Интуиция здесь заключается в постепенном удалении шума из данных.

### Концепция Rectified Flow
В современных «выпрямленных потоках» (Rectified Flow) задача формулируется как обучение нейронной сети $f_\theta$ предсказанию вектора скорости $V$, указывающего направление от зашумленного изображения $X_T$ к чистому образцу $X$.

*   **Обучение:** минимизация среднеквадратичной ошибки (MSE) между предсказанным вектором и вектором $Z-X$.
*   **Инференс:** итеративное удаление шума (обычно 30–50 шагов).

В отличие от GAN, диффузионные модели обладают стабильной кривой обучения, что значительно упрощает отладку.

### Классификатор-бесплатное руководство (CFG)
Для повышения управляемости генерацией используется техника **CFG** (Classifier-Free Guidance). При обучении модель периодически «забывает» условие (текстовый промпт), обучаясь как безусловной, так и условной генерации. При генерации результат смещается в сторону вектора, обусловленного промптом, с помощью гиперпараметра $w$.

## 🏗️ Современная архитектура: Latent Diffusion Models
[[JUMP:52:20]]

Современный стек генерации (например, **Flux.1**) представляет собой многоэтапный конвейер, объединяющий несколько подходов:

1.  **VAE (Variational Autoencoder):** сжатие изображения в латентное пространство (downsampling).
2.  **Диффузионный трансформер (DiT):** процесс денойзинга в этом компактном пространстве.
3.  **Текстовый энкодер (T5/CLIP):** интеграция условий в трансформер.

Для генерации видео добавляется временная размерность в латентное пространство, а сам декодер становится пространственно-временным автоэнкодером. Такие модели, как Sora от OpenAI или анонсированная недавно Google **Veo 3**, задают стандарты индустрии, обрабатывая десятки тысяч токенов.