Генеративные модели в компьютерном зрении: от GAN к диффузионным процессам 0:05
Лекция Стэнфордского университета CS231N под руководством Stanford Online посвящена углубленному изучению генеративных моделей. В рамках занятия подробно рассматривается эволюция методов генерации данных — от противоборствующих нейронных сетей (GAN) до современных диффузионных моделей и их гибридных архитектур, доминирующих в текущей индустрии ИИ.
🤖 Генеративно-состязательные сети (GAN) 3:09
Генеративно-состязательные сети (GAN) представляют собой архитектуру, в которой две нейронные сети соревнуются друг с другом, обучаясь «на лету». В отличие от моделей, основанных на оценке правдоподобия (likelihood-based), таких как VAE или авторегрессионные модели, GAN не стремятся явно моделировать плотность распределения $P(X)$, а сосредоточены на возможности эффективно генерировать выборки из изученного распределения.
Механика обучения
- Генератор (G): преобразует шум (латентную переменную $Z$) в данные, пытаясь обмануть дискриминатор.
- Дискриминатор (D): классифицирует входные данные как «реальные» или «фейковые».
- Игровой процесс: это минимаксная игра, где дискриминатор стремится максимизировать вероятность правильной классификации, а генератор — минимизировать её.
Проблемы и ограничения
- Отсутствие интерпретируемых метрик: в GAN нет классической функции потерь (loss), по которой можно однозначно судить о прогрессе обучения.
- Нестабильность: процесс обучения фундаментально нестабилен, склонен к «коллапсу моды» (mode collapse) и может внезапно привести к генерации случайного шума.
- Сложность: для достижения высокого качества изображений требуется крайне тщательная настройка гиперпараметров и нормализации.
Тем не менее, GAN прославились благодаря способности создавать гладкие интерполяции в латентном пространстве, что было продемонстрировано в модели StyleGAN 3. Одной из самых значимых ранних моделей является DCGAN (автор — Алек Рэдфорд), заложившая основы архитектуры сверточных сетей для генерации.
🌊 Диффузионные модели и Rectified Flow 30:47
Диффузионные модели вытеснили GAN как доминирующий стандарт, предлагая более предсказуемое обучение и высокое качество генерации. Интуиция здесь заключается в постепенном удалении шума из данных.
Концепция Rectified Flow
В современных «выпрямленных потоках» (Rectified Flow) задача формулируется как обучение нейронной сети $f_\theta$ предсказанию вектора скорости $V$, указывающего направление от зашумленного изображения $X_T$ к чистому образцу $X$.
- Обучение: минимизация среднеквадратичной ошибки (MSE) между предсказанным вектором и вектором $Z-X$.
- Инференс: итеративное удаление шума (обычно 30–50 шагов).
В отличие от GAN, диффузионные модели обладают стабильной кривой обучения, что значительно упрощает отладку.
Классификатор-бесплатное руководство (CFG)
Для повышения управляемости генерацией используется техника CFG (Classifier-Free Guidance). При обучении модель периодически «забывает» условие (текстовый промпт), обучаясь как безусловной, так и условной генерации. При генерации результат смещается в сторону вектора, обусловленного промптом, с помощью гиперпараметра $w$.
🏗️ Современная архитектура: Latent Diffusion Models 52:20
Современный стек генерации (например, Flux.1) представляет собой многоэтапный конвейер, объединяющий несколько подходов:
- VAE (Variational Autoencoder): сжатие изображения в латентное пространство (downsampling).
- Диффузионный трансформер (DiT): процесс денойзинга в этом компактном пространстве.
- Текстовый энкодер (T5/CLIP): интеграция условий в трансформер.
Для генерации видео добавляется временная размерность в латентное пространство, а сам декодер становится пространственно-временным автоэнкодером. Такие модели, как Sora от OpenAI или анонсированная недавно Google Veo 3, задают стандарты индустрии, обрабатывая десятки тысяч токенов.