Сухейл Доши: «Генерация изображений все еще находится на уровне GPT-2»

Спустя почти год после своего участия в самом первом выпуске подкаста The Cognitive Revolution, Сухейл Доши (Suhail Doshi), основатель и генеральный директор Playground AI, возвращается в качестве юбилейного, сотого гостя. В то время как индустрия восхищается фотореализмом DALL-E 3 и Midjourney v6, Доши предлагает неожиданно критический взгляд на индустрию компьютерного зрения. По его мнению, генерация изображений все еще находится на зачаточном уровне развития, сопоставимом с текстовыми моделями эпохи GPT-2, а настоящая революция утилитарности ИИ в работе с графикой начнется только с переходом к единым визуальным моделям.

📉 Истоки застоя: почему генераторы изображений застряли в фазе «GPT-2» 4:45

Прошедший год ознаменовался выходом целого ряда крупных фундаментальных моделей: Stability AI выпустила модель SDXL, OpenAI представила DALL-E 3, а команда Midjourney запустила шестую версию своего продукта. Тем не менее, Сухейл Доши признается, что разочарован общим темпом прогресса в этой сфере. По мнению гостя, ключевая проблема заключается в том, что современные визуальные модели используются преимущественно для создания «арта» — картинок ради картинок, обложек для книг или раскрасок. Они отлично справляются с экстраполяцией персонажей и окружения, но их реальная практическая польза для повседневных задач пока минимальна.

Доши проводит прямую аналогию с развитием больших языковых моделей (LLM). Три-четыре года назад текстовые нейросети могли лишь резюмировать текст, проводить сентимент-анализ или генерировать галлюцинации; они не умели писать код или рифмовать. Однако благодаря законам масштабирования (scaling laws) текстовые модели совершили качественный скачок — сегодня ChatGPT пишет код и заменяет программистам Stack Overflow.

В сфере компьютерного зрения, как считает основатель Playground AI, подобного тектонического сдвига еще не произошло. Пользователям доступны лишь три-четыре простейшие функции:

Создание красивого изображения по текстовому описанию.
Удаление фона.
Удаление нежелательных объектов с помощью умного ластика (как в современных смартфонах Pixel).

В отличие от текста, где глубина применения и длинный хвост (long tail) полезных сценариев огромны, сфера работы с пикселями пока ограничена сугубо развлекательным или базовым контентом. По оценке Доши, визуальный ИИ отстает от текстового примерно на полтора-два года.

🧩 Переломные моменты: концепция Единой визуальной модели 13:40

Главной целью для индустрии, по словам Доши, должно стать преодоление разрыва между генерацией и реальным редактированием графики. Современные инструменты вроде GPT-4V сделали огромный шаг вперед в понимании изображений — они могут успешно генерировать подписи, распознавать контекст или фильтровать пользовательский контент для бизнеса. Ведущий подкаста Натан Лабенц подтверждает это личным примером: GPT-4V смогла безошибочно проанализировать запутанный дорожный знак в Массачусетсе, сопоставить его с контекстом Хэллоуина и выдать верные инструкции, а также доказала свою эффективность при автоматической модерации коммерческих фото.

Тем не менее, Доши отмечает, что у GPT-4V есть серьезные ограничения: модель слаба в точной сегментации изображений (image segmentation) и определении границ объектов. Кроме того, вывод модели остается исключительно текстовым, что сильно ограничивает сценарии взаимодействия.

По мнению основателя Playground AI, полноценная Единая визуальная модель (Unified Vision Model) должна объединять в себе три равноправных компонента:

Создание пикселей: генерация изображений с нуля.
Редактирование пикселей: высокоточная манипуляция элементами готового кадра.
Понимание пикселей: глубокий пространственный и контекстуальный анализ сцены.

В качестве примера утилитарности, недоступной современным моделям, Доши приводит бытовой сценарий с перестановкой мебели. Если сфотографировать спальню и попросить ИИ переместить кровать на противоположную сторону, сохранив все остальные объекты, освещение и текстуры, современные модели не справятся. Текстовый ответ ИИ-ассистента здесь бесполезен — пользователю нужен мгновенный, физически достоверный визуальный результат, с которым можно итерировать в реальном времени (например, менять материалы комода или высоту прикроватной тумбы). То же самое касается и графического дизайна: у пользователя должна быть возможность попросить ИИ «убрать этот завиток на логотипе и заменить круги на скругленные прямоугольники». На данный момент крупные разработчики LLM практически не уделяют внимания этому направлению, фокусируясь на тексте.

⚠️ Ошибки индустрии: лоскутное одеяло из патчей и фильтров 29:38

Анализируя действия open-source сообщества и независимых разработчиков, Доши называет их подход «лоскутным одеялом» (patchwork). За последний год было создано множество надстроек: отдельные нейросети для исправления лиц, исправления пальцев, апскейлеры и инструменты контроля вроде ControlNet. Все это — лишь временные заплатки, маскирующие слабость фундаментальных архитектур.

Доши считает критической ошибкой проектирование интерфейсов ИИ-продуктов по принципу накопления таких специфических кнопок:

Кнопка «Исправить руки».
Кнопка «Исправить глаза».
Кнопка «Обеспечить консистентность персонажа».

Подобный подход перегружает интерфейс, заставляет пользователей изучать десятки туториалов на YouTube и превращает работу в мучение. Более того, это усложняет техническую изнанку продукта. Разработчикам приходится нанизывать модели друг на друга в рамках одного пайплайна, что драматически увеличивает стоимость и время инференса. При этом часто возникает ситуация, когда одна модель исправляет пальцы, но попутно портит другие элементы изображения. Фундаментальная модель будущего должна нативно понимать глубину кадра, линии, свет и тени без каких-либо внешних костылей.

В качестве шага к исправлению этой ситуации Playground AI обучила и выложила в открытый доступ модель Playground V2. Компания сознательно сохранила ту же архитектуру, что и у SDXL, чтобы сообщество могло легко перенести свои наработки, однако в 70% случаев «слепых» тестов пользователи предпочитают генерации Playground V2 оригинальной SDXL.

🎓 Уроки и новая стратегия: курс на мультизадачное редактирование 31:00

Главный урок, который команда Playground AI извлекла из общения с пользователями, заключается в необходимости смены фокуса. В 2024 году компания планирует сосредоточить ключевые усилия на технологии мультизадачного редактирования (multitask editing). Это подразумевает работу как с локальными изменениями (виртуальная примерка одежды, смена прически, изменение возраста человека на фото), так и со сложными глобальными трансформациями. Например, превращение зимнего пейзажа в весенний, где каждый объект на фотографии должен изменить свой вид в соответствии со сменой сезона и законами физики света.

Для обучения такой модели требуются качественно иные данные. Доши указывает на то, что популярный в ИИ-сообществе датасет LAION аннотирован крайне небрежно и содержит огромное количество шума. Опыт OpenAI, описанный в техническом документе DALL-E 3, доказал: полная переподготовка описаний (recaptioning) датасета с помощью мощных мультимодальных моделей кардинально улучшает понимание пространственных связей и текстовый синтез на изображениях. По этой причине Playground AI также активно инвестирует в разработку собственных моделей понимания текста и графики, чтобы автоматизировать разметку и улучшить выравнивание подсказок (prompt alignment).

Язык, по мнению Доши, является слишком «потерийным» (lossy) и сжатым способом передачи высокомерных концепций из человеческой головы. Даже простое словосочетание «разбитое стекло» каждый человек представляет по-разному из-за высокого уровня энтропии. Визуальный ИИ будущего обязан быть глубоко мультимодальным: сочетать ввод текста, указание пальцем на экране смартфона, загрузку референсных стилей и изображений, чтобы максимально точно улавливать намерение создателя.

🚀 Текущий этап: новый социальный контракт и открытая безопасность 1:03:24

Обсуждая стремительное развитие технологий, Сухейл Доши затрагивает болезненный вопрос взаимоотношений ИИ-индустрии с профессиональными художниками. В свое время Доши подробно изучал манифест известного цифрового художника Грега Рутковски (Greg Rutkowski), который жаловался, что из-за обилия ИИ-генераций по его именному тегу люди больше не могут найти его оригинальные работы в Google.

В ответ на это Playground AI стала первой (и, по утверждению Доши, до сих пор единственной) платформой, которая автоматически добавляет прямую ссылку на портфолио Рутковски на DeviantArt, если пользователь упоминает его имя в своем промпте. Гость подчеркивает, что настоящие художники не испытывают гордости от банального копирования чужого стиля.

Доши предлагает пересмотреть правила игры и сместить фокус дискуссии с запрета обучающих данных на регулирование коммерческого использования конечного продукта:

Создание фан-арта с условными Марио или Микки Маусом для личного удовольствия должно оставаться легальным и доступным.
Коммерческая печать и продажа тысяч футболок с ИИ-генерациями защищенных авторским правом брендов должны жестко пресекаться правообладателями.

Основатель Playground AI предостерегает коллег по цеху от высокомерной позиции в духе «просто смените профессию и адаптируйтесь» по отношению к тем, кто отдал своему ремеслу десятилетия жизни. Если технологический шок произойдет скачкообразно, а не постепенно, общество не успеет ассимилироваться, что приведет к опасной маргинализации целых профессий. Доши не исключает, что в будущем государствам придется ввести специальный налог на ИИ для финансирования безусловного базового дохода (UBI) или программ переподготовки кадров в пострадавших отраслях.

В сфере безопасности Playground AI уже сделала практический шаг, разработав и внедрив собственный продвинутый контент-фильтр для борьбы с дипфейками, порнографией без согласия (revenge porn) и предвыборной дезинформацией. В заключение беседы Сухейл Доши выступает с важной инициативой: он призывает крупнейших игроков рынка ИИ прекратить конкурировать в области систем безопасности и сделать наработки открытыми. Объединение данных и усилий лучших исследователей в рамках единой open-source модели модерации позволит индустрии гарантированно победить злоумышленников в бесконечной гонке «кошки-мышки».