# Кристоф Шуман о проекте LAION-5B: Как энтузиасты создают открытый ИИ

Источник: https://www.youtube.com/watch?v=AIOE1l1W0Tw
Канал: Yannic Kilcher
Опубликовано: 22.04.2022

---

## Революция открытых данных: Как проект LAION-5B меняет правила игры в ИИ 
[[JUMP:0:00]]

Создание масштабных мультимодальных моделей, таких как DALL-E и CLIP, долгое время оставалось закрытой прерогативой технологических гигантов, скрывавших свои обучающие выборки. Команда энтузиастов под руководством Кристофа Шумана бросила вызов этой монополии, представив LAION-5B — беспрецедентный набор данных, состоящий из 5 миллиардов пар «изображение-текст». В этом интервью ведущий Янник Килхер обсуждает с разработчиками проекта, как любительское начинание превратилось в глобальную инициативу, меняющую подходы к обучению нейросетей.

## 🏗 Путь от хобби до некоммерческого гиганта
[[JUMP:2:34]]

Проект зародился около 10 месяцев назад на сервере сообщества EleutherAI. Кристоф Шуман, по его собственным словам, будучи учителем информатики и отцом, решил в одиночку заняться сбором данных после того, как другие участники переключились на проект GPT-J. 

Развитие проекта проходило несколько ключевых этапов:

*   **«Crawling at Home»:** Изначально участники использовали личные GPU и облачные блокноты для скачивания и фильтрации данных из Common Crawl.
*   **Первое спонсорство:** Джек из Doodlebot AI первым выделил $10 000 для покрытия инфраструктурных расходов, что позволило масштабировать сбор данных.
*   **Создание НКО:** Для официального получения ресурсов и управления вычислительными мощностями, например, суперкомпьютера JUWELS (почти 4000 ускорителей A100), была создана немецкая некоммерческая организация.
*   **Поддержка индустрии:** Hugging Face и Stability AI стали ключевыми партнерами, предоставляя вычислительные мощности и инфраструктуру для хранения данных.

По мнению Шумана, разочарование тем, что OpenAI (которую многие теперь иронично называют «Closed AI») не раскрывает данные, стало главным стимулом для создания полностью открытого ресурса.

## 📊 Технические аспекты и фильтрация
[[JUMP:11:11]]

LAION-5B — это огромный массив данных объемом 240 терабайт (в разрешении 384 пикселя), который требует серьезного подхода к обработке. Главный вопрос критиков заключается в использовании модели CLIP от OpenAI для фильтрации пар «изображение-текст».

*   **Аргументы создателей:** Команда признает, что фильтрация не идеальна, но считает её необходимым компромиссом для удаления «шума». Шуман отмечает, что при использовании порога сходства 0.28 (по CLIP B/32) качество значительно возрастает.
*   **Опасения по поводу предвзятости:** Ведущий Янник Килхер выразил обеспокоенность, что фильтрация данными от модели OpenAI заставляет новую модель воспроизводить «видение мира» OpenAI.
*   **Планы на будущее:** Разработчики рассматривают эксперименты с обучением CLIP на замороженных энкодерах изображений (например, на основе SimMIM или MAE от Meta), что позволит в перспективе отказаться от фильтрации по тексту.

## 🛡 Безопасность и этические вызовы
[[JUMP:40:49]]

Наличие в сети сомнительного контента неизбежно отражается на наборах данных, собранных из интернета. Создатели подчеркивают, что LAION-5B не предназначен для прямого использования в продакшене без тщательной «доработки».

Команда активно работает над инструментами безопасности:

1.  **Классификаторы NSFW:** Внедрена модель на основе эмбеддингов CLIP, способная классифицировать тысячи изображений в секунду с точностью выше 96%.
2.  **Сотрудничество с университетами:** Ведется работа с TU Darmstadt для интеграции классификаторов ненавистнических высказываний и насилия.
3.  **Потенциал для исследований:** Шуман считает, что открытие доступа к «сырым» данным — это не проблема, а возможность для сообщества безопасников тренировать лучшие фильтры.

По словам гостя, идея о том, что модель можно сделать «идеально безопасной», просто исключив все вредные данные, является наивной, так как всегда найдутся способы обойти такие ограничения.

## 🚀 Будущее открытого ИИ
[[JUMP:28:16]]

Несмотря на популярность DALL-E, команда LAION сосредоточена на развитии CLIP как фундамента для мультимодальных систем. 

Основные перспективы развития по мнению участников:

*   **Объединение модальностей:** Создание единого «семантического пространства», где аудио, видео и текст взаимодействуют на уровне абстрактных идей, а не просто токенов.
*   **Демократизация:** Создатели стремятся сделать инструменты для работы с данными доступными даже для студентов.
*   **Инфраструктура:** Использование потоковой передачи данных напрямую из сети, чтобы снизить требования к локальному хранилищу до 100 ГБ.

Как подытожили участники дискуссии, ключ к развитию отрасли лежит не в создании «непробиваемых» моделей внутри корпораций, а в открытых исследованиях и честном признании ограничений технологий.