Кион Катон-Фу из Stanford: «Глубокое обучение — это прежде всего инженерная дисциплина»

Stanford Online 140 тыс. 1 ч 39 мин 4 мин 07.10.2025
Главное

Вторая лекция курса Stanford CS230 под руководством Киона Катон-Фу (Keon Katon-Fu) посвящена переходу от теории нейронных сетей к практическому применению ИИ в индустрии. Кион, будучи соавтором курса вместе с Эндрю Ыном и генеральным директором компании Warera, делает упор не на академическую абстракцию, а на принятие инженерных решений: как выбирать архитектуру, собирать данные и проектировать функции потерь для реальных задач — от распознавания лиц до создания мультимодальных систем.

🛠 Основы глубокого обучения: архитектура и параметры 3:10

В традиционном обучении с учителем (supervised learning) процесс строится вокруг преобразования входных данных ($X$) в выходные ($Y$). По мнению Киона Катон-Фу, любую модель, развернутую «в дикой природе» (например, ChatGPT), можно свести к двум файлам в облаке: один описывает архитектуру (чертеж), другой — обученные параметры (веса) .

Процесс обучения модели включает в себя:

Одной из ключевых концепций курса является «емкость» (capacity) модели. Кион поясняет, что слишком глубокая сеть на маленьком наборе данных просто «зазубрит» примеры (переобучится), в то время как слишком простая сеть не сможет уловить сложные закономерности данных .

🌓 Кейс-стади 1: Классификация «День-Ночь» 18:47

Первый практический пример — создание системы, которая определяет по фотографии время суток. Это классическая задача бинарной классификации.

Технический процесс реализации:

  1. Определение задачи: Нужно четко ограничить область применения. Одно дело — распознавать время суток в конкретном парке, другое — в любой точке планеты, включая помещения .
  2. Выбор разрешения: Вместо использования тяжелых HD-кадров, Кион рекомендует метод «человека-прокси».
    • Исследователи распечатывают фото в разных разрешениях и проверяют, на каком этапе человек перестает понимать, день это или ночь.
    • Для этой задачи оптимальным оказалось разрешение 64x64x3 .
  3. Параметры модели:
    • Вход: Векторизованное изображение (RGB каналы).
    • Выход: Число от 0 до 1 (Sigmoid).
    • Функция потерь: Binary Cross-Entropy (логистическая потеря) .

🗣 Кейс-стади 2: Детекция триггерного слова (Trigger Word Detection) 35:56

Разработка систем вроде Alexa или Siri требует каскадного подхода для экономии энергии. Сначала работает очень легкая модель детекции активности (наличие звука), затем — модель триггерного слова (например, "Activate"), и только потом — тяжелая модель понимания речи .

Инструменты и методы сбора данных:

👤 Кейс-стади 3: Верификация и идентификация лиц 55:12

Существует разница между верификацией (сравнение 1:1, как при проверке ID) и идентификацией (сравнение 1:N, как в камерах безопасности) .

Алгоритм обучения через Triplet Loss:

Для обучения модели распознавания лиц используется концепция энкодинга (преобразование лица в вектор из 128 чисел). Чтобы векторы одного человека были близки, а разных — далеки, применяется Triplet Loss :

  1. Anchor (Якорь): Фотография человека А.
  2. Positive (Положительный): Другое фото того же человека А.
  3. Negative (Отрицательный): Фото человека Б.

Цель функции потерь — минимизировать расстояние между Anchor и Positive и максимизировать между Anchor и Negative.

Для поиска по базе используется алгоритм K-Nearest Neighbors (KNN): при входе человека система вычисляет его вектор и ищет «ближайших соседей» в базе данных векторов . По словам Киона, именно так работают функции группировки лиц в современных смартфонах: они используют алгоритм кластеризации (K-Means) на основе обученных энкодингов .

🧠 Self-Supervised Learning и возникновение смыслов 1:20:25

Поскольку разметка данных стоит дорого, индустрия переходит к самообучению (self-supervised learning). Здесь модель учится на самих данных без явных меток.

Методы самообучения:

Примеры эмерджентного (внезапно возникшего) поведения:

🔗 Мультимодальность и слабо контролируемое обучение 1:38:14

Weakly supervised learning (слабо контролируемое обучение) использует уже существующие в мире пары данных. Например, посты в Instagram с подписями или видео на YouTube с субтитрами. Это позволяет связывать разные модальности (звук, текст, изображение) в едином векторном пространстве .

Кион приводит в пример проект ImageBind от Meta. Благодаря тому, что текст является связующим звеном, модель может найти звук барабанов по текстовому запросу или сопоставить тепловое изображение с обычной фотографией, даже если она никогда не видела их в одной паре во время обучения . Это открывает путь к созданию ИИ-агентов, которые воспринимают мир так же целостно, как человек.

💬 Цитаты

«Глубокое обучение — это инженерная область: вам нужно либо попробовать это на практике, либо знать хаки.»

Кион Катон-Фу 29:19

«Проектирование хороших функций потерь — это искусство. Великие исследователи проявляют здесь максимум креативности.»

Кион Катон-Фу 08:12

«Эмерджентное поведение — это неожиданные возможности, которые возникают из простых целей обучения при огромном масштабе.»

👥 Спикер
🎬 Упомянутые фильмы и сериалы
🔗 Упомянутые сайты и проекты
📖 Термины
One-hot vector
Способ представления категориальных данных в виде вектора, где только один элемент равен единице, а остальные — нулю.
Encoding (Энкодинг)
Преобразование сложных данных (например, изображения лица) в компактный числовой вектор.
Contrastive Learning
Метод обучения, при котором модель учится различать похожие и непохожие примеры без учителей.
Triplet Loss
Функция потерь, использующая три примера (якорь, позитивный, негативный) для настройки весов сети.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Stanford CS230 Кион Катон-Фу Triplet Loss Self-Supervised Learning ImageBind