Клара Майстер о Typical Decoding: как сделать ИИ человечнее

Yannic Kilcher 9,4 тыс. 48 мин 3 мин 26.03.2022
Главное

Новое слово в генерации текста: интервью с Кларой Майстер о Typical Decoding 1:19

В недавнем выпуске своего канала Янник Кильхер (Yannic Kilcher) обсудил с Кларой Майстер, ведущим автором статьи «Typical Decoding for Natural Language Generation», новый метод сэмплирования, который обещает сделать тексты языковых моделей более человечными. В основе исследования лежит попытка формализовать то, как люди выбирают слова при общении, и применить эти принципы к работе алгоритмов.

🧠 Философия «типичности» в языке 3:40

По мнению Майстер, языковые модели — это по сути вероятностные распределения над строками. Однако при генерации текста мы часто сталкиваемся с тем, что стандартные подходы к сэмплированию дают не те результаты, которых мы ожидаем от естественного языка.

📉 Анализ распределений и «длинный хвост» 21:03

В ходе работы авторы исследовали распределения вероятностей слов в человеческих текстах и в выводах моделей. Выяснилось, что при анализе «информационного контента» человеческий язык демонстрирует интересную форму распределения с выраженным пиком около нуля и длинным «хвостом».

🛠 Практическая реализация и результаты 31:07

Майстер рассказала, что для новой версии статьи на arXiv они провели масштабные человеческие оценки, сравнив свой метод с популярными Nucleus (Top-p) и Top-k сэмплированием.

🔮 Будущее исследований 46:07

Кильхер и Майстер сошлись во мнении, что исследование стратегий декодирования находится лишь в начале пути. Возможные направления для дальнейшей работы включают:

  1. Оптимизация формул: Использование квадратичного расстояния вместо абсолютного значения для более гибкой настройки.
  2. Обучаемые объекты: Создание алгоритмов, которые самостоятельно учатся определять «правильную» формулу интенсивности передачи информации.
  3. Применение кода: Метод уже доступен в библиотеке Hugging Face Transformers. Пользователи могут протестировать его, добавив аргумент typical_p при генерации текста.
💬 Цитаты

«Человеческий язык стремится к передаче оптимального количества информации.»

Клара Майстер 05:48

«Повторения — одна из больших проблем в генерации, они возникают из-за выбора слов с нулевым информационным весом.»

Клара Майстер 35:15
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Typical Decoding
Метод сэмплирования слов, основанный на идее, что каждое слово должно нести количество информации, близкое к ожидаемому.
Nucleus Sampling
Метод, при котором сэмплирование происходит из минимального набора слов, чья суммарная вероятность превышает порог p.
Label Smoothing
Техника регуляризации при обучении, искусственно делающая распределение вероятностей менее пиковым (более «плоским»).
Perplexity
Метрика качества модели, измеряющая, насколько хорошо она предсказывает выборку; чем ниже, тем лучше (в идеале — близко к эталону).
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Typical Decoding Natural Language Generation Clara Meister Yannic Kilcher Hugging Face