Эксперты о прорыве o1: «Мышление или просто поиск?»

🧠 ARC Prize 2024: Переосмысление логики и возможностей ИИ 0:00

Недавние успехи моделей в решении ARC Challenge (Abstraction and Reasoning Corpus) спровоцировали серьезный пересмотр подходов к оценке общего искусственного интеллекта (AGI). В панельной дискуссии эксперты канала Machine Learning Street Talk обсудили, является ли текущий прогресс моделей, таких как o1 от OpenAI, реальным прорывом в обобщении или лишь результатом огромных вычислительных затрат и оптимизации данных.

🛠 Механизмы «мышления» и архитектурные сдвиги 5:18

Одной из центральных тем стало обсуждение того, как именно модели достигают высоких результатов в задачах, требующих рассуждений. Вместо стандартного авторегрессионного предсказания токенов, новые модели используют алгоритмические надстройки.

Алгоритмическое расширение: Успех моделей в задачах ARC часто обусловлен наличием алгоритма «вокруг» базовой LLM, который осуществляет поиск по дереву (tree search) или другие методы проверки результатов.
Траектории решений: В решении ARC участники отметили важность нахождения правильной траектории в пространстве токенов. Поскольку в ARC пространство решений сильно ограничено, модели могут эффективно использовать поиск в глубину (DFS), отсекая бесперспективные ветки,.
Проблема верификации: Одной из главных трудностей остается проверка корректности рассуждений. Специалисты полагают, что использование отдельной модели-верификатора — это стандартный, но сложный подход, так как модели часто плохо справляются с оценкой собственных выводов. В специфических задачах, таких как ARC, исследователи применяют стратегии «сдвига перспективы» (например, транспонирование или вращение сетки), чтобы проверить устойчивость решения.

📊 Обновление взглядов и «проблема контаминации» 2:52

Дискуссия затронула опасения по поводу возможного загрязнения обучающих данных (data set contamination). Хотя эксперты признают, что o1 демонстрирует признаки «понимания» (в случаях, когда модель делает верные предсказания даже при ошибках в исходных метках), вопросы остаются,.

Обучение на данных ARC: Изначально существовало заблуждение о нулевом обучении (zero-shot) моделей на ARC. Сейчас очевидно, что использование части тренировочных данных имело место, что несколько снижает градус «чудесности» результатов.
Стоимость вычислений: Озвучиваются цифры порядка $7 на задачу ARC в среднем, что при масштабировании на сотни задач превращается в значительные суммы, затрачиваемые на тысячи проходов через модель.

🤖 Соперничество моделей и вопрос «души» 20:15

Участники обсудили текущий ландшафт моделей и прогнозы на будущее:

Характер моделей: Отмечается, что при включении режима «мышления» (thinking mode) модели приобретают иной характер. По мнению одного из экспертов, такие модели становятся более креативными, но при этом могут казаться «бездушными» (soulless) из-за отсутствия разнообразия при сэмплировании,.
Перспективы: Несмотря на лидерство OpenAI, конкуренты (например, Anthropic с моделью Sonnet) демонстрируют уникальные качества. Эксперты сходятся во мнении, что вопрос «кто победит» вторичен по отношению к вопросу «что считать разумом».

🌐 Что дальше: поиск нового бенчмарка 33:18

Участники подчеркнули, что даже если ARC и Frontier Math будут полностью покорены, это не обязательно будет означать создание полноценного AGI.

Движение целей: Горизонт планирования постоянно смещается. То, что 5 лет назад казалось невозможным, сегодня реализуется через интерфейс ChatGPT.
Новые подходы: Предлагается создавать «рекурсивно композиционные» версии задач, которые могли бы генерировать новизну каждый раз при тестировании, чтобы избежать утечки данных и заучивания.
Вердикт по AGI: Остается актуальным определение Франсуа Шолле (François Chollet), согласно которому AGI — это эффективность приобретения навыков и адаптация к новизне.