Эван Рейзер (Poolside): «Обучение на исполнении кода — это путь к созданию AGI»

В мире технологий искусственного интеллекта наметился новый фронт. Пока гиганты вроде OpenAI и Google соревнуются в универсальности своих моделей, стартап Poolside делает ставку на узкую, но фундаментально важную область — разработку программного обеспечения. Сооснователь и CEO компании Эван Рейзер (Ewan Reiser) в беседе с Крейгом Смитом на подкасте Eye on AI раскрыл стратегический план: использовать кодинг как «трамплин» для создания полноценного ИИ человеческого уровня (AGI).

🚀 Почему кодинг — это кратчайший путь к AGI 0:00

По мнению Эвана Рейзера, разработка программного обеспечения — это не просто написание строк кода, а сложнейшая репрезентация принципов понимания мира . В Poolside считают, что если ИИ сможет овладеть навыками программирования на уровне эксперта, он неизбежно разовьёт в себе способности к сложному планированию, логическому рассуждению и визуальному восприятию — всему тому, что составляет основу человеческого интеллекта .

Рейзер выделяет три этапа развития компании:

Этап 1: Помощь профессиональным разработчикам в написании кода.
Этап 2: Предоставление любому человеку возможности создавать ПО с помощью ИИ.
Этап 3: Перенос полученных навыков рассуждения на все остальные домены человеческих знаний .

CEO Poolside утверждает, что фокусировка исключительно на программировании позволяет избежать распыления ресурсов, которым грешат создатели универсальных моделей, пытающиеся научить ИИ одновременно писать стихи и ставить медицинские диагнозы .

🧠 Ограничения современных LLM: почему «предсказание следующего токена» не работает 4:45

Эван Рейзер критикует популярное в индустрии мнение, что для достижения сильного ИИ (AGI) достаточно просто масштабировать размер моделей и объем данных. По его словам, чистое языковое моделирование (предугадывание следующего слова) имеет фундаментальный предел .

Ключевые аргументы Рейзера:

Отсутствие процесса мышления в данных: Интернет заполнен «конечными продуктами» — статьями, кодом, научными работами. Но в сети нет записей тех тысяч часов раздумий, ошибок и тупиковых ветвей, которые привели Эйнштейна к теории относительности .
Проблема математики: Современные LLM часто ошибаются в вычислениях (например, при умножении больших чисел), потому что они не «считают», а «угадывают» наиболее вероятный ответ. Они могут быть близки к истине на 5%, но для кода или математики этого недостаточно .
Необходимость Reinforcement Learning (RL): Чтобы модель действительно научилась рассуждать, ей нужен механизм обратной связи, подобный тому, как люди учатся на своих ошибках .

🛠 RLCF: Обучение через исполнение кода 9:44

В отличие от стандартного метода обучения с подкреплением на основе отзывов людей (RLHF), Poolside использует уникальный подход — RLCF (Reinforcement Learning from Code Execution Feedback) .

Суть метода заключается в следующем:

Изолированная среда: Модель работает внутри контейнеризированной системы, имитирующей реальный мир. Poolside создали среду, включающую около миллиона репозиториев с реальным кодом и тестами .
Объективная истина: В отличие от написания эссе, где оценка субъективна, код либо компилируется и проходит тесты, либо нет. Это дает модели предельно четкий и честный сигнал — «награда» за успех или «штраф» за ошибку .
Агентурный подход: Новое поколение моделей Poolside — это уже не просто чат-боты, а агенты. Они могут самостоятельно искать файлы, запускать команды в терминале, устанавливать зависимости и находить баги в многошаговом процессе .

Рейзер признает, что RL — это «капризный зверь». Обучение стабильно только тогда, когда задачи достаточно сложны для прогресса, но не настолько невыполнимы, чтобы модель никогда не получала положительного подкрепления .

🏢 Стратегия «Model Factory» и ориентация на Enterprise 14:57

Poolside отказались от «кустарного» подхода к созданию ИИ. Вместо того чтобы каждый раз вручную настраивать новую модель, они построили «фабрику моделей» (Model Factory) — систему, которая позволяет автоматически проверять тысячи вариаций архитектур и гиперпараметров .

Другой важной вехой развития стал осознанный уход в сегмент крупных корпораций (Enterprise). Рейзер объясняет это так:

Масштаб задач: В компаниях с 50 000 разработчиков (например, в крупных банках) потребность в ИИ-инструментах огромна, но и сложность внедрения выше .
Безопасность и Firewall: Poolside предлагает установку моделей on-premise (на собственных серверах клиента). Это критически важно для оборонного сектора, государственного управления и финансов .
Кастомизация весов: Со временем Poolside планирует позволить корпорациям дообучать модель на их собственном коде, фактически создавая уникальный интеллект, адаптированный под конкретный бизнес .

🔮 Будущее: исчезнут ли программисты? 52:21

Несмотря на мощь алгоритмов, Эван Рейзер подчеркивает: модели всё еще совершают ошибки. Интерфейсы Poolside (плагины для VS Code, IntelliJ и др.) строятся так, чтобы человек всегда мог проверить результат . Однако он делает смелый прогноз: в ближайшие годы бюджеты на обучение через RL (рассуждение) превысят бюджеты на традиционное обучение на массивах данных .

На вопрос о том, что делать тем, кто не умеет кодить, Рейзер отвечает: мы движемся к миру «эластичной рабочей силы ИИ». В будущем человек будет выступать в роли архитектора и заказчика, а агенты будут выполнять задачи автономно, общаясь с пользователем на естественном языке для уточнения деталей .

Главный совет от CEO Poolside для тех, кто пытается следить за рынком ИИ: «Смотрите сквозь шум. Спрашивайте себя: будет ли этот инструмент актуален через 5 лет, когда возможности ИИ полностью сравняются с возможностями человека в интеллектуальном труде?» .