Уэс Рот: «GPT-5.4 стирает грань между ИИ и экспертами с 14-летним стажем»

В новом выпуске автор канала Wes Roth анализирует стремительный рывок в развитии искусственного интеллекта, спровоцированный выходом модели GPT-5.4. Главными темами стали достижение нейросетью уровня человеческой компетенции в узких профессиональных областях, интеграция функций нативного управления компьютером и неожиданные юридические сложности Anthropic во взаимодействии с государственным сектором США.

🚀 Прорыв GPT-5.4: Превосходя экспертов и обходя «стены» 0:00

Новая модель GPT-5.4 демонстрирует результаты, которые автор видео называет «пугающе хорошими» в решении экономически значимых задач . Исследователь OpenAI Ноам Браун, комментируя прогресс, подчеркивает, что разработчики «не видят стены» (предела масштабируемости), которая могла бы замедлить развитие интеллектуальных способностей моделей в ближайшем будущем .

Одним из ключевых доказательств этого скачка стал бенчмарк GDP Val. Этот тест оценивает работу ИИ по критериям, разработанным профессионалами с опытом управления более 12–14 лет в таких компаниях, как Deloitte, Wells Fargo и Google . Суть теста заключается в сравнении финального результата (deliverable), созданного опытным человеком, и результата, сгенерированного моделью по тому же брифу.

Результаты GPT-5.4 Pro в этом тесте впечатляют:

Общий показатель успеха (победа или ничья с экспертом-человеком) составил 82–83% .
Чистый процент побед (когда работа ИИ признана лучше человеческой) достигает 70% .
Модель оценивалась в таких ролях, как инженер-технолог, клерк по заказам и продюсер .

По мнению Уэса Рота, эти цифры ставят под вопрос будущее многих офисных профессий, так как автоматизация начинает покрывать задачи, ранее требовавшие десятилетий опыта .

🖥️ Эра нативного управления компьютером: Конец «черного экрана» 4:33

GPT-5.4 стала первой универсальной моделью с нативными возможностями управления компьютером (computer use) . В отличие от предыдущих итераций, где ИИ лишь писал код, который человек должен был запустить, новая модель напрямую взаимодействует с интерфейсом ОС, используя зрение и эмуляцию действий мыши и клавиатуры.

В бенчмарке OS World, который измеряет способность агента перемещаться по рабочему столу и выполнять задачи, GPT-5.4 установила новый рекорд:

Уровень успеха составил 75%, что выше среднего показателя человека (72,4%) .
Для сравнения: предыдущая версия GPT-5.2 имела показатель всего 47% .
Модель эффективно использует библиотеки автоматизации (например, Playwright) и визуальный фидбек через скриншоты .

Уэс Рот отмечает, что это решает давнюю проблему «черного экрана». Ранее при попытке создать игру или веб-сайт через чат-бота пользователь часто получал нерабочий код. На замечание «я вижу просто черный экран» ИИ извинялся, но часто не мог исправить ошибку, так как не видел результата своей работы . Теперь модель может сама открыть браузер, увидеть ошибку и итерировать код до тех пор, пока визуальный результат не будет соответствовать задаче .

Примером практического применения стал опыт разработчика Кори Чинга, который с помощью GPT-5.4 и Playwright создал тактическую пошаговую RPG, где ИИ сам тестировал геймплей и визуальные элементы .

💼 Экспансия в финансы и профессиональные навыки 7:58

OpenAI явно заимствует стратегию Anthropic, внедряя поддержку специализированных «навыков» (skills) и инструментов миграции . Одним из главных направлений стала финансовая сфера. Райан Брюэр, занимающийся финансовыми продуктами в OpenAI, утверждает, что после разработки ПО именно финансы станут областью, которая получит наибольшую выгоду от ИИ .

Новые возможности включают:

Интеграция ChatGPT напрямую в Excel для автоматизации сложных вычислений .
«Приоритетный режим» (Priority Mode) для ускоренной генерации ответов .
Возможность прерывать модель в процессе генерации для корректировки направления мысли .

На внутреннем бенчмарке инвестиционного банкинга, который включает финансовое моделирование и сценарный анализ (задачи, занимающие у аналитиков дни), GPT-5.4 набрала 87 баллов из 100. Для сравнения, GPT-5.2 Pro набирает 71 балл, а Opus 4.6 от Anthropic — всего 64 балла .

⚖️ Юридический удар по Anthropic и ситуация на рынке труда 0:25

На фоне технологических успехов компания Anthropic столкнулась с серьезным бюрократическим барьером: она официально признана «риском для цепочки поставок» (supply chain risk) . Это решение Министерства обороны США (Department of War в терминологии транскрипта) может ограничить использование модели Claude в государственных контрактах.

Однако есть важные нюансы:

Anthropic намерена оспаривать этот статус в суде .
Ограничение касается только тех случаев, когда Claude является прямой частью контрактов с военным ведомством, а не всех клиентов компании, имеющих такие контракты .

Параллельно Anthropic опубликовала исследование о влиянии ИИ на рынок труда. Основной вывод: массового замещения пока не наблюдается, но темпы найма молодых специалистов (выпускников колледжей) заметно замедляются . Компании все меньше нуждаются в сотрудниках начального уровня для выполнения рутинных задач, которые теперь берет на себя ИИ .

🔄 Кадровая ротация и конкуренция 10:05

В индустрии продолжается миграция ключевых талантов. Известный исследователь Макс Шварцер покинул OpenAI, чтобы присоединиться к Anthropic . Шварцер был значимой фигурой: он участвовал в разработке парадигмы рассуждений (reasoning) и запуске модели o1-preview . По его словам, уход не связан с конфликтами — он просто хочет работать с коллегами, которым доверяет и которые перешли в Anthropic ранее .

Рынок остается перенасыщенным новыми релизами:

Google выпустила Gemini 3.1 Flashlight .
Илон Маск представил вторую бету Grok 4.0 .
Уэс Рот упоминает о технических сбоях на своем сайте (natural20.com) из-за проблем с API Anthropic, что подчеркивает растущую зависимость частных разработчиков от стабильности облачных ИИ-провайдеров .

Автор заключает, что текущий момент — это начало новой эры, где грань между человеческим и машинным выполнением сложных интеллектуальных задач практически стирается .