В новом выпуске автор канала Wes Roth анализирует стремительный рывок в развитии искусственного интеллекта, спровоцированный выходом модели GPT-5.4. Главными темами стали достижение нейросетью уровня человеческой компетенции в узких профессиональных областях, интеграция функций нативного управления компьютером и неожиданные юридические сложности Anthropic во взаимодействии с государственным сектором США.
🚀 Прорыв GPT-5.4: Превосходя экспертов и обходя «стены» 0:00
Новая модель GPT-5.4 демонстрирует результаты, которые автор видео называет «пугающе хорошими» в решении экономически значимых задач . Исследователь OpenAI Ноам Браун, комментируя прогресс, подчеркивает, что разработчики «не видят стены» (предела масштабируемости), которая могла бы замедлить развитие интеллектуальных способностей моделей в ближайшем будущем .
Одним из ключевых доказательств этого скачка стал бенчмарк GDP Val. Этот тест оценивает работу ИИ по критериям, разработанным профессионалами с опытом управления более 12–14 лет в таких компаниях, как Deloitte, Wells Fargo и Google . Суть теста заключается в сравнении финального результата (deliverable), созданного опытным человеком, и результата, сгенерированного моделью по тому же брифу.
Результаты GPT-5.4 Pro в этом тесте впечатляют:
- Общий показатель успеха (победа или ничья с экспертом-человеком) составил 82–83% .
- Чистый процент побед (когда работа ИИ признана лучше человеческой) достигает 70% .
- Модель оценивалась в таких ролях, как инженер-технолог, клерк по заказам и продюсер .
По мнению Уэса Рота, эти цифры ставят под вопрос будущее многих офисных профессий, так как автоматизация начинает покрывать задачи, ранее требовавшие десятилетий опыта .
🖥️ Эра нативного управления компьютером: Конец «черного экрана» 4:33
GPT-5.4 стала первой универсальной моделью с нативными возможностями управления компьютером (computer use) . В отличие от предыдущих итераций, где ИИ лишь писал код, который человек должен был запустить, новая модель напрямую взаимодействует с интерфейсом ОС, используя зрение и эмуляцию действий мыши и клавиатуры.
В бенчмарке OS World, который измеряет способность агента перемещаться по рабочему столу и выполнять задачи, GPT-5.4 установила новый рекорд:
- Уровень успеха составил 75%, что выше среднего показателя человека (72,4%) .
- Для сравнения: предыдущая версия GPT-5.2 имела показатель всего 47% .
- Модель эффективно использует библиотеки автоматизации (например, Playwright) и визуальный фидбек через скриншоты .
Уэс Рот отмечает, что это решает давнюю проблему «черного экрана». Ранее при попытке создать игру или веб-сайт через чат-бота пользователь часто получал нерабочий код. На замечание «я вижу просто черный экран» ИИ извинялся, но часто не мог исправить ошибку, так как не видел результата своей работы . Теперь модель может сама открыть браузер, увидеть ошибку и итерировать код до тех пор, пока визуальный результат не будет соответствовать задаче .
Примером практического применения стал опыт разработчика Кори Чинга, который с помощью GPT-5.4 и Playwright создал тактическую пошаговую RPG, где ИИ сам тестировал геймплей и визуальные элементы .
💼 Экспансия в финансы и профессиональные навыки 7:58
OpenAI явно заимствует стратегию Anthropic, внедряя поддержку специализированных «навыков» (skills) и инструментов миграции . Одним из главных направлений стала финансовая сфера. Райан Брюэр, занимающийся финансовыми продуктами в OpenAI, утверждает, что после разработки ПО именно финансы станут областью, которая получит наибольшую выгоду от ИИ .
Новые возможности включают:
- Интеграция ChatGPT напрямую в Excel для автоматизации сложных вычислений .
- «Приоритетный режим» (Priority Mode) для ускоренной генерации ответов .
- Возможность прерывать модель в процессе генерации для корректировки направления мысли .
На внутреннем бенчмарке инвестиционного банкинга, который включает финансовое моделирование и сценарный анализ (задачи, занимающие у аналитиков дни), GPT-5.4 набрала 87 баллов из 100. Для сравнения, GPT-5.2 Pro набирает 71 балл, а Opus 4.6 от Anthropic — всего 64 балла .
⚖️ Юридический удар по Anthropic и ситуация на рынке труда 0:25
На фоне технологических успехов компания Anthropic столкнулась с серьезным бюрократическим барьером: она официально признана «риском для цепочки поставок» (supply chain risk) . Это решение Министерства обороны США (Department of War в терминологии транскрипта) может ограничить использование модели Claude в государственных контрактах.
Однако есть важные нюансы:
- Anthropic намерена оспаривать этот статус в суде .
- Ограничение касается только тех случаев, когда Claude является прямой частью контрактов с военным ведомством, а не всех клиентов компании, имеющих такие контракты .
Параллельно Anthropic опубликовала исследование о влиянии ИИ на рынок труда. Основной вывод: массового замещения пока не наблюдается, но темпы найма молодых специалистов (выпускников колледжей) заметно замедляются . Компании все меньше нуждаются в сотрудниках начального уровня для выполнения рутинных задач, которые теперь берет на себя ИИ .
🔄 Кадровая ротация и конкуренция 10:05
В индустрии продолжается миграция ключевых талантов. Известный исследователь Макс Шварцер покинул OpenAI, чтобы присоединиться к Anthropic . Шварцер был значимой фигурой: он участвовал в разработке парадигмы рассуждений (reasoning) и запуске модели o1-preview . По его словам, уход не связан с конфликтами — он просто хочет работать с коллегами, которым доверяет и которые перешли в Anthropic ранее .
Рынок остается перенасыщенным новыми релизами:
- Google выпустила Gemini 3.1 Flashlight .
- Илон Маск представил вторую бету Grok 4.0 .
- Уэс Рот упоминает о технических сбоях на своем сайте (natural20.com) из-за проблем с API Anthropic, что подчеркивает растущую зависимость частных разработчиков от стабильности облачных ИИ-провайдеров .
Автор заключает, что текущий момент — это начало новой эры, где грань между человеческим и машинным выполнением сложных интеллектуальных задач практически стирается .