Уэс Рот: «GPT-5.4 стирает грань между ИИ и экспертами с 14-летним стажем»

Wes Roth 54,4 тыс. 13 мин 4 мин 05.03.2026
Главное

В новом выпуске автор канала Wes Roth анализирует стремительный рывок в развитии искусственного интеллекта, спровоцированный выходом модели GPT-5.4. Главными темами стали достижение нейросетью уровня человеческой компетенции в узких профессиональных областях, интеграция функций нативного управления компьютером и неожиданные юридические сложности Anthropic во взаимодействии с государственным сектором США.

🚀 Прорыв GPT-5.4: Превосходя экспертов и обходя «стены» 0:00

Новая модель GPT-5.4 демонстрирует результаты, которые автор видео называет «пугающе хорошими» в решении экономически значимых задач . Исследователь OpenAI Ноам Браун, комментируя прогресс, подчеркивает, что разработчики «не видят стены» (предела масштабируемости), которая могла бы замедлить развитие интеллектуальных способностей моделей в ближайшем будущем .

Одним из ключевых доказательств этого скачка стал бенчмарк GDP Val. Этот тест оценивает работу ИИ по критериям, разработанным профессионалами с опытом управления более 12–14 лет в таких компаниях, как Deloitte, Wells Fargo и Google . Суть теста заключается в сравнении финального результата (deliverable), созданного опытным человеком, и результата, сгенерированного моделью по тому же брифу.

Результаты GPT-5.4 Pro в этом тесте впечатляют:

По мнению Уэса Рота, эти цифры ставят под вопрос будущее многих офисных профессий, так как автоматизация начинает покрывать задачи, ранее требовавшие десятилетий опыта .

🖥️ Эра нативного управления компьютером: Конец «черного экрана» 4:33

GPT-5.4 стала первой универсальной моделью с нативными возможностями управления компьютером (computer use) . В отличие от предыдущих итераций, где ИИ лишь писал код, который человек должен был запустить, новая модель напрямую взаимодействует с интерфейсом ОС, используя зрение и эмуляцию действий мыши и клавиатуры.

В бенчмарке OS World, который измеряет способность агента перемещаться по рабочему столу и выполнять задачи, GPT-5.4 установила новый рекорд:

  1. Уровень успеха составил 75%, что выше среднего показателя человека (72,4%) .
  2. Для сравнения: предыдущая версия GPT-5.2 имела показатель всего 47% .
  3. Модель эффективно использует библиотеки автоматизации (например, Playwright) и визуальный фидбек через скриншоты .

Уэс Рот отмечает, что это решает давнюю проблему «черного экрана». Ранее при попытке создать игру или веб-сайт через чат-бота пользователь часто получал нерабочий код. На замечание «я вижу просто черный экран» ИИ извинялся, но часто не мог исправить ошибку, так как не видел результата своей работы . Теперь модель может сама открыть браузер, увидеть ошибку и итерировать код до тех пор, пока визуальный результат не будет соответствовать задаче .

Примером практического применения стал опыт разработчика Кори Чинга, который с помощью GPT-5.4 и Playwright создал тактическую пошаговую RPG, где ИИ сам тестировал геймплей и визуальные элементы .

💼 Экспансия в финансы и профессиональные навыки 7:58

OpenAI явно заимствует стратегию Anthropic, внедряя поддержку специализированных «навыков» (skills) и инструментов миграции . Одним из главных направлений стала финансовая сфера. Райан Брюэр, занимающийся финансовыми продуктами в OpenAI, утверждает, что после разработки ПО именно финансы станут областью, которая получит наибольшую выгоду от ИИ .

Новые возможности включают:

На внутреннем бенчмарке инвестиционного банкинга, который включает финансовое моделирование и сценарный анализ (задачи, занимающие у аналитиков дни), GPT-5.4 набрала 87 баллов из 100. Для сравнения, GPT-5.2 Pro набирает 71 балл, а Opus 4.6 от Anthropic — всего 64 балла .

⚖️ Юридический удар по Anthropic и ситуация на рынке труда 0:25

На фоне технологических успехов компания Anthropic столкнулась с серьезным бюрократическим барьером: она официально признана «риском для цепочки поставок» (supply chain risk) . Это решение Министерства обороны США (Department of War в терминологии транскрипта) может ограничить использование модели Claude в государственных контрактах.

Однако есть важные нюансы:

Параллельно Anthropic опубликовала исследование о влиянии ИИ на рынок труда. Основной вывод: массового замещения пока не наблюдается, но темпы найма молодых специалистов (выпускников колледжей) заметно замедляются . Компании все меньше нуждаются в сотрудниках начального уровня для выполнения рутинных задач, которые теперь берет на себя ИИ .

🔄 Кадровая ротация и конкуренция 10:05

В индустрии продолжается миграция ключевых талантов. Известный исследователь Макс Шварцер покинул OpenAI, чтобы присоединиться к Anthropic . Шварцер был значимой фигурой: он участвовал в разработке парадигмы рассуждений (reasoning) и запуске модели o1-preview . По его словам, уход не связан с конфликтами — он просто хочет работать с коллегами, которым доверяет и которые перешли в Anthropic ранее .

Рынок остается перенасыщенным новыми релизами:

Автор заключает, что текущий момент — это начало новой эры, где грань между человеческим и машинным выполнением сложных интеллектуальных задач практически стирается .

💬 Цитаты

«Мы не видим стены. ИИ становится пугающе хорош в экономически ценных задачах.»

Уэс Рот (цитируя Ноама Брауна) 00:12

«Сегодня — первый день новой эры. Эры, когда нам больше не нужно говорить чат-боту в пятый раз, что на экране просто пустота.»

👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Playwright
Библиотека с открытым исходным кодом для автоматизации тестирования веб-приложений через управление браузером.
GDP Val
Бенчмарк, оценивающий способность ИИ выполнять комплексные проекты на уровне опытных специалистов индустрии.
OS World
Тест на способность ИИ-агентов взаимодействовать с интерфейсом операционной системы через скриншоты и команды ввода.
Chain of Thought
Метод рассуждения модели, при котором она разбивает сложную задачу на последовательные логические шаги.
📊 Цифры
🗓 Хронология
  1. Недавно Выход GPT-5.4 с нативным управлением компьютером.
  2. Текущий день Anthropic признана риском для цепочки поставок правительством США.
  3. Прошедшие 48 часов Релизы Gemini 3.1 Flashlight и второй беты Grok 4.0.
⚖️ Другая сторона
Искусственный интеллект OpenAI GPT 5.4 Anthropic Claude GDP Val