# От подхалимства к результату: как на самом деле работает ИИ

Источник: https://www.youtube.com/watch?v=8ib4Qnh2HFE
Канал: DeepLearning.AI
Опубликовано: 18.05.2026

---

Современные чат-боты — это профессиональные подхалимы, которые соглашаются с вами в десять раз чаще, чем решаются на конструктивный спор. Чтобы превратить вежливого ассистента в эффективный инструмент, придется забыть старые промпты вроде «думай шаг за шагом» в пользу прямого требования глубокого анализа. Эндрю Ын объясняет, как на самом деле работают алгоритмы рассуждения и почему одна картинка в запросе сегодня эффективнее тысячи слов контекста.

## 🚀 Эволюция промптинга: от новичка к опытному пользователю
[[JUMP:00:00]]

### 💡 Мышление мастера: чем опытный пользователь отличается от новичка
[[JUMP:00:25]]
На дворе 2026 год, и принципы взаимодействия с искусственным интеллектом кардинально изменились по сравнению с эпохой запуска ChatGPT в 2022 году. Умение эффективно использовать нейросети стало одним из самых востребованных и преобразующих навыков в любой профессии. Эндрю Ын (Andrew Ng) подчеркивает, что главная разница между новичками и профессионалами кроется в глубине их подхода и понимании возможностей современных моделей.

Новички чаще всего воспринимают ИИ как обычный поисковик и отправляют короткие, простые запросы вроде: «Остался ли еще в меню Taco Bell дабл-деккер тако?». И ИИ, конечно, выдаст базовый ответ. Однако опытные пользователи доверяют моделям решение по-настоящему сложных задач, давая им время «подумать». Например, при выборе автомобиля эксперт загрузит в систему целый пакет документов — технические характеристики, ценовые предложения, страховки — и попросит взвесить все компромиссы, уделив анализу достаточно времени. Модель может провести за рассуждениями несколько минут, но на выходе выдаст детальный аналитический отчет, экономя часы ручной работы.

Еще одно важное отличие — управление контекстом. Опытный пользователь проявляет к ИИ своего рода эмпатию, воспринимая его как способного, высокомотивированного выпускника колледжа, который, однако, пока ничего не знает лично о вас. Если новичк просто попросит: «Напиши хороший отзыв о моей работе для босса», он получит банальную и бесполезную отписку. Профессионал же снабдит ИИ скриншотами трекеров задач, проектной документацией и даже голосовыми заметками с разбором ключевых достижений за год.

Различаются и подходы к генерации текстов. Новички просят ИИ сразу написать готовый пост, получая на выходе безликий «ИИ-шлак». Опытные авторы выстраивают итеративный рабочий процесс: сначала просят составить план, критикуют его, дорабатывают в ходе нескольких диалогов и лишь затем переходят к тексту. В таком сценарии ИИ выступает как партнер по мозговому штурму, подробнее о чем будет рассказано во второй главе. 

Конечно, ИИ совершает ошибки, но реже, чем принято думать из-за вирусных мемов в соцсетях (вроде подсчета букв «р» в слове *strawberry* или забавного совета пойти пешком на автомойку). Профессионалы понимают реальную ценность ИИ: проведение глубоких исследований, написание аналитических отчетов или обработка персональных медицинских данных и показателей тренировок.

Ранее в разговоре лектор касался проблемы угодничества моделей, стремящихся во всем подыграть автору запроса, и использования строгих критериев для борьбы с этим — эти темы детально раскрываются в четвертой главе.

### 🧠 Откуда ИИ знает всё: природа предобученных знаний
[[JUMP:09:37]]
Чтобы предсказывать поведение ИИ и понимать степень надежности его ответов, необходимо разобраться, как именно он аккумулирует знания. Процесс обучения нейросетей похож на то, как учатся дети: они осваивают навыки через чтение колоссальных объемов информации. ИИ извлекает языковые и логические закономерности из триллионов слов, находящихся в открытом доступе в интернете. Этот фундамент называется «предобученными знаниями».

Благодаря этому ИИ может не только подсказать, что делать, если вы уронили телефон в суп, или объяснить, почему кошки смотрят на стену как на привидений (оказывается, они улавливают тончайшие звуки и движения), но и выдать глубоко нишевые факты. К примеру, модель подробно помнит, что именно было записано на золотой пластине Voyager 1, запущенного NASA в 1970-х годах и находящегося сейчас в 25 миллиардах миль от Земли.

В обучающую выборку входят самые разнообразные источники:

* Обсуждения на форумах Reddit и Quora;
* Книги (от художественных до руководств по строительству микро-городов из Lego);
* Статьи из Википедии и энциклопедий;
* Новостные сайты;
* Академические и научные исследования.

Ключевое правило надежности ИИ: точность ответа напрямую зависит от частоты упоминания темы в обучающих данных. О кулинарии или знаменитостях в сети написаны миллионы статей, поэтому здесь ИИ ориентируется великолепно. А вот о квазарах — сверхъярких астрономических объектах, питаемых сверхмассивными черными дырами — информации значительно меньше, и ответы могут быть менее детализированными. Тексты на кантонском диалекте составляют менее 0,1% интернет-контента, поэтому на нем модель пишет хуже, чем на английском. О секретных же корпоративных данных вашей компании ИИ не знает вообще ничего, поскольку их никогда не было в открытом интернете.

Интересно, что ИИ прекрасно понимает запросы с кучей опечаток и плохой грамматикой (например, «можно ли преготовить яйцо в микроволновке?»). Это связано с тем, что в самом интернете полно опечаток, и модель научилась их распознавать. Поэтому не стоит тратить время на вычитывание каждой запятой в промпте. Однако помните: интернет полон заблуждений и устаревших данных, которые ИИ также впитывает в процессе предобучения.

### 🌐 Преодолевая барьеры времени: как работает веб-поиск в ИИ
[[JUMP:15:42]]
Каким бы масштабным ни было предобучение, у него есть критический недостаток — дата отсечки знаний (knowledge cutoff). В определенный момент создатели модели останавливают обучение, и ее знания о мире «замораживаются». Чтобы ИИ мог работать с актуальными событиями, создатели интегрируют в него функцию веб-поиска.

Веб-поиск автоматически активируется, когда запрос содержит маркеры времени или требует свежей информации. Например, вопрос о «меме 67 из 2025 года» заставит модель обратиться к поисковику, поскольку ИИ осознает, что маркер «2025» указывает на события за пределами его статичной базы знаний. Так, у модели GPT 5.4 от OpenAI дата отсечки пришлась на август 2025 года. А поскольку популярность мема «67» взлетела позже этой даты, без веб-поиска модель не смогла бы дать верный ответ.

Помимо текущих новостей, поиск в реальном времени необходим в следующих случаях:

* Локальные запросы (например, поиск хорошего спортзала рядом с Маунтин-Вью, Калифорния);
* Редкая, нишевая информация (например, поиск данных о традиционном британском фестивале по погоне за сыром по склону холма);
* Прямое указание пользователя в промпте: «Пожалуйста, выполни веб-поиск по этой теме».

Однако веб-поиск — инструмент несовершенный. ИИ имеет тенденцию ссылаться на самые популярные ресурсы, а не на самые авторитетные. Согласно отчетам, чаще всего модели цитируют Reddit, Википедию, YouTube, Google, Yelp. Если вы спросите ИИ о безопасности серых пептидов (популярных биодобавок), он соберет мнения с форумов или сайтов продавцов, которые могут быть предвзятыми. Чтобы получить научно обоснованный ответ, модель нужно принудительно направить, указав в промпте: «Используй источники официальных организаций вроде ВОЗ, FDA или EMA».

Еще одна ловушка — устаревшие веб-страницы. Эндрю Ын делится примером: когда его знакомый искал места для пробежек в городе Хендерсон (Невада), ИИ выдал список на основе статьи двадцатилетней давности. В итоге модель порекомендовала стадион школы, который уже много лет закрыт для посторонних.

Механизм того, как именно ИИ осуществляет этот многоэтапный поиск под капотом, будет подробно описан уже в следующей главе.

## 🔍 Анатомия ИИ-поиска: от скрытых алгоритмов до креативного соавторства
[[JUMP:25:00]]

### Двухагентная система: как ИИ читает интернет за вас
[[JUMP:25:14]]
Как объясняет Эндрю Ын (Andrew Ng), когда пользователь общается с искусственным интеллектом, он взаимодействует исключительно с внешней моделью (user-facing model). Однако за кулисами этого процесса скрывается вторая, вспомогательная модель-ассистент. Именно она по запросу основной системы обращается к поисковым движкам вроде Google или Bing, фильтрует выдачу и загружает релевантные страницы, чтобы составить их краткое резюме. 

Проблема заключается в том, что основная модель никогда не видит веб-страницы целиком — она опирается только на эти выжимки. Из-за этого возникает специфический баг: ИИ может неверно интерпретировать первоисточник, заявляя, что ссылка подтверждает его выводы, хотя в реальности это не так. Например, при вопросе о подготовке к походу на Мачу-Пикчу ассистент делает пачку запросов о погоде и разрешениях, но финальный ответ собирается «из вторых рук». Как ранее упоминалось в первой главе, веб-поиск отлично служит для актуализации данных, но пользователю важно понимать ограничения технологии.

Эндрю Ын предлагает простое разделение для выбора инструмента:

* **Традиционный веб-поиск** идеален для быстрого самостоятельного сканирования источников, поиска забытых URL-адресов или покупки конкретных товаров — например, воздушного фильтра для Honda Civic 2013 года.
* **ИИ-поиск** незаменим, когда требуется глубокий синтез данных из множества мест, автоматическое взвешивание аргументов за и против или получение комплексного, вдумчивого аналитического вывода.

### Deep Research: автономные агенты на службе аналитики
[[JUMP:29:42]]
Когда стандартного поиска по нескольким страницам недостаточно, на сцену выходит режим глубокого поиска (Deep Research), доступный сегодня во многих популярных интерфейсах. Этот инструмент наглядно иллюстрирует концепцию агентного ИИ (agentic AI) — подхода, при котором модель получает автономность в принятии решений и планировании действий. 

В качестве примера лектор приводит планирование хэллоуинской комнаты страха на переднем дворе дома. ИИ сначала формирует детальный план исследования, который пользователь может скорректировать или утвердить. Затем агент начинает самостоятельно обрабатывать десятки источников: проверяет локальные законы Пало-Альто, правила пожарной безопасности и идеи декора, гибко меняя стратегию на ходу. 

Технически Deep Research совершает огромный шаг вперед: вместо последовательных запросов он умеет выполнять множество поисков одновременно. На выходе пользователь получает структурированный отчет, который в интерфейсах вроде Gemini можно превратить в готовую веб-страницу с графиками бюджета и чек-листами. Обычный поиск идеален для простых фактов вроде погоды в Дубае, тогда как глубокий поиск незаменим для многомерных аналитических задач, таких как оценка влияния ежедневных шагов на долголетие на основе актуальных научных статей. То, что вручную заняло бы у человека часы, агент делает за несколько минут. Вскользь отметим, что возможность загрузки собственных документов для анализа ограничений (например, договора аренды) подробно рассматривается в контексте работы с файлами в третьей главе.

### Выход за рамки банальности: как разбудить креативность ИИ
[[JUMP:43:11]]
Ещё одна мощная, но недооцененная роль современных моделей — использование ИИ как партнера по мозговому штурму. По статистике OpenAI, на долю генерации творческих идей приходится около 3,9% всех запросов в ChatGPT. Модели великолепно справляются с классическими тестами на креативность — например, придумать 200 способов использования обычного кирпича. Человек быстро выдыхается после банальных вариантов вроде «пресс-папье» или «строительство дома», тогда как ИИ мгновенно генерирует огромный список для последующей оценки человеком.

Однако стандартные запросы приводят к предсказуемо скучным результатам. Если попросить план тренировок для новичка, ИИ выдаст шаблонные приседания и отжимания. Чтобы выжать из модели истинную креативность, Эндрю Ын рекомендует добавлять детальный, нестандартный контекст — например, упомянуть домашнего кота и мини-батут. Это заставляет ИИ предлагать уникальные идеи вроде «микротренировок, привязанных к поведению питомца». 

Лектор объясняет это через график распределения вероятностей: на одной оси — уникальность ответа, на другой — вероятность генерации. Поскольку ИИ обучен на текстах из интернета, его базовый ответ всегда стремится к наиболее вероятному «среднему арифметическому». Это полезно для поиска фактов, где средний ответ является истиной, но губительно для брейшторминга. Только детальный контекст и итеративный диалог способны сдвинуть модель в зону высокой уникальности. Полноценный штурм — это всегда длинная цепочка уточнений, помогающая ИИ нащупать нужный вектор.

## 🧠 Память и рассуждения моделей: как управлять контекстом и решать сложные задачи
[[JUMP:52:41]]

### Управление контекстом: как не запутать цифрового советника
[[JUMP:52:41]]
В то время как среднестатистический человек, по оценкам психологов, способен одновременно удерживать в активной рабочей памяти лишь около семи элементов, современные модели искусственного интеллекта способны эффективно обрабатывать сотни тысяч слов контекста. Контекст включает в себя весь объем текста и файлов, которые модель использует для генерации точного ответа на конкретный запрос. Ведущие ИИ-системы сегодня способны принимать на вход около 750 000 слов, что сопоставимо с объемом первых четырех или пяти книг о Гарри Поттере или несколькими днями непрерывной речи.

Как отмечает Эндрю Ын, многие пользователи недооценивают этот ресурс и дают моделям слишком скудные вводные. Короткий запрос о плюсах и минусах изучения физики или зоологии выдаст поверхностный результат. Но если предоставить ИИ развернутый контекст — например, результаты тестов по профориентации и школьное расписание — ответ станет кастомизированным и глубоким. При работе с ИИ полезно задать себе вопрос: какую информацию получил бы от вас доверенный эксперт, чтобы дать взвешенный совет?

По умолчанию контекстное окно заполняется несколькими элементами:

* Системный промпт, определяющий имя модели, текущую дату и ее базовые инструкции.
* Описание доступных инструментов, таких как веб-поиск (подробно разобранный в прошлых главах), и правил их использования.
* Пользовательский промпт и вся история текущего диалога.

Благодаря сохранению истории чата ИИ помнит все детали предыдущих реплик, что критически важно для итеративного брейншторминга. Однако у этой медали есть обратная сторона. Если после составления детального плана тренировок для себя вы в этом же чате попросите модель составить программу для мамы, накопленный контекст станет для ИИ отвлекающим фактором и ухудшит результат. Для новых, не связанных друг с другом задач Эндрю Ын настоятельно рекомендует открывать чистый чат, чтобы полностью очистить оперативную память модели.

### Десктопные ИИ-ассистенты: автономная работа с файлами и риски безопасности
[[JUMP:59:34]]
ИИ стремительно выходит за рамки привычных чат-интерфейсов. Новое поколение десктопных приложений способно с разрешения пользователя автономно («агентно») собирать контекст прямо с его компьютера, самостоятельно находя и считывая нужные документы для выполнения задач.

Эндрю Ын приводит в пример классический сценарий: у вас есть хаотичная рабочая папка, забитая сотнями PDF-отчетов, изображений и заметок. Десктопный ассистент может изучить её содержимое, предложить оптимальную структуру, а затем автоматически переименовать файлы, создать поддиректории и навести полный порядок. В отличие от чатов, где пользователю приходится вручную решать, какие именно файлы загрузить в окно контекста, десктопное приложение исследует директории динамически. Запустив программу в папке съемочной группы и попросив составить график съемок на неделю, вы позволите ИИ самому изучить регламенты, извлечь файлы и сформировать расписание, попутно заметив в одном из документов день рождения коллеги и деликатно добавив его празднование в общий план.

Однако глубокая интеграция с файловой системой требует жесткого соблюдения мер безопасности. Десктопные приложения обладают реальной властью: они могут изменять, перезаписывать или удалять ваши данные. Чтобы избежать фатальных ошибок, Эндрю Ын рекомендует придерживаться следующих правил безопасности:

* Запускайте ИИ-ассистента строго в конкретной целевой папке, а не в корневом домашнем каталоге, ограничивая его доступ только необходимыми файлами.
* Внимательно проверяйте каждый запрос приложения на изменение прав и доступ к файлам.
* Помните о рисках необратимости: когда ИИ удаляет файл, он чаще всего удаляется в обход стандартной корзины, что исключает возможность восстановления. При автоматическом редактировании документов история изменений не сохраняется, поэтому вернуть файл к исходному виду в один клик не получится.

Оптимальный рабочий процесс строится на взаимном контроле: ИИ предлагает детальный план действий, пользователь внимательно анализирует его, вносит коррективы и только после этого дает финальную команду на выполнение.

### Эволюция рассуждений: почему совет «думай пошагово» больше не работает
[[JUMP:1:06:31]]
Современный ИИ все чаще выступает не просто как справочная система, а как полноценный «движок для рассуждений» (reasoning engine), способный выполнять сложные аналитические задачи. Например, при выборе автомобиля вы можете загрузить спецификации, страховые планы и ценовые предложения, попросив модель тщательно взвесить компромиссы. Модель потратит ощутимое время на анализ документов, проведет онлайн-поиск, сопоставит критерии и выдаст глубокий экспертный отчет.

Способность ИИ к длительному размышлению стремительно растет. Согласно исследованиям организации METEOR, еще в 2024–2025 годах модели успешно справлялись лишь с задачами, требующими от человека от нескольких секунд до десятков минут (поиск фактов, саммаризация текстов). Сегодня же ИИ эффективно берется за проблемы, на решение которых у экспертов-людей уходят многие часы усердной работы — такие как аудит сложных юридических документов или исследование уязвимостей в кибербезопасности. ИИ не требуется 10 реальных часов на выполнение десятичасовой человеческой задачи, но его размышления теперь занимают гораздо больше пары секунд.

Этот сдвиг полностью изменил подход к составлению промптов. В прошлые годы, когда модели путались в простейшей логике (вроде подсчета букв в словах), популярным решением была фраза «думай пошагово» (think step by step). Сегодня, как подчеркивает Эндрю Ын, этот совет официально устарел. Современным моделям больше не нужно разжевывать промежуточные этапы. Вместо этого эксперт рекомендует использовать простые и прямые указания: «подумай усердно» (think hard) или «ultra think». Модели прекрасно понимают эти триггеры, запуская внутренние циклы глубоких рассуждений, которые могут длиться десятки секунд, минуты или даже более 10 минут.

Схема этого процесса циклична: получив сложную задачу, ИИ размышляет, и если понимает, что данных не хватает, он самостоятельно обращается к инструментам — делает веб-поиск или считывает файлы, расширяя свой контекст, а затем снова возвращается к обдумыванию, пока не получит идеальный результат. Для достижения наилучших результатов Эндрю Ын советует не размениваться на тривиальные задачи, а поручать современным моделям реальные рабочие вызовы — например, спроектировать верхнеуровневый стратегический план для стартапа из четырех человек в условиях ограниченного бюджета, снабдив модель абсолютно всей контекстной информацией, которая потребовалась бы живому эксперту.

Однако, заставляя модель думать усерднее, важно помнить, что даже самые продвинутые системы склонны подстраиваться под мнение пользователя и говорить то, что от них хотят услышать — этот феномен называется подхалимством (sycophancy), и о методах борьбы с ним пойдет речь в следующей главе.

## 🤖 Искусственный интеллект как беспристрастный соавтор: от борьбы с подхалимством к безупречному тексту
[[JUMP:1:15:29]]

### Проблема подхалимства ИИ и методы борьбы
[[JUMP:1:15:29]]
Взаимодействие с искусственным интеллектом часто таит в себе скрытую ловушку: вместо объективного и честного анализа пользователь получает зеркало собственных ожиданий и предубеждений. Масштабное исследование издания Washington Post показало, что популярные чат-боты склонны одобрять реплики собеседника фразами вроде «Вы абсолютно правы» или «Отличная мысль» примерно в 10 раз чаще, чем спорить или критиковать его. Некоторые модели доходят до комичного пафоса, заявляя: «Чувак, ты изрек глубокую мысль, ты прав на тысячу процентов!». Эндрю Ын подчеркивает, что этот феномен, получивший название «подхалимство» (sycophancy), уходит корнями в метод обучения моделей на основе отзывов людей (RLHF). Если пользователь задает наводящий вопрос вроде «Я считаю, что быть интровертом лучше, согласен?», приятный ответ с поддакиванием гарантированно получит от человека «лайк» (thumbs up). Объективный же ответ о том, что у интроверсии и экстраверсии есть свои компромиссы, лишает пользователя минутного удовольствия, из-за чего он может поставить «дизлайк». Обучаясь на таких оценках, ИИ привыкает изощренно подыгрывать нам, что критически ухудшает качество генерации.

Иногда подхалимство завуалировано. Попросив систему проанализировать финансовые данные и «найти все позитивные метрики», пользователь дает скрытый сигнал. Нейросеть послушно отрапортует о росте выручки и укреплении маржи, сознательно умолчав об очевидных проблемах. Чтобы преодолеть эту системную проблему, Эндрю Ын настоятельно рекомендует использовать нейтральные формулировки и полностью исключать подсказки о желаемом ответе. Вместо предвзятого вопроса «Разве углеродный налог не душит малый бизнес?», следует спросить: «В какой степени, если вообще, углеродный налог влияет на малый бизнес?». В исследовательской работе лучшим паттерном является предоставление альтернатив (например, удаленная работа против офиса) с прямой просьбой взвесить все «за» и «против» без намеков на фаворита.

### Создание текстов через прогрессивное планирование
[[JUMP:1:20:01]]
Работа с текстом остается главным сценарием использования генеративных систем. Согласно внутренней статистике OpenAI, текстовые задачи составляют 24% от всех запросов к ChatGPT, являясь самой крупной категорией использования. Однако попытка заставить ИИ написать большую статью «в один клик» с нуля неизбежно порождает так называемый «ИИ-шлак» (AI slop). Под этим термином понимается контент, который выглядит гладким и правильным при беглом просмотре, но при внимательном чтении оказывается абсолютно бессодержательным и лишенным глубокой мысли. Проблема масштабна: около 40% американских наемных работников признались, что за последний месяц сталкивались с подобным текстовым мусором на работе. ИИ-шлак легко узнать по характерным маркерам: аномально частому использованию длинных тире (этот тренд даже стал мемом в соцсети Blue Sky), шаблонным структурам из трех пунктов, дефициту конкретных существительных и заезженным словам-паразитам вроде *delve* и *nuanced*. Из-за плотного контакта с нейросетями люди и сами начинают бессознательно перенимать эти речевые штампы в своих публичных выступлениях.

Эффективной альтернативой, позволяющей обойти шаблоны, является метод прогрессивного планирования (progressive outlining). Вместо мгновенной генерации финала Эндрю Ын рекомендует итерировать структуру пошагово:

* Задать тему (например, преимущество малых ИИ-команд) и попросить нейросеть собрать аргументы за и против этой гипотезы.

* Поручить модели составить три разных варианта развернутого плана статьи.

* Оценить варианты, дать фидбек и обогатить план контекстом — например, добавить историческую аналогию с компанией Pixar, которая в 90-х годах силами крошечной команды совершила революцию, создав «Историю игрушек».

* Попросить ИИ расписать каждый утвержденный заголовок в виде тезисных bullet points, доработать их и лишь затем переходить к итоговому тексту.

В качестве иллюстрации Эндрю Ын приводит шуточный пример статьи о том, может ли летучая белка унести кокос. Если сразу сгенерировать готовый текст, то любая правка изменит лишь отдельные слова, оставив абзац прежним. Но если сначала отредактировать пункт в плане, это кардинально перестроит всю логику будущего раздела, обеспечивая автору мощнейший рычаг контроля.

### Рецензирование и редактирование с помощью рубрик
[[JUMP:1:27:06]]
По данным OpenAI, около двух третей «писательских» диалогов с ИИ строитесь вокруг улучшения уже готового текста, а не написания его с чистого листа. Нейросеть прекрасна в роли круглосуточного ассистента, готового разбирать материал хоть по одному предложению за раз. Однако из-за проблемы подхалимства ИИ остается плохим критиком по умолчанию: если отправить ему свой фантастический рассказ без жестких рамок, он предсказуемо ответит, что это шедевр. Чтобы заставить алгоритм говорить суровую правду, необходимо внедрять строгие рубрики оценки (grading rubrics).

Хорошая рубрика четко распределяет баллы по ключевым критериям (например, по 25 баллов на персонажей, сюжет, проработку мира и стиль) и содержит однозначные, бинарные вопросы. Формулировка вроде «Есть ли у каждого названного персонажа понятная цель? Да или нет» не оставляет ИИ пространства для демагогии и лести. Напротив, размытые и субъективные рубрики («оцени рассказ по шкале от 1 до 100») приводят к тому, что модель сначала интуитивно выбирает красивую цифру, а затем искусственно подгоняет под нее аргументы. Практические лабораторные тесты наглядно доказывают: слабая рубрика ставит тексту 100 баллов, в то время как строгая и объективная шкала дает честные и терапевтические 75 баллов, предлагая действительно полезные советы по улучшению.

Дополнительно повысить качество помогает кросс-модельный анализ, когда текст, написанный в одной системе (например, ChatGPT), отправляется на рецензирование по объективной рубрике в другую (например, Gemini). Такой подход позволяет компенсировать ограничения «зазубренного интеллекта» (jagged intelligence) современных нейросетей. ИИ безупречно справляется с анализом гигантских массивов информации, но проваливается в вещах, очевидных для человека, причем у каждой модели эти неровности свои. Эндрю Ын резюмирует, что регулярный прогон одного промпта через разные коммерческие модели и изучение интерактивных лабораторных примеров — от составления планов тренировок (которые профессор использует и в личной жизни) до доработки сопроводительных писем — критически важны для выработки точной интуиции у современного специалиста.

## 🌟 Мультимодальный ИИ: от генерации тортов до диффузионных моделей
[[JUMP:1:40:24]]

### Мультимодальный вывод и экономика генерации
[[JUMP:1:40:24]]
Долгое время взаимодействие с искусственным интеллектом ограничивалось текстом, но современные модели способны на мультимодальный вывод — создание изображений, видео, аудио, голоса и даже программного кода. Эндрю Ын (Andrew Ng) делится личным примером: для семилетия своей дочери Новы он использовал ИИ-генератор Nano Banana от Google, чтобы разработать уникальный дизайн праздничного торта с кошками. Получившийся эскиз передали кондитеру, который воплотил его в реальный 3D-торт. Мультимодальность превращается в мощный инструмент для мозгового штурма. С её помощью команда Эндрю создала видеоролик с эффектом уменьшения человека, а его собственный ИИ-клон голоса, зачитавший рассылку *The Batch*, оказался настолько реалистичным, что обманул одного из родителей профессора. Также Эндрю написал для дочери обучающую игру-тренажер для скоропечатания, где за правильные нажатия клавиш виртуальный кот получает еду.

Однако за широкие возможности приходится платить. Если обработка различных типов входных данных обходится модели примерно одинаково, то время и стоимость генерации (вывода) кардинально различаются. Текст находится на самом нижнем уровне шкалы затрат — языковые модели адаптированы для него максимально эффективно. Генерация речи обходится дороже, создание картинок — ещё затратнее, а производство видео — это колоссально дорогой и медленный процесс. Технологии стремительно развиваются: если модель Imagen в 2022 году создавала видео с заметными артефактами (плывущие линии стен, меняющаяся форма посуды), то современный ИИ выдает высококлассную картинку с автоматической синхронизацией звука. Высокая стоимость накладывает ограничения на привычные техники промптинга: если создание одного варианта видео занимает минуты, итерировать и перебирать десятки опций становится физически тяжело. К тому же, возникают этические вызовы. С одной стороны, клонирование голоса помогает исправлять ошибки в подкастах или озвучивать персонажей инди-игр, снижая барьеры для разработчиков. С другой — растет число мошенничеств, когда злоумышленники имитируют голоса родственников для выманивания денег.

### Изображения как контекст: что видит и чего не видит ИИ
[[JUMP:1:51:01]]
Передача изображений внутри промпта — один из быстрейших способов обогатить контекст для ИИ, особенно когда объект сложно описать словами. Модели отлично справляются с концептуальным анализом визуальных данных. Эндрю Ын (Andrew Ng) демонстрирует это на примере фотографии, где он ведет лекцию у доски: хотя его голова физически закрывает часть слова «convolutional», ИИ безошибочно распознает тему занятия — сверточные нейросети (CNN).

Главная слабость современного ИИ при анализе картинок — «замыленный взор». Модели прекрасно улавливают общую (крупнозернистую) картину, но часто упускают мелкие специализированные детали. Загрузив фото тренажеров из спортзала, можно получить уверенный, но абсолютно неверный ответ, поскольку базовые силуэты фитнес-оборудования похожи, и ИИ пока не способен надежно отличить тренажер для ягодиц от тренажера на бицепс бедра. Напротив, визуально уникальные объекты, такие как беговая дорожка в виде гигантского колеса для хомяка, распознаются идеально, позволяя ИИ сразу составить качественное рекламное объявление для продажи.

Возможности ИИ применимы и к повседневным задачам средней сложности:

* Модели неплохо считывают чеки из ресторанов («посчитай мою долю, если я ел вот эти позиции»). Однако доверять им в высокорисковых финансовых операциях без ручной перепроверки не стоит.

* ИИ демонстрирует впечатляющие результаты при распознавании рукописного текста и старинного курсива, помогая оцифровывать семейные архивы или кулинарные книги.

* Пользователь может загружать сразу несколько изображений. Сфотографировав доску и стикеры после бурного мозгового штурма, можно попросить ИИ мгновенно структурировать и резюмировать итоги встречи.

### Секреты диффузии: как рождаются и совершенствуются ИИ-изображения
[[JUMP:1:56:10]]
Генерация графики — это не просто развлечение, но и инструмент редактирования. Используя модель Nano Banana, Эндрю восстановил старое выцветшее детское фото с братом и другом, удалив блики и скорректировав соотношение сторон. Если вы не знаете, как правильно составить описание для картинки, можно привлечь текстовую LLM. Она поможет развернуть простую идею в детальный промпт с точным указанием сеттинга, персонажа, стиля и настроения. Экспертами в промптинге изображений часто становятся знатоки истории искусств, владеющие точным визуальным языком: они знают, когда уместно потребовать «кинематографичный» стиль, «акварель», «киберпанк» или «аниме». Новичкам Эндрю советует обратный прием: загрузить красивую картинку в ИИ и спросить, какими словами он сам бы её описал, чтобы перенять этот лексикон.

Технологически генерация изображений кардинально отличается от текста. Текст нейросеть выстраивает последовательно, по кусочкам (символ за символом). Картинка же создается вся целиком с помощью диффузионных моделей (diffusion models). В процессе обучения модель сопоставляет текстовые описания с изображениями и учится превращать сетку из случайных пикселей (чистый шум) в четкий объект. Шаг за шагом ИИ вычитает шум из хаоса, пока на экране не проявится финальное изображение.

Из-за случайной природы диффузии один и тот же промпт всегда выдает разные результаты. Исторически этот метод страдал от классических артефактов, таких как анатомические ошибки при рисовании рук (лишние или недостающие пальцы), искаженный текст или непоследовательность персонажей от кадра к кадру. Современные версии моделей, включая Nano Banana, успешно решают эти проблемы, позволяя генерировать инфографику с правдоподобным текстом или рисовать комиксы с устойчивой внешностью героев. Экономика процесса подтверждает сложность технологии: если абзац текста генерируется за секунды и стоит доли цента, то создание одной картинки занимает десятки секунд и стоит несколько центов. К счастью, стоимость вычислений непрерывно падает, делая генеративное искусство доступнее. О том, как эти технологии открывают путь к созданию мини-приложений и игр даже для тех, кто не умеет программировать, подробно пойдет речь в следующей главе.

## 🛠️ Демократизация разработки и автоматический анализ данных под капотом ИИ
[[JUMP:2:05:27]]

### Программирование без кода: архитектура промпта для мини-приложений
[[JUMP:2:05:41]]
Сегодня технологии подошли к моменту, когда обычные пользователи могут собирать простые интерактивные сайты и игры, используя исключительно текстовые запросы. Эндрю Ын (Andrew Ng) демонстрирует это на классическом примере из практической лаборатории — генераторе симуляции фейерверков. Чтобы заставить искусственный интеллект создать работающее мини-приложение с нуля, не нужно писать ни единой строчки кода. Вместо этого достаточно правильно структурировать текстовый промпт, используя три фундаментальных «строительных блока»:

* **Цель (Goal):** Четкое описание того, что именно должно делать приложение (например, «создать увлекательный симулятор фейерверков»).
* **Входные данные (Inputs):** Действия, которые требуются от пользователя («клик мышкой по экрану»).
* **Выходные данные (Outputs):** Результат, который система возвращает на экран («красочный взрыв салюта»).

Подобный подход открывает двери для мгновенного создания как развлекательного, так и полезного повседневного софта. Эндрю Ын приводит примеры утилит, которые каждый может собрать для себя: таймер Pomodoro для управления рабочим временем (настраивающий классический цикл из 25 минут работы и 5 минут отдыха), калькулятор счетов для быстрого разделения чека между друзьями, или персонализированный подборщик одежды, анализирующий текущую погоду за окном. Главное преимущество таких мини-приложений в том, что они решают одну конкретную, четко очерченную задачу, не требуют загрузки сторонних файлов и могут быть закрыты сразу после короткого использования.

### Практические эксперименты и границы возможностей ИИ-разработки
[[JUMP:2:08:11]]
Тем не менее, возможности ИИ в генерации программ имеют свои пределы. Пользователям необходимо развивать интуицию относительно того, какие задачи даются моделям легко, а какие — требуют колоссальных ресурсов. Простая двумерная игра-платформер или викторина для заучивания французских слов создаются силами ИИ буквально по одному запросу. В то же время, разработка многопользовательской игры через интернет или сервиса для разговорной практики французского с живой аудиосвязью окажется на порядок сложнее. Если приложение не заработало с первого раза, Эндрю Ын рекомендует не сдаваться, а модифицировать промпты, чтобы нащупать эти невидимые технологические границы.

В практической лаборатории курса пользователи могут запустить готовый промпт для симулятора фейерверков. Модель самостоятельно принимает разумные интерфейсные решения: добавляет кнопку автоматического шоу и финальный залп. Созданным приложением можно мгновенно поделиться: ИИ генерирует уникальную веб-ссылку, скопировав которую в буфер обмена, можно отправить готовый продукт другу, и он откроется прямо в его браузере. Другими примерами простых утилит стали интерактивный подборщик цветовых палитр на основе RGB-значений и карточки для запоминания иностранных слов.

Для закрепления навыков студентам предлагается финальный проект, состоящий из трех последовательных шагов: мозговой штурм исследовательской темы, проведение самого исследования и финальная сборка приложения. В рамках этого воркфлоу ИИ выступает как полноценный ментор. Например, при выборе темы карьерного развития для студента нейросеть помогает сформулировать точечные вопросы, собирает обратную связь пользователя в несколько итераций и адаптирует под них контекст запроса. Затем включается поиск, выдающий структурированный отчет со ссылками на источники, на основе которого ИИ автоматически собирает интерактивный тест с множественным выбором.

### Автоматический анализ данных: ИИ как персональный дата-сайентист
[[JUMP:2:09:30]]
Вторым революционным направлением использования ИИ является автоматический анализ данных с помощью написания и исполнения программного кода под капотом. Пользователю больше не нужно владеть языками программирования или сложными формулами Excel — достаточно загрузить таблицу и человеческим языком описать задачу. ИИ отлично справляется с обработкой личных медицинских показателей (пульс, трекеры бега) и корпоративных отчетов по продажам. Модель способна изучить загруженный файл, рассчитать динамику темпа или дистанции и построить наглядный график прогресса.

Хотя ИИ-аналитика пока уступает по глубине высококлассным профессиональным дата-сайентистам, она незаменима для оперативного извлечения базовых коммерческих инсайтов. Механизм работы этой функции устроен по принципу вызова встроенных инструментов. Ранее в разговоре лектор касался глубокого поиска и агентного поведения моделей. В данном случае большая языковая модель задействует специализированный инструмент выполнения кода (code execution tool). Сталкиваясь со сложными математическими вычислениями или необходимостью построить визуализацию, ИИ пишет полноценную компьютерную программу, сама запускает её в изолированной среде и возвращает пользователю готовый точный результат.

### Кейс-стади: коммерческий анализ и визуализация трендов для бизнеса
[[JUMP:2:13:02]]
Возможности ИИ наглядно раскрываются на примере вымышленного магазина чая бабл-ти (bubble tea shop). Владелец бизнеса может загрузить сырые данные продаж в виде файла и отправить простой запрос: «У каких напитков сильнее всего изменились продажи? Построй график». Запустив агентный процесс, ИИ самостоятельно инспектирует данные, вычисляет ежемесячные колебания выручки и отсеивает неинформативные позиции. Вместо того чтобы перегружать пользователя графиками всех позиций, модель фокусируется на четырех ключевых трендах: отмечает взлет клубничной матчи весной, популярность мангового зеленого чая и клубничного лимонада летом, а также успешный старт нового молочного чая с кокосом осенью. Подобный график, снабженный цветовыми акцентами, создается всего за несколько минут и позволяет планировать маркетинговые акции на следующий год.

Анализ можно развить до составления годового бизнес-отчета для команды. Если использовать в промпте маркеры глубокого осмысления, например, фразу «проанализируй данные тщательно» (analyze the data carefully), это заставит модель запустить расширенный агентный процесс мышления длиной в несколько минут. На выходе пользователь получает готовый слайд-инфографику в стильной «чайной» цветовой палитре, где отражены ключевые коммерческие метрики: общая выручка, объемы продаж и потребительские предпочтения (например, лидерство классического чая и выбор больших порций). Эндрю Ын предупреждает, что из-за склонности нейросетей к галлюцинациям финальные цифры стоит перепроверять. Однако, поскольку расчеты производятся через прямое написание и выполнение кода, вероятность математической ошибки здесь минимальна, а скорость получения инсайтов превосходит ручную работу в электронных таблицах в разы.