Прощание с токенами: почему Андре Карпати считает Deepseek OCR прорывом

Deepseek снова в центре внимания: компания представила технологию OCR (оптическое распознавание символов), которая может радикально изменить архитектуру больших языковых моделей. Автор канала Wes Roth разбирает, почему сжатие текста в изображения — это не просто технический трюк, а потенциальный «убийца» традиционных токенизаторов, и как это связано с успехами Google в медицине и скандалами в области безопасности ИИ.

🖼️ Революция Deepseek OCR: текст больше не нужен? 0:00

Deepseek представила новую модель Deepseek OCR, которая, по мнению Уэса Рота, может стать еще одним переломным моментом для индустрии ИИ . Вместо того чтобы скармливать модели огромные массивы текстовых токенов, технология позволяет превращать текст в изображения и работать с ними через визуальные языковые модели (VLM).

Основные преимущества такого подхода:

Экстремальное сжатие: Deepseek OCR способна сжимать визуальный контекст в 10–20 раз, сохраняя при этом точность распознавания на уровне 97% .
Решение проблемы памяти: одной из главных проблем современных агентов на базе LLM является ограниченное «окно контекста». При перегрузке данными модели начинают «забывать» детали, что критично для больших кодовых баз .
Скорость и стоимость обучения: сжатие данных позволяет обучать модели быстрее и дешевле. Рот напоминает, что Deepseek уже вызывала обвал акций Nvidia, доказав, что мощные модели можно тренировать с гораздо меньшими затратами ресурсов .

По словам Рота, успехи Deepseek часто продиктованы необходимостью: из-за ограничений США на экспорт чипов Nvidia в Китай местные лаборатории вынуждены искать способы достижения тех же результатов с меньшими вычислительными мощностями . В данном случае визуальная модальность используется как эффективная среда сжатия.

🚗 Андре Карпати: «Токенизаторы должны уйти» 13:37

Бывший директор по ИИ в Tesla и сооснователь OpenAI Андре Карпати (Andrej Karpathy) высоко оценил работу Deepseek . Он признался, что, будучи специалистом по компьютерному зрению, лишь «временно маскируется» под эксперта в области естественного языка, и выдвинул радикальную гипотезу: пиксели — лучший входной сигнал для моделей, чем текст.

Аргументы Карпати против современных токенизаторов:

Исторический багаж: токенизаторы наследуют все сложности кодировок Unicode .
Риски безопасности: существуют методы взлома через «невидимые» инструкции в тексте, которые человек не видит, но токенизатор считывает как команду .
Потеря смысла: для модели эмодзи — это просто странный абстрактный токен, а не изображение лица. Если подавать их как пиксели, модель сможет лучше обобщать информацию .
Проблема «Strawberry»: Карпати объясняет, что LLM не могут посчитать буквы «r» в слове strawberry, потому что они не видят само слово, а видят лишь набор безликих токенов .

Ведущий также в шутку отмечает, что сама судьба велит Карпати заниматься зрением и машинами, указывая на его фамилию (Karpathy созвучно с «Car» — машина) . Илон Маск поддержал дискуссию в X, заявив, что в долгосрочной перспективе 99% ввода и вывода ИИ-моделей будут составлять «фотоны», так как это единственная масштабируемая форма передачи информации .

🧬 Прорыв Google: квантовые вычисления и лекарство от рака 4:12

Пока Deepseek работает над эффективностью, Google сообщает о фундаментальных научных достижениях. Квантовый компьютер компании смог запустить алгоритм в 13 000 раз быстрее, чем самые мощные классические суперкомпьютеры .

Параллельно с этим, открытая модель Google Gemma (версия 27B) помогла обнаружить новый путь в иммунотерапии рака . Основная проблема лечения заключается в том, что многие опухоли являются «холодными» — они невидимы для иммунной системы. Задача состоит в том, чтобы сделать их «горячими», заставив подавать сигналы, распознаваемые организмом.

Ключевые факты исследования Google:

Модель симулировала воздействие более 40 000 лекарств .
ИИ обнаружил кандидатов, о связи которых с лечением рака ученые ранее не подозревали .
В лабораторных тестах комбинация предложенного препарата и интерферона привела к 50%-ному росту презентации антигенов .

Рот подчеркивает, что это «эмерджентное свойство масштаба»: маленькие модели не могли справиться с этой задачей, но при достижении определенного размера у системы появилась способность к сложному обусловленному рассуждению . Это подтверждает ставку бигтехов на дальнейшее увеличение мощностей дата-центров.

⚠️ Кризис доверия: галлюцинации в работах по безопасности ИИ 8:50

В сообществе исследователей ИИ разразился скандал вокруг статьи «Определение AGI». Группа известных экспертов по безопасности, включая Дэна Хендрикса, Макса Тегмарка и Йошуа Бенжио, опубликовала манифест, в котором обнаружились несуществующие ссылки на литературу .

Как сообщает Уэс Рот, цитируемые в работе книги и статьи просто не существуют. Автор статьи Дэн Хендрикс оправдался тем, что при конвертации документа Google Docs в формат BibTeX произошла ошибка . Однако критики, такие как Доминик Романо, считают это недопустимым: «Как центр безопасности ИИ мог не проверить вывод модели перед публикацией?» . Это ставит под сомнение авторитет тех, кто пытается диктовать правила безопасности всей индустрии.

🛡️ Уязвимости и рынки: от отравления данных до ставок на Gemini 3.0 11:56

Исследователи из Anthropic обнаружили тревожную закономерность: большие языковые модели крайне легко «отравить» . Выяснилось, что внедрение всего 250 вредоносных документов в обучающую выборку позволяет злоумышленникам создать «бэкдор» в модели любого размера. После этого ИИ начинает выдавать бессвязный текст (тарабарщину), как только встречает определенную триггерную фразу .

Тем временем на рынке происходят следующие события:

LMSYS Arena: появились две загадочные модели — lithium-flow и orion-mist, которые многие считают прототипами Gemini 3.0 . Ожидается, что релиз новой версии от Google состоится в декабре.
Polymarket: пользователи активно зарабатывают на предсказаниях действий OpenAI. Один из участников рынка заработал почти 14 000 долларов, сделав ставку на то, что OpenAI выпустит свой браузер (поиск) до конца октября .

В завершение Рот отмечает, что Deepseek и китайские модели (например, Qwen) сейчас лидируют в экспериментах по торговле криптовалютой на Alpha Arena, обходя даже Grock от Илона Маска .