# Прощание с токенами: почему Андре Карпати считает Deepseek OCR прорывом

Источник: https://www.youtube.com/watch?v=4D-AsJ5UhF4
Канал: Wes Roth
Опубликовано: 23.10.2025

---

Deepseek снова в центре внимания: компания представила технологию OCR (оптическое распознавание символов), которая может радикально изменить архитектуру больших языковых моделей. Автор канала Wes Roth разбирает, почему сжатие текста в изображения — это не просто технический трюк, а потенциальный «убийца» традиционных токенизаторов, и как это связано с успехами Google в медицине и скандалами в области безопасности ИИ.

## 🖼️ Революция Deepseek OCR: текст больше не нужен?
[[JUMP:0:00]]

Deepseek представила новую модель Deepseek OCR, которая, по мнению Уэса Рота, может стать еще одним переломным моментом для индустрии ИИ [0:12]. Вместо того чтобы скармливать модели огромные массивы текстовых токенов, технология позволяет превращать текст в изображения и работать с ними через визуальные языковые модели (VLM).

Основные преимущества такого подхода:

*   **Экстремальное сжатие:** Deepseek OCR способна сжимать визуальный контекст в 10–20 раз, сохраняя при этом точность распознавания на уровне 97% [0:53].
*   **Решение проблемы памяти:** одной из главных проблем современных агентов на базе LLM является ограниченное «окно контекста». При перегрузке данными модели начинают «забывать» детали, что критично для больших кодовых баз [2:11].
*   **Скорость и стоимость обучения:** сжатие данных позволяет обучать модели быстрее и дешевле. Рот напоминает, что Deepseek уже вызывала обвал акций Nvidia, доказав, что мощные модели можно тренировать с гораздо меньшими затратами ресурсов [3:04].

По словам Рота, успехи Deepseek часто продиктованы необходимостью: из-за ограничений США на экспорт чипов Nvidia в Китай местные лаборатории вынуждены искать способы достижения тех же результатов с меньшими вычислительными мощностями [2:51]. В данном случае визуальная модальность используется как эффективная среда сжатия.

## 🚗 Андре Карпати: «Токенизаторы должны уйти»
[[JUMP:13:37]]

Бывший директор по ИИ в Tesla и сооснователь OpenAI Андре Карпати (Andrej Karpathy) высоко оценил работу Deepseek [13:50]. Он признался, что, будучи специалистом по компьютерному зрению, лишь «временно маскируется» под эксперта в области естественного языка, и выдвинул радикальную гипотезу: пиксели — лучший входной сигнал для моделей, чем текст.

Аргументы Карпати против современных токенизаторов:

1.  **Исторический багаж:** токенизаторы наследуют все сложности кодировок Unicode [18:44].
2.  **Риски безопасности:** существуют методы взлома через «невидимые» инструкции в тексте, которые человек не видит, но токенизатор считывает как команду [19:38].
3.  **Потеря смысла:** для модели эмодзи — это просто странный абстрактный токен, а не изображение лица. Если подавать их как пиксели, модель сможет лучше обобщать информацию [18:56].
4.  **Проблема «Strawberry»:** Карпати объясняет, что LLM не могут посчитать буквы «r» в слове *strawberry*, потому что они не видят само слово, а видят лишь набор безликих токенов [25:49].

Ведущий также в шутку отмечает, что сама судьба велит Карпати заниматься зрением и машинами, указывая на его фамилию (Karpathy созвучно с «Car» — машина) [14:43]. Илон Маск поддержал дискуссию в X, заявив, что в долгосрочной перспективе 99% ввода и вывода ИИ-моделей будут составлять «фотоны», так как это единственная масштабируемая форма передачи информации [21:22].

## 🧬 Прорыв Google: квантовые вычисления и лекарство от рака
[[JUMP:4:12]]

Пока Deepseek работает над эффективностью, Google сообщает о фундаментальных научных достижениях. Квантовый компьютер компании смог запустить алгоритм в 13 000 раз быстрее, чем самые мощные классические суперкомпьютеры [4:25].

Параллельно с этим, открытая модель Google Gemma (версия 27B) помогла обнаружить новый путь в иммунотерапии рака [5:04]. Основная проблема лечения заключается в том, что многие опухоли являются «холодными» — они невидимы для иммунной системы. Задача состоит в том, чтобы сделать их «горячими», заставив подавать сигналы, распознаваемые организмом.

Ключевые факты исследования Google:

*   Модель симулировала воздействие более 40 000 лекарств [6:50].
*   ИИ обнаружил кандидатов, о связи которых с лечением рака ученые ранее не подозревали [7:04].
*   В лабораторных тестах комбинация предложенного препарата и интерферона привела к 50%-ному росту презентации антигенов [7:44].

Рот подчеркивает, что это «эмерджентное свойство масштаба»: маленькие модели не могли справиться с этой задачей, но при достижении определенного размера у системы появилась способность к сложному обусловленному рассуждению [6:10]. Это подтверждает ставку бигтехов на дальнейшее увеличение мощностей дата-центров.

## ⚠️ Кризис доверия: галлюцинации в работах по безопасности ИИ
[[JUMP:8:50]]

В сообществе исследователей ИИ разразился скандал вокруг статьи «Определение AGI». Группа известных экспертов по безопасности, включая Дэна Хендрикса, Макса Тегмарка и Йошуа Бенжио, опубликовала манифест, в котором обнаружились несуществующие ссылки на литературу [9:02].

Как сообщает Уэс Рот, цитируемые в работе книги и статьи просто не существуют. Автор статьи Дэн Хендрикс оправдался тем, что при конвертации документа Google Docs в формат BibTeX произошла ошибка [9:43]. Однако критики, такие как Доминик Романо, считают это недопустимым: «Как центр безопасности ИИ мог не проверить вывод модели перед публикацией?» [10:10]. Это ставит под сомнение авторитет тех, кто пытается диктовать правила безопасности всей индустрии.

## 🛡️ Уязвимости и рынки: от отравления данных до ставок на Gemini 3.0
[[JUMP:11:56]]

Исследователи из Anthropic обнаружили тревожную закономерность: большие языковые модели крайне легко «отравить» [11:56]. Выяснилось, что внедрение всего 250 вредоносных документов в обучающую выборку позволяет злоумышленникам создать «бэкдор» в модели любого размера. После этого ИИ начинает выдавать бессвязный текст (тарабарщину), как только встречает определенную триггерную фразу [12:33].

Тем временем на рынке происходят следующие события:

*   **LMSYS Arena:** появились две загадочные модели — *lithium-flow* и *orion-mist*, которые многие считают прототипами Gemini 3.0 [10:36]. Ожидается, что релиз новой версии от Google состоится в декабре.
*   **Polymarket:** пользователи активно зарабатывают на предсказаниях действий OpenAI. Один из участников рынка заработал почти 14 000 долларов, сделав ставку на то, что OpenAI выпустит свой браузер (поиск) до конца октября [11:17].

В завершение Рот отмечает, что Deepseek и китайские модели (например, Qwen) сейчас лидируют в экспериментах по торговле криптовалютой на Alpha Arena, обходя даже Grock от Илона Маска [13:12].