Прощание с токенами: почему Андре Карпати считает Deepseek OCR прорывом

Wes Roth 84,6 тыс. 26 мин 4 мин 23.10.2025
Главное

Deepseek снова в центре внимания: компания представила технологию OCR (оптическое распознавание символов), которая может радикально изменить архитектуру больших языковых моделей. Автор канала Wes Roth разбирает, почему сжатие текста в изображения — это не просто технический трюк, а потенциальный «убийца» традиционных токенизаторов, и как это связано с успехами Google в медицине и скандалами в области безопасности ИИ.

🖼️ Революция Deepseek OCR: текст больше не нужен? 0:00

Deepseek представила новую модель Deepseek OCR, которая, по мнению Уэса Рота, может стать еще одним переломным моментом для индустрии ИИ . Вместо того чтобы скармливать модели огромные массивы текстовых токенов, технология позволяет превращать текст в изображения и работать с ними через визуальные языковые модели (VLM).

Основные преимущества такого подхода:

По словам Рота, успехи Deepseek часто продиктованы необходимостью: из-за ограничений США на экспорт чипов Nvidia в Китай местные лаборатории вынуждены искать способы достижения тех же результатов с меньшими вычислительными мощностями . В данном случае визуальная модальность используется как эффективная среда сжатия.

🚗 Андре Карпати: «Токенизаторы должны уйти» 13:37

Бывший директор по ИИ в Tesla и сооснователь OpenAI Андре Карпати (Andrej Karpathy) высоко оценил работу Deepseek . Он признался, что, будучи специалистом по компьютерному зрению, лишь «временно маскируется» под эксперта в области естественного языка, и выдвинул радикальную гипотезу: пиксели — лучший входной сигнал для моделей, чем текст.

Аргументы Карпати против современных токенизаторов:

  1. Исторический багаж: токенизаторы наследуют все сложности кодировок Unicode .
  2. Риски безопасности: существуют методы взлома через «невидимые» инструкции в тексте, которые человек не видит, но токенизатор считывает как команду .
  3. Потеря смысла: для модели эмодзи — это просто странный абстрактный токен, а не изображение лица. Если подавать их как пиксели, модель сможет лучше обобщать информацию .
  4. Проблема «Strawberry»: Карпати объясняет, что LLM не могут посчитать буквы «r» в слове strawberry, потому что они не видят само слово, а видят лишь набор безликих токенов .

Ведущий также в шутку отмечает, что сама судьба велит Карпати заниматься зрением и машинами, указывая на его фамилию (Karpathy созвучно с «Car» — машина) . Илон Маск поддержал дискуссию в X, заявив, что в долгосрочной перспективе 99% ввода и вывода ИИ-моделей будут составлять «фотоны», так как это единственная масштабируемая форма передачи информации .

🧬 Прорыв Google: квантовые вычисления и лекарство от рака 4:12

Пока Deepseek работает над эффективностью, Google сообщает о фундаментальных научных достижениях. Квантовый компьютер компании смог запустить алгоритм в 13 000 раз быстрее, чем самые мощные классические суперкомпьютеры .

Параллельно с этим, открытая модель Google Gemma (версия 27B) помогла обнаружить новый путь в иммунотерапии рака . Основная проблема лечения заключается в том, что многие опухоли являются «холодными» — они невидимы для иммунной системы. Задача состоит в том, чтобы сделать их «горячими», заставив подавать сигналы, распознаваемые организмом.

Ключевые факты исследования Google:

Рот подчеркивает, что это «эмерджентное свойство масштаба»: маленькие модели не могли справиться с этой задачей, но при достижении определенного размера у системы появилась способность к сложному обусловленному рассуждению . Это подтверждает ставку бигтехов на дальнейшее увеличение мощностей дата-центров.

⚠️ Кризис доверия: галлюцинации в работах по безопасности ИИ 8:50

В сообществе исследователей ИИ разразился скандал вокруг статьи «Определение AGI». Группа известных экспертов по безопасности, включая Дэна Хендрикса, Макса Тегмарка и Йошуа Бенжио, опубликовала манифест, в котором обнаружились несуществующие ссылки на литературу .

Как сообщает Уэс Рот, цитируемые в работе книги и статьи просто не существуют. Автор статьи Дэн Хендрикс оправдался тем, что при конвертации документа Google Docs в формат BibTeX произошла ошибка . Однако критики, такие как Доминик Романо, считают это недопустимым: «Как центр безопасности ИИ мог не проверить вывод модели перед публикацией?» . Это ставит под сомнение авторитет тех, кто пытается диктовать правила безопасности всей индустрии.

🛡️ Уязвимости и рынки: от отравления данных до ставок на Gemini 3.0 11:56

Исследователи из Anthropic обнаружили тревожную закономерность: большие языковые модели крайне легко «отравить» . Выяснилось, что внедрение всего 250 вредоносных документов в обучающую выборку позволяет злоумышленникам создать «бэкдор» в модели любого размера. После этого ИИ начинает выдавать бессвязный текст (тарабарщину), как только встречает определенную триггерную фразу .

Тем временем на рынке происходят следующие события:

В завершение Рот отмечает, что Deepseek и китайские модели (например, Qwen) сейчас лидируют в экспериментах по торговле криптовалютой на Alpha Arena, обходя даже Grock от Илона Маска .

💬 Цитаты

«Токенизаторы уродливы... вся сложность кодировок Unicode переходит по наследству, принося исторический багаж и риски безопасности.»

Андре Карпати 18:29

«В долгосрочной перспективе более 99% ввода и вывода для ИИ-моделей будут составлять фотоны. Ничто другое не масштабируется.»

Илон Маск 21:22

«Необходимость — мать изобретения. Крупнейшие прорывы Deepseek — это способы достичь того же с гораздо меньшими ресурсами.»

👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
OCR
Технология оптического распознавания символов, преобразующая изображения текста в машиночитаемые данные.
Токенизатор
Алгоритм, который разбивает текст на мелкие фрагменты (токены) для обработки нейросетью.
Эмерджентные способности
Новые навыки ИИ, которые внезапно появляются только при достижении моделью определенного масштаба.
VLM
Визуально-языковая модель, способная понимать одновременно и текст, и изображения.
📊 Цифры
🗓 Хронология
  1. Октябрь 2024 OpenAI выпускает поисковый функционал/браузер.
  2. Декабрь 2024 Ожидаемый релиз Google Gemini 3.0.
  3. Июль 2024 Андре Карпати объясняет проблему слова 'strawberry' и токенизации.
⚖️ Другая сторона
Искусственный интеллект Deepseek OCR Andrej Karpathy Google Gemma Anthropic квантовые вычисления