31 подписчик

DeepSeek-OCR: «визуальный токен как контейнер смысла». Как 100 токенов вытесняют 7000 и что это меняет для длинного контекста ИИ

21 октября 202521 окт 2025

5 мин

Ключевая идея: оптическая компрессия контекста DeepSeek представила открытый проект DeepSeek-OCR — эксперимент на границе между зрением и языком, где изображение используется как «носитель» сжатого текста. Модель демонстрирует, что из очень малого числа визуальных токенов можно декодировать в 10 и более раз больше текстовых токенов. Иначе говоря: одна страница документа, представленная в виде картинки, способна «стоить» на порядок меньше токенов, чем её же текст в чистом виде — при сопоставимой точности восстановления. Это подводит к принципу «context optical compression» — оптической компрессии контекста для LLM/VLM: Практический эффект — путь к решению главной боли больших языковых моделей: дорогого и ограниченного по длине контекста. Результаты: меньше токенов — больше информации Модель уверенно понимает диаграммы, химические уравнения, простую геометрию и естественные изображения, а в документах — до ~100 языков, что важно для глобальных корпоративных фондов. Репозитории: Архитекту

Ключевая идея: оптическая компрессия контекста

DeepSeek представила открытый проект DeepSeek-OCR — эксперимент на границе между зрением и языком, где изображение используется как «носитель» сжатого текста. Модель демонстрирует, что из очень малого числа визуальных токенов можно декодировать в 10 и более раз больше текстовых токенов.

Иначе говоря: одна страница документа, представленная в виде картинки, способна «стоить» на порядок меньше токенов, чем её же текст в чистом виде — при сопоставимой точности восстановления.

Это подводит к принципу «context optical compression» — оптической компрессии контекста для LLM/VLM:

Вход: изображение документа (или фрагмента),
Кодирование: компактное множество визуальных токенов,
Выход: развернутый текст (и структура) с высокой точностью.

Практический эффект — путь к решению главной боли больших языковых моделей: дорогого и ограниченного по длине контекста.

Результаты: меньше токенов — больше информации

На бенчмарке OmniDocBench DeepSeek‑OCR превосходит GOT‑OCR 2.0, используя всего 100 визуальных токенов против 256 у конкурента; с <800 токенов опережает MinerU 2.0, которому требуется ~6000–7000 токенов на страницу.
На наборе Fox при коэффициенте компрессии до 10× точность декодирования достигает ≈97% (выше в сценариях с упрощённой версткой). При ~20× точность держится порядка 60% — что для экстремального сжатия всё ещё полезно в ряде задач извлечения.
Экономика вычислений: один узел с A100‑40G способен генерировать >200 тыс. страниц данных в день; кластер 20 узлов (8×A100‑40G каждый) — до 33 млн страниц/день для предобучения LLM/VLM. Это превращает DeepSeek‑OCR в машину фабричного масштаба по созданию обучающих корпусов.

Модель уверенно понимает диаграммы, химические уравнения, простую геометрию и естественные изображения, а в документах — до ~100 языков, что важно для глобальных корпоративных фондов.

Репозитории:

GitHub: deepseek-ai/DeepSeek-OCR
Модель на HF: deepseek-ai/DeepSeek-OCR

Архитектура: DeepEncoder + DeepSeek‑3B‑MoE

Модель — это единый VLM «эндо‑ту‑энд»: визуальный энкодер и языковой декодер работают вместе.

Энкодер DeepEncoder (~380M параметров):
Связка SAM‑base (~80M, window attention) для локальных зрительных признаков и CLIP‑large (~300M, dense global attention) для глобальной семантики.
Между ними — 2‑слойный свёрточный модуль для 16× даунсэмплинга визуальных токенов.
Поток: из входной сетки патчей (например, 1024×1024 → 4096 патч‑токенов) компрессия до ~256 токенов перед глобальным вниманием — это держит активации и память под контролем.
Мульти‑разрешение и «динамическая интерполяция позиционных кодов» позволяют варьировать количество визуальных токенов под сложность и размер исходного документа.
Специальные режимы, включая «Gundam» (локально‑глобальный взгляд и тайлинг), дают формулу n×100+256 токенов (n — число тайлов) для сверхвысоких разрешений при приемлемых ресурсах.
Декодер DeepSeek‑3B‑MoE:
Экспертная смесь (MoE) с активацией 6 маршрутизируемых и 2 общих экспертов — эффективно ~570M активных параметров на шаг.
Баланс «выразительности 3B» и скорости/стоимости как у ~500M моделей — удачная точка для доменно‑ориентированных VLM.

Итог — контролируемая визуальная токенизация плюс экономный, но достаточно сильный языковой декодер.

Почему это важно не только для OCR

Длинный контекст для LLM.
Перекладывая длинные документы в «оптически сжатые» визуальные токены, можно удерживать больше материала в окне контекста, не взрывая стоимость токенов. Это особенно ценно для юридических, научных и корпоративных сценариев, где важна целая папка документов «под рукой» модели.
Предобучение и синтез данных.
Сверхмассивная генерация размеченных страниц (33 млн/сутки на кластере) ускоряет самообучение VLM/LLM, снижает зависимость от редких размеченных наборов, упрощает мульти‑языковое покрытие.
Многоязычная корпоративная аналитика.
Способность к извлечению структуры и текста с документов на десятках языков позволяет строить единую фабрику обработки счётов, договоров, сканов с печатями/штрих‑кодами и т.п.
Универсальная визуальная компетенция.
Помимо документов, модель демонстрирует навыки описания изображений, детекции и grounding — фундамент для мульти‑модальных агентов, где «смотрю → читаю → решаю».

Ограничения и границы

При компрессии >10× точность падает — сложные многостраничные макеты и мелкий шрифт на 512–640 px дают «размывание». Решения: ререндеринг в упрощённый лэйаут, гибридные режимы с частичным увеличением разрешения, селективный тайлинг.
Сверхсжатие работает не для всего: где важны точные позиции символов (например, юридически значимые таблицы), может потребоваться больше визуальных токенов, чтобы сохранить структурную семантику.
Формат выходов должен быть стандартизован под целевую систему: в бенчмарках есть расхождения форматов, реальные результаты могут быть выше при «нативной» разметке.

Практические сценарии внедрения

Интеграция в пайплайн RAG: хранить документы как изображения, прогонять через DeepSeek‑OCR для дешёвого расширения контекста, затем запускать извлечение фактов/сводки.
Масштабное оцифровывание архивов: параллельная обработка сканов в многоязычной среде с компрессией контекста и downstream‑анализом.
Генерация обучающих корпусов: синтез страниц для доменных LLM/VLM, включая редкие языки и специализированные макеты (наука, финансы, медицина).
Мульти‑модальные агенты: «смотрят» на схему/диаграмму/формулу, извлекают компактный контекст и рассуждают без переполнения окна.

Вывод

DeepSeek‑OCR аккуратно «сдвигает» границу между зрением и языком: изображение становится эффективной упаковкой текста, а визуальные токены — дешёвой валютой контекста. На практике это:

снижает стоимость длинного контекста на порядок,
ускоряет обучение и дообучение VLM/LLM,
открывает новые режимы многоязычной и мульти‑форматной аналитики.

Техническая новизна — в компромиссе архитектур: локально‑глобальная зрительная обработка с жёсткой компрессией токенов и лёгким, но выразительным MoE‑декодером. Для индустрии это сигнал: длинный контекст — решаем не только «большими окнами» и ретриверами, но и оптической компрессией, где «100 визуальных токенов действительно стоят тысячи слов».

Хотите создать уникальный и успешный продукт? СМС – ваш надежный партнер в мире инноваций! Закажи разработки ИИ-решений, LLM-чат-ботов, моделей генерации изображений и автоматизации бизнес-процессов у профессионалов.

ИИ сегодня — ваше конкурентное преимущество завтра!

Тел. +7 (985) 982-70-55

E-mail sms_systems@inbox.ru

Сайт https://www.smssystems.ru/razrabotka-ai/