Ключевая идея: оптическая компрессия контекста
DeepSeek представила открытый проект DeepSeek-OCR — эксперимент на границе между зрением и языком, где изображение используется как «носитель» сжатого текста. Модель демонстрирует, что из очень малого числа визуальных токенов можно декодировать в 10 и более раз больше текстовых токенов.
Иначе говоря: одна страница документа, представленная в виде картинки, способна «стоить» на порядок меньше токенов, чем её же текст в чистом виде — при сопоставимой точности восстановления.
Это подводит к принципу «context optical compression» — оптической компрессии контекста для LLM/VLM:
- Вход: изображение документа (или фрагмента),
- Кодирование: компактное множество визуальных токенов,
- Выход: развернутый текст (и структура) с высокой точностью.
Практический эффект — путь к решению главной боли больших языковых моделей: дорогого и ограниченного по длине контекста.
Результаты: меньше токенов — больше информации
- На бенчмарке OmniDocBench DeepSeek‑OCR превосходит GOT‑OCR 2.0, используя всего 100 визуальных токенов против 256 у конкурента; с <800 токенов опережает MinerU 2.0, которому требуется ~6000–7000 токенов на страницу.
- На наборе Fox при коэффициенте компрессии до 10× точность декодирования достигает ≈97% (выше в сценариях с упрощённой версткой). При ~20× точность держится порядка 60% — что для экстремального сжатия всё ещё полезно в ряде задач извлечения.
- Экономика вычислений: один узел с A100‑40G способен генерировать >200 тыс. страниц данных в день; кластер 20 узлов (8×A100‑40G каждый) — до 33 млн страниц/день для предобучения LLM/VLM. Это превращает DeepSeek‑OCR в машину фабричного масштаба по созданию обучающих корпусов.
Модель уверенно понимает диаграммы, химические уравнения, простую геометрию и естественные изображения, а в документах — до ~100 языков, что важно для глобальных корпоративных фондов.
Репозитории:
- GitHub: deepseek-ai/DeepSeek-OCR
- Модель на HF: deepseek-ai/DeepSeek-OCR
Архитектура: DeepEncoder + DeepSeek‑3B‑MoE
Модель — это единый VLM «эндо‑ту‑энд»: визуальный энкодер и языковой декодер работают вместе.
- Энкодер DeepEncoder (~380M параметров):
- Связка SAM‑base (~80M, window attention) для локальных зрительных признаков и CLIP‑large (~300M, dense global attention) для глобальной семантики.
- Между ними — 2‑слойный свёрточный модуль для 16× даунсэмплинга визуальных токенов.
- Поток: из входной сетки патчей (например, 1024×1024 → 4096 патч‑токенов) компрессия до ~256 токенов перед глобальным вниманием — это держит активации и память под контролем.
- Мульти‑разрешение и «динамическая интерполяция позиционных кодов» позволяют варьировать количество визуальных токенов под сложность и размер исходного документа.
- Специальные режимы, включая «Gundam» (локально‑глобальный взгляд и тайлинг), дают формулу n×100+256 токенов (n — число тайлов) для сверхвысоких разрешений при приемлемых ресурсах.
- Декодер DeepSeek‑3B‑MoE:
- Экспертная смесь (MoE) с активацией 6 маршрутизируемых и 2 общих экспертов — эффективно ~570M активных параметров на шаг.
- Баланс «выразительности 3B» и скорости/стоимости как у ~500M моделей — удачная точка для доменно‑ориентированных VLM.
Итог — контролируемая визуальная токенизация плюс экономный, но достаточно сильный языковой декодер.
Почему это важно не только для OCR
- Длинный контекст для LLM.
Перекладывая длинные документы в «оптически сжатые» визуальные токены, можно удерживать больше материала в окне контекста, не взрывая стоимость токенов. Это особенно ценно для юридических, научных и корпоративных сценариев, где важна целая папка документов «под рукой» модели. - Предобучение и синтез данных.
Сверхмассивная генерация размеченных страниц (33 млн/сутки на кластере) ускоряет самообучение VLM/LLM, снижает зависимость от редких размеченных наборов, упрощает мульти‑языковое покрытие. - Многоязычная корпоративная аналитика.
Способность к извлечению структуры и текста с документов на десятках языков позволяет строить единую фабрику обработки счётов, договоров, сканов с печатями/штрих‑кодами и т.п. - Универсальная визуальная компетенция.
Помимо документов, модель демонстрирует навыки описания изображений, детекции и grounding — фундамент для мульти‑модальных агентов, где «смотрю → читаю → решаю».
Ограничения и границы
- При компрессии >10× точность падает — сложные многостраничные макеты и мелкий шрифт на 512–640 px дают «размывание». Решения: ререндеринг в упрощённый лэйаут, гибридные режимы с частичным увеличением разрешения, селективный тайлинг.
- Сверхсжатие работает не для всего: где важны точные позиции символов (например, юридически значимые таблицы), может потребоваться больше визуальных токенов, чтобы сохранить структурную семантику.
- Формат выходов должен быть стандартизован под целевую систему: в бенчмарках есть расхождения форматов, реальные результаты могут быть выше при «нативной» разметке.
Практические сценарии внедрения
- Интеграция в пайплайн RAG: хранить документы как изображения, прогонять через DeepSeek‑OCR для дешёвого расширения контекста, затем запускать извлечение фактов/сводки.
- Масштабное оцифровывание архивов: параллельная обработка сканов в многоязычной среде с компрессией контекста и downstream‑анализом.
- Генерация обучающих корпусов: синтез страниц для доменных LLM/VLM, включая редкие языки и специализированные макеты (наука, финансы, медицина).
- Мульти‑модальные агенты: «смотрят» на схему/диаграмму/формулу, извлекают компактный контекст и рассуждают без переполнения окна.
Вывод
DeepSeek‑OCR аккуратно «сдвигает» границу между зрением и языком: изображение становится эффективной упаковкой текста, а визуальные токены — дешёвой валютой контекста. На практике это:
- снижает стоимость длинного контекста на порядок,
- ускоряет обучение и дообучение VLM/LLM,
- открывает новые режимы многоязычной и мульти‑форматной аналитики.
Техническая новизна — в компромиссе архитектур: локально‑глобальная зрительная обработка с жёсткой компрессией токенов и лёгким, но выразительным MoE‑декодером. Для индустрии это сигнал: длинный контекст — решаем не только «большими окнами» и ретриверами, но и оптической компрессией, где «100 визуальных токенов действительно стоят тысячи слов».
Хотите создать уникальный и успешный продукт? СМС – ваш надежный партнер в мире инноваций! Закажи разработки ИИ-решений, LLM-чат-ботов, моделей генерации изображений и автоматизации бизнес-процессов у профессионалов.
ИИ сегодня — ваше конкурентное преимущество завтра!
Тел. +7 (985) 982-70-55
E-mail sms_systems@inbox.ru