46 подписчиков

Продолжаем наш OCR-баттл — в игру заходит ещё один игрок

3 февраля3 фев

~1 мин

: 🌟 zai-org/GLM-OCR Новая мультимодальная OCR-модель на базе GLM-V, заточенная под сложные документы и реальные бизнес-сценарии. Размер всего 0.9B параметров, но при этом: 🏆 94.62 на OmniDocBench v1.5 — текущее #1 место Под капотом: 🟡 CogViT визуальный энкодер + GLM-0.5B декодер 🟡 Multi-Token Prediction + full-task RL для стабильного обучения 🟡 двухстадийный пайплайн: layout analysis (PP-DocLayout-V3) + параллельное распознавание 🟡 агрессивный даунсемплинг токенов для быстрого инференса Что умеет хорошо: 📄 сложные документы 📊 таблицы 🧮 формулы 🧾 печати 🧑‍💻 code-heavy PDF’ы 🗂 info extraction по JSON-схеме Из приятного — упор на прод: 🚀 1.86 стр/сек для PDF 🚀 0.67 изображений/сек 🚀 vLLM / SGLang / Ollama из коробки 🚀 SDK + one-line запуск Поддерживает 8 языков, полностью open-source. Лицензия — MIT (layout-часть PP-DocLayout-V3 — Apache 2.0). Итого за несколько дней у нас уже: DeepSeek-OCR 2 Step3-VL-10B PaddleOCR-VL-1.5 GLM-OCR OCR внезапно стал одной из

Продолжаем наш OCR-баттл — в игру заходит ещё один игрок:

🌟 zai-org/GLM-OCR

Новая мультимодальная OCR-модель на базе GLM-V, заточенная под сложные документы и реальные бизнес-сценарии.

Размер всего 0.9B параметров, но при этом:

🏆 94.62 на OmniDocBench v1.5 — текущее #1 место

Под капотом:

🟡 CogViT визуальный энкодер + GLM-0.5B декодер

🟡 Multi-Token Prediction + full-task RL для стабильного обучения

🟡 двухстадийный пайплайн: layout analysis (PP-DocLayout-V3) + параллельное распознавание

🟡 агрессивный даунсемплинг токенов для быстрого инференса

Что умеет хорошо:

📄 сложные документы

📊 таблицы

🧮 формулы

🧾 печати

🧑‍💻 code-heavy PDF’ы

🗂 info extraction по JSON-схеме

Из приятного — упор на прод:

🚀 1.86 стр/сек для PDF

🚀 0.67 изображений/сек

🚀 vLLM / SGLang / Ollama из коробки

🚀 SDK + one-line запуск

Поддерживает 8 языков, полностью open-source.

Лицензия — MIT (layout-часть PP-DocLayout-V3 — Apache 2.0).

Итого за несколько дней у нас уже:

DeepSeek-OCR 2

Step3-VL-10B

PaddleOCR-VL-1.5

GLM-OCR

OCR внезапно стал одной из самых горячих VLM-ниш.

👉 Дальше ждём модель, которая читает русскую рукопись так же круто как Gemini 3 Pro 🙂

@iconicompany

#AI #OCR #VLM #GLM #opensource #DocumentAI