: 🌟 zai-org/GLM-OCR Новая мультимодальная OCR-модель на базе GLM-V, заточенная под сложные документы и реальные бизнес-сценарии. Размер всего 0.9B параметров, но при этом: 🏆 94.62 на OmniDocBench v1.5 — текущее #1 место Под капотом: 🟡 CogViT визуальный энкодер + GLM-0.5B декодер 🟡 Multi-Token Prediction + full-task RL для стабильного обучения 🟡 двухстадийный пайплайн: layout analysis (PP-DocLayout-V3) + параллельное распознавание 🟡 агрессивный даунсемплинг токенов для быстрого инференса Что умеет хорошо: 📄 сложные документы 📊 таблицы 🧮 формулы 🧾 печати 🧑💻 code-heavy PDF’ы 🗂 info extraction по JSON-схеме Из приятного — упор на прод: 🚀 1.86 стр/сек для PDF 🚀 0.67 изображений/сек 🚀 vLLM / SGLang / Ollama из коробки 🚀 SDK + one-line запуск Поддерживает 8 языков, полностью open-source. Лицензия — MIT (layout-часть PP-DocLayout-V3 — Apache 2.0). Итого за несколько дней у нас уже: DeepSeek-OCR 2 Step3-VL-10B PaddleOCR-VL-1.5 GLM-OCR OCR внезапно стал одной из
Продолжаем наш OCR-баттл — в игру заходит ещё один игрок
3 февраля3 фев
1
~1 мин