46 подписчиков

Я уже не успеваю следить за моделями

29 января29 янв

~1 мин

😅 Только разберёшь одну — выходит ещё две «убийцы топов». Недавно 🐋 DeepSeek-OCR 2 — 3B модель с SOTA-качеством OCR и пониманием документов. Фишка — DeepEncoder V2: сначала глобально понимает изображение, потом выстраивает логический порядок чтения. В итоге лучше читает: 📄 сложные лэйауты 📊 таблицы 🧾 подписи + значения 📰 колонки На ряде бенчмарков обходит Gemini Pro, при этом модель всего 3B и её можно локально запускать / fine-tune. А сегодня ещё и Step3-VL-10B от stepfun.ai — компактная VLM (10B), которая по отчётам конкурирует с моделями в 10–20 раз больше. Архитектура: визуальный энкодер 1.8B + Qwen3-8B, всё обучено одним прогоном + жёсткий RL. OCRBench: 86.75 — документы читает уверенно. Правда, топовые цифры получены через PaCoRe (16 параллельных роллаутов → x16 по ресурсам). В обычном режиме всё ещё хорошо, но без магии. Зато Apache 2.0, vLLM и OpenAI-compatible API — отличный кандидат для локального деплоя. 👉 Вопрос: кто сейчас реально лучше всего разбирает руко

Я уже не успеваю следить за моделями 😅

Только разберёшь одну — выходит ещё две «убийцы топов».

Недавно 🐋 DeepSeek-OCR 2 — 3B модель с SOTA-качеством OCR и пониманием документов.

Фишка — DeepEncoder V2: сначала глобально понимает изображение, потом выстраивает логический порядок чтения.

В итоге лучше читает:

📄 сложные лэйауты

📊 таблицы

🧾 подписи + значения

📰 колонки

На ряде бенчмарков обходит Gemini Pro, при этом модель всего 3B и её можно локально запускать / fine-tune.

А сегодня ещё и Step3-VL-10B от stepfun.ai — компактная VLM (10B), которая по отчётам конкурирует с моделями в 10–20 раз больше.

Архитектура: визуальный энкодер 1.8B + Qwen3-8B, всё обучено одним прогоном + жёсткий RL.

OCRBench: 86.75 — документы читает уверенно.

Правда, топовые цифры получены через PaCoRe (16 параллельных роллаутов → x16 по ресурсам). В обычном режиме всё ещё хорошо, но без магии.

Зато Apache 2.0, vLLM и OpenAI-compatible API — отличный кандидат для локального деплоя.

👉 Вопрос: кто сейчас реально лучше всего разбирает рукописный текст?

Кроме Gemini Pro — есть достойные open-source варианты?

@iconicompany

#AI #OCR #VLM #DeepSeek #Step3 #opensource