😅 Только разберёшь одну — выходит ещё две «убийцы топов». Недавно 🐋 DeepSeek-OCR 2 — 3B модель с SOTA-качеством OCR и пониманием документов. Фишка — DeepEncoder V2: сначала глобально понимает изображение, потом выстраивает логический порядок чтения. В итоге лучше читает: 📄 сложные лэйауты 📊 таблицы 🧾 подписи + значения 📰 колонки На ряде бенчмарков обходит Gemini Pro, при этом модель всего 3B и её можно локально запускать / fine-tune. А сегодня ещё и Step3-VL-10B от stepfun.ai — компактная VLM (10B), которая по отчётам конкурирует с моделями в 10–20 раз больше. Архитектура: визуальный энкодер 1.8B + Qwen3-8B, всё обучено одним прогоном + жёсткий RL. OCRBench: 86.75 — документы читает уверенно. Правда, топовые цифры получены через PaCoRe (16 параллельных роллаутов → x16 по ресурсам). В обычном режиме всё ещё хорошо, но без магии. Зато Apache 2.0, vLLM и OpenAI-compatible API — отличный кандидат для локального деплоя. 👉 Вопрос: кто сейчас реально лучше всего разбирает руко