Для искусственного интеллекта 2025 год ощущался как три года, сжатые в один. Передовые модели LLM совершили прорыв в области логического мышления, открытый исходный код наконец-то стал «достаточно хорошим» для множества реальных задач, OCR и VLM вышли на новый уровень, а аудиомодели незаметно сделали агентов действительно пригодными для использования в реальном мире. Вот краткий обзор лучших моделей 2025 года, которые действительно изменили подход людей к созданию чего-либо, а не просто стали основой для скриншотов в таблице лидеров:
LLM и логическое мышление
- GPT-5.2 (Thinking / Pro) – Логическое мышление и кодирование уровня Frontier, очень быстрая обработка данных, подходит для агентов, использующих инструменты с долгосрочным горизонтом, и сложных рабочих процессов.
- Gemini 3 Pro / Deep Think – Контекст на уровне миллионов токенов и многомодальное «логическое мышление на экране»; Превосходно подходит для планирования, написания кода и масштабируемых веб-приложений в стиле RAG/NotebookLM.
- Claude 4.5 (Sonnet/Opus) – Чрезвычайно эффективен для использования агентных инструментов, структурированных пошаговых планов и задач в стиле «используйте компьютер для меня».
- DeepSeek-V3.2 и Qwen3-Thinking – Монстры с открытыми весами, которые сократили разрыв с закрытыми моделями до ~0,3 балла по ключевым показателям производительности, при этом значительно удешевив их использование.
Если в 2023–2024 годах все сводилось к принципу «просто используйте GPT», то в 2025 году наконец-то стало «выбирайте LLM так же, как выбираете базу данных».
Vision, VLM и OCR
- MiniCPM‑V 4.5 – Одна из самых мощных открытых мультимодальных моделей для распознавания текста, графиков, документов и даже видеокадров, оптимизированная для работы на мобильных устройствах/периферийных устройствах, при этом демонстрирующая результаты, близкие к лучшим в OCRBench/OmniDocBench.
- olmOCR‑2‑7B‑1025 – Оптимизированная для распознавания текста модель VLM от Института Аллена, доработанная на основе Qwen2.5‑VL, разработанная специально для обработки документов и длинных текстов с помощью OCR.
- InternVL 2.x / 2.5‑4B – Открытое семейство моделей VLM, ставшее популярной альтернативой закрытым моделям типа GPT‑4V для понимания документов, текста сцен и мультимодального анализа.
- Линейки Gemma 3 VLM и Qwen 2.5/3 VL – Мощные (относительно) открытые возможности для визуального анализа высокого разрешения, многоязычного распознавания текста и понимания длинных видеороликов в системах производственного типа.
2025 год может запомниться как год, когда «преобразование PDF в чистый Markdown с макетами, таблицами и диаграммами» перестало казаться волшебством и превратилось в скучный вызов API.
Аудио, речь и агенты
- Whisper (по-прежнему король, но сильно оптимизирован) – Оставался базовым решением по умолчанию для многоязычного распознавания речи в 2025 году, с множеством оптимизированных форков и развертываний на устройствах.
- Стеки синтеза речи/распознавания речи в реальном времени с низкой задержкой (например, новые модели и API для потокового синтеза речи) – Задержка менее секунды + потоковая передача текста/аудио превратили LLM в настоящих голосовых агентов в реальном времени вместо «дикторов подкастов».
- Многие голосовые стеки 2025 года поставлялись в виде API, а не отдельных моделей: ASR + LLM + синтез речи в реальном времени, объединенные для колл-центров, Copilots и IDE для vibecoding. Голосовые технологии перешли от «крутой демонстрации» к «я разговариваю со своей инфраструктурой/IDE/CRM как человек, и он отвечает в режиме реального времени».
OCR/искусственный интеллект для документов и IDP
- olmOCR‑2‑7B‑1025, MiniCPM‑V 4.5, InternVL 2.x, OCRFlux‑3B, PaddleOCR‑VL – целый набор открытых моделей, которые могут преобразовывать PDF-файлы в структурированный Markdown с таблицами, формулами, диаграммами и длинными многостраничными макетами.
- В дополнение к этому, инструменты IDP / «PDF AI» интегрировали их в полноценные продукты для счетов-фактур, контрактов и сложных корпоративных документов.
Если в 2022 году ваш стек был «Tesseract + регулярные выражения», то в 2025 году — «просканируйте 100 страниц и получите пригодный для использования JSON/Markdown».
Открытые LLM-системы, которые действительно имели значение
- DeepSeek-V3.x — агрессивный MoE + бюджеты на разработку + невероятно низкая стоимость; многие незаметно перенесли сюда свои внутренние рабочие нагрузки.
- Семейство Qwen3 — мощная открытая логика рассуждений, многоязычная поддержка и специализированные варианты «Thinking», которые стали выбором по умолчанию для самостоятельного размещения.
- Llama 4 и другие — сократили разрыв до ~0,3 балла с передовыми моделями в нескольких рейтингах, сделав «полностью открытую инфраструктуру» реалистичным выбором для многих организаций.
В 2025 году открытый исходный код не в полной мере охватил передовые рубежи, но для многих команд он преодолел порог «достаточно хорошо + достаточно дешево».
Ваша очередь. Этот список, очевидно, предвзят в отношении моделей, которые:
- Изменили подход к разработке продуктов (агенты, RAG, документооборот, голосовые интерфейсы)
- Имеют общедоступные бенчмарки, API или открытые веса, к которым могут получить доступ обычные разработчики. — Что вы выпустили или внедрили в 2025 году, что заслуживает статуса «модели года»?
Ваша любимая передовая модель LLM?
- Ваша любимая модель с открытым исходным кодом, которую вы разместили самостоятельно?
- Лучшая модель OCR / VLM / распознавания речи, которая спасла вас от проблем?
Оставьте свои варианты ниже, чтобы все могли провести их бенчмаркинг/тестирование в 2026 году.