31 подписчик

Одновременный поворот китайских LLM: DeepSeek «налево», Kimi «направо» — начинается эпоха борьбы за реальное внедрение

29 января29 янв

3 мин

27 января две самые заметные китайские стартап‑компании в области больших моделей почти синхронно выпустили крупные и при этом открытые обновления: DeepSeek представила DeepSeek‑OCR 2, а Kimi — K2.5. На первый взгляд это разные траектории развития: DeepSeek переосмысливает то, как модель “читает” информацию, а Kimi делает ставку на то, как модель выполняет сложные задачи. Но вместе эти релизы показывают более важный сдвиг: индустрия уходит от гонки «у кого больше параметров и красивее ответы» к гонке «у кого ИИ лучше встраивается в реальную работу — быстрее, дешевле и стабильнее». DeepSeek‑OCR 2: революция на входе — «читать документ как человек» Классический подход к документам (PDF, договоры, отчёты) у ИИ долго был механистическим: текст извлекается и подаётся модели токен за токеном. Это создаёт две системные проблемы: DeepSeek‑OCR 2 делает акцент на визуальном кодировании: документ рассматривается не как строка текста, а как визуальный объект, который нужно «прочитать». Идея в том

27 января две самые заметные китайские стартап‑компании в области больших моделей почти синхронно выпустили крупные и при этом открытые обновления: DeepSeek представила DeepSeek‑OCR 2, а Kimi — K2.5.

На первый взгляд это разные траектории развития: DeepSeek переосмысливает то, как модель “читает” информацию, а Kimi делает ставку на то, как модель выполняет сложные задачи. Но вместе эти релизы показывают более важный сдвиг: индустрия уходит от гонки «у кого больше параметров и красивее ответы» к гонке «у кого ИИ лучше встраивается в реальную работу — быстрее, дешевле и стабильнее».

DeepSeek‑OCR 2: революция на входе — «читать документ как человек»

Классический подход к документам (PDF, договоры, отчёты) у ИИ долго был механистическим: текст извлекается и подаётся модели токен за токеном. Это создаёт две системные проблемы:

длинные документы быстро «съедают» контекстное окно, повышая стоимость и снижая скорость;
сложная структура (таблицы, колонки, сноски, подписи) часто ломается при «разрезании на текст», из‑за чего появляются ошибки: смещение столбцов, путаница полей, потеря связей.

DeepSeek‑OCR 2 делает акцент на визуальном кодировании: документ рассматривается не как строка текста, а как визуальный объект, который нужно «прочитать». Идея в том, чтобы модель сначала понимала верстку и структуру (где заголовок, где таблица, что с чем связано), а уже затем — смысл.

Это важно не как абстрактное «модель стала умнее», а как практическая выгода: анализ длинных отчётов становится быстрее и дешевле, а работа с таблицами — надёжнее. Такой подход лучше подходит для реальных процессов: поиск по документам, сравнение версий, суммаризация, извлечение структурированных данных.

Kimi K2.5: эволюция на выходе — от «ответов» к «исполнению»

Kimi, наоборот, усиливает сторону выполнения задач. Сегодня модели могут отвечать даже на сложные вопросы, но когда задача становится многошаговой (много материалов, длительный контекст, промежуточные решения), ИИ часто:

«забывает» важные детали по ходу выполнения,
остаётся на уровне советов («сделайте так-то»), не доводя дело до результата.

Kimi K2.5 продолжает линию длинной памяти (сверхдлинного контекста) + мультимодальности + “агентности”. Длинный контекст уменьшает необходимость постоянно повторять вводные, мультимодальность расширяет типы входных данных (текст, изображения, скриншоты интерфейсов), а агентный подход означает, что модель пытается разбивать задачу на шаги, подключать инструменты и доводить процесс до итога, а не просто выдавать объяснение.

Смысл этой стратегии — приблизиться к формату «цифрового помощника», который не только рассуждает, но и закрывает цепочки задач, приближенные к реальной работе.

Общий тренд: рынок начинает «мериться внедряемостью»

Вместе эти две линии — «сжать и улучшить вход» (DeepSeek) и «удержать контекст и выполнить цепочку действий» (Kimi) — отражают общий переход индустрии к более инженерным требованиям:

Память и устойчивость в длинных процессах: ИИ должен держать контекст и промежуточные выводы, а не «обнуляться» каждые несколько шагов.
Настоящее понимание визуальной информации: не просто «распознать картинку», а понять организацию информации в документе или интерфейсе.
Сдвиг роли ИИ: от «консультанта» к «исполнителю». Критерий ценности меняется: важно не только «правильно ли ответил», а дошёл ли до результата, насколько стабильно и по какой цене.

Именно поэтому одновременные релизы DeepSeek‑OCR 2 и Kimi K2.5 можно читать как сигнал: китайские LLM вступают в этап, где выигрывает не тот, кто эффектнее говорит, а тот, кто лучше работает в реальных сценариях — в документах, процессах и длинных задачах.

Хотите создать уникальный и успешный продукт? СМС – ваш надежный партнер в мире инноваций! Закажи разработки ИИ-решений, LLM-чат-ботов, моделей генерации изображений и автоматизации бизнес-процессов у профессионалов.

ИИ сегодня — ваше конкурентное преимущество завтра!

Тел. +7 (985) 982-70-55

E-mail sms_systems@inbox.ru

Сайт https://www.smssystems.ru/razrabotka-ai/