Найти в Дзене
ELEKTRA

DeepSeek в 2025 году: как одна китайская лаборатория сбила цены на «рассуждающий» ИИ

Коротко о сути. DeepSeek сделал ставку не на «ещё одного чат-бота», а на дешёвое рассуждение: модели семейства R1 показывают уровень o1/o3-класса в задачах по математике, коду и логическим цепочкам, но при этом распространяются с открытыми весами (лицензия MIT) и агрессивным ценообразованием API. В январе 2025 года релиз R1 спровоцировал «встряску» на рынке ИИ и обрушил акции «больших» компаний — такого эффекта давно не было в инфраструктурном ИИ. Две ключевые линии: Лицензия и открытость. R1 распространяется по лицензии MIT, а в продуктах и API прямо разрешена дистилляция на основе ответов — редкий случай, когда вендор легально поощряет «клонирование» своих моделей под ваши нужды. api-docs.deepseek.com Обновление весной: 28 мая вышла версия R1-0528 (улучшены бенчмарки, режим JSON, вызов функций, меньше глюков) — это важные инженерные решения, которые позволяют не «играть в демо», а создавать сервисы. DataCamp Почему R1-Zero важен. Это демонстрация того, что развернутые мысли (доказ
Оглавление

Коротко о сути. DeepSeek сделал ставку не на «ещё одного чат-бота», а на дешёвое рассуждение: модели семейства R1 показывают уровень o1/o3-класса в задачах по математике, коду и логическим цепочкам, но при этом распространяются с открытыми весами (лицензия MIT) и агрессивным ценообразованием API. В январе 2025 года релиз R1 спровоцировал «встряску» на рынке ИИ и обрушил акции «больших» компаний — такого эффекта давно не было в инфраструктурном ИИ.

Что именно выпустил DeepSeek

Две ключевые линии:

  • DeepSeek-R1-Zero «чистый» RL без предварительного SFT: модель сама выстраивает длинные цепочки рассуждений (CoT), проявляет рефлексию и самопроверку, но пишет «шероховато» (смешивает языки, многословна). Научная ценность — доказали, что умение рассуждать можно развить с помощью одних только подкрепляющих сигналов.
  • DeepSeek-R1 — практичный ответ на недостатки R1-Zero: добавлены холодный старт и многоэтапный пайплайн (SFT → RL), чтобы повысить читаемость и стабильность, сохранив «ядро рассуждений». По результатам бенчмаркинга модель сопоставима с OpenAI-o1/о1-mini. Весы и отчёты выложены в открытый доступ.

Лицензия и открытость. R1 распространяется по лицензии MIT, а в продуктах и API прямо разрешена дистилляция на основе ответов — редкий случай, когда вендор легально поощряет «клонирование» своих моделей под ваши нужды. api-docs.deepseek.com

Обновление весной: 28 мая вышла версия R1-0528 (улучшены бенчмарки, режим JSON, вызов функций, меньше глюков) — это важные инженерные решения, которые позволяют не «играть в демо», а создавать сервисы. DataCamp

Экономика: почему «все побледнели»

  • Цены на API в Китае: в официальном прайс-листе R1 — 1/4 юаня за 1 млн входных токенов (при попадании/непопадании в кэш) и 16 юаней за 1 млн выходных. Даже без пересчёта валют это на порядок ниже привычных цен на модели логического вывода.
  • Открытые веса + MIT → можно самостоятельно размещать/дистиллировать, не платя роялти. Это убирает «ренту» в самых затратных местах пайплайна (инференс и внутренняя дообучка). api-docs.deepseek.com
  • Реакция рынка: на старте R1 мировые СМИ фиксировали распродажу ИИ-активов и «пересчёт» экономических моделей у гиперскейлеров. Это история не о «паник-сейлах», а о том, что рассуждения перестали быть дефицитом. ReutersVoxThe Wall Street Journal

Техника в деталях: как они «вытащили рассуждение»

Почему R1-Zero важен. Это демонстрация того, что развернутые мысли (доказательства, разборы, многоэтапные планы) формируются подкреплением без предварительного «обучения решению» через SFT. Да, речь у Zero неоднородна, но для исследований это «золото»: видно, как формируются стратегии вывода.

Что добавил «боевой» R1. Многоступенчатая схема:

SFT (ядро задач) → RL (поощрение за верный финал и «разумные» промежуточные шаги) → дистилляция в компактные модели (7–70B на базе Qwen/Llama), пригодные для «своего» он-према/облака. Результат — почти o1-уровень при внятном стиле и меньшей склонности к «словесной каше».

-2

В чём практическая выгода по сравнению с «западным стеком»

  • Рассуждения о соотношении цены и качества. В типичных сценариях R1 закрывает 80–95 % кейсов о1-класса (код, математика, цепочки рассуждений) при многократной экономии на токенах и/или полном отказе от внешнего API.
  • Юридически удобная открытость. MIT на весах + разрешённая дистилляция вывода → удобно для корпоративных отделов DS/ML (тонкая настройка под домен без «мутных» лицензионных зон).
  • Независимость. При желании держите R1 «внутри контура» — не выводите персональные данные и секреты наружу.

Важно помнить о рисках: линейка R1 фиксирует ограничения по контенту для китайского рынка (политика/цензура). Для глобальных компаний это вопрос комплаенса и форков: нужно проверять, как модель ведёт себя на «красных темах», и при необходимости дообучать её или использовать очищенный «внутренний» вариант.

Линейка продуктов на базе R1

  • R1 / R1-Zero «мозг рассуждений» с открытыми весами (Hugging Face) и полным техническим отчетом.
  • V2.5 / V3 — «рабочие лошадки» для общей генерации и смешанных задач, часто самые дешёвые по цене за 1 млн токенов в публичных агрегаторах. Это отличный «нижний уровень» для дешёвого черновика и переформулировок.
  • Приложение DeepSeek / веб-версия — режим «Глубокое размышление» для долгих раздумий (полезно для обучения/анализа кода).

Где это приносит деньги: 8 повторяющихся паттернов

1) Поддержка по второй линии (финансы/телекоммуникации).

R1 решает сложные задачи: расчёт комиссий, разбор пограничных случаев в договорах, сложные эскалации. Связка: R1-reasoner + RAG по внутренним регламентам + «инструменты» (CRM, биллинг). Метрики: доля решённых задач без L3, среднее время решения, повторные обращения.

2) Автоматизация проверки кода.

В связке IDE-плагин → «быстрый» V2.5 для черновых правок → R1 для обсуждения причин/инвариантов. KPI: % PR, принятых без правок; средняя глубина замечаний; регрессии по автотестам.

3) Аудит договоров/тендеров.

R1 хорошо «переваривает» длинный контекст: собирает расхождения в датах/суммах/обязательствах и выводит «риски с вероятностями». Важно: сохранять цитаты из источников и протокол вопросов модели → «проходимость» юридического отдела.

4) Анализ инцидентов (SRE/безопасность).

R1 строит цепочку причин: на основе логов/алертов восстанавливает граф зависимостей «что сломалось → почему → где причина». На выходе — «плейбук» повторяющихся действий + список различий в конфигурациях.

5) Расширенный поиск по базе знаний.

Не просто «ответ по отрывку», а пошаговый вывод: R1 объясняет, почему он остановился на конкретных документах и где находятся «сомнительные» места (для передачи человеку).

6) Финансовая отчётность/сверка данных.

R1 сверяет большие пулы файлов XLSX/PDF (акты, счета, письма), объясняет расхождения «человеческим» текстом и составляет план устранения разрывов (кто кому что должен прислать/подписать).

7) Инструкции и регламенты.

Из «заваленных» Confluence/SharePoint R1 извлекает каноническую версию процесса (со ссылками на источники и владельцев), а «дешёвый» слой V2.5 переписывает её на понятном для сотрудников языке.

8) Разрешение спорных ситуаций в сфере электронной коммерции.

R1 «проигрывает» обе версии (продавца/покупателя), сверяется с политиками, оценивает вероятность эскалации и предлагает шаги (замена/частичный возврат, срок/шаблон письма).

-3

Архитектура внедрения (с нуля до продакшена)

Базовый курс (2–3 недели):

  1. Данные. Соберите «ядро»: регламенты/часто задаваемые вопросы/политики/кейсы. Правильно нарежьте (схемы чанков, версии), укажите «истину» и зоны запрета.
  2. Модели.

    — R1 как уровень рассуждений (сложные шаги, проверка, объяснения).

    — V2.5/V3 для дешёвых черновиков/переформулировок.
  3. Надстройка. RAG, инструментальные вызовы (CRM/биллинг/поиск), журнал запросов/ответов, счётчики токенов и задержек.
  4. Качество. A/B-маршрутизация, «золотые запросы», ежедневные «иголки в стоге сена», отчёт о фактической экономии.

Он-прем/суверенный контур (4–8 недель):

  • Разворачиваете открытые веса R1 в своём кластере (K8s + vLLM/TensorRT-LLM), добавляете прокси и квоты.
  • Ведёте дистилляцию на доменных данных (разрешено лицензией).
  • Для чувствительных рынков создаёте форк политик (масштабируете «границы» тем).

Чек-лист для руководителя (короткий и жёсткий)

  • Для каждого сценария есть денежный показатель (SLA, NPS, повторные обращения, время, затраченное инженерами).
  • R1 используется только там, где требуется рассуждение; всё простое — на V2.5/V3.
  • Запущены A/B-трассы и «золотые запросы» на регрессию качества.
  • Описаны границы тем (комплаенс/PII/политика), есть возможность обратиться к человеку.
  • Для он-према: подготовили GPU/план обновлений, прописали политику дистилляции/шеринга.
  • Сформирован публичный договор ожиданий: где ответы могут быть «с гипотезами», где требуется проверка.

-4

Промт-шаблоны (готовые «кирпичики» для разных ролей)

Агент 2-й линии поддержки (R1 + инструменты + RAG):

Вы — аналитик службы поддержки. У вас есть инструменты: kb.search, crm.lookup, billing.adjust, tickets.create. Алгоритм:
Сформулируйте план из 3–5 пунктов.
Задайте 1 уточняющий вопрос (если нужно).
Проверьте базу знаний (kb.search), сопоставьте цитаты.
Если нужно — ровно один инструментальный вызов.
Верните краткое решение + список источников + запись в CRM.
Если нет достаточных оснований, верните формулировку «требуется эскалация» и объясните почему.

Разбор PR/регрессий в коде (R1 «думает», V2.5 «подчищает»):

Контекст: diff, неудачные тесты, ошибки рантайма.

Задача: объясни первопричину, укажи контракт/инварианты, предложи минимальный фикс и юнит-тест.

Формат: root_cause, minimal_fix, test_patch, risk_notes.

Если уверенность составляет менее 70 %, так и напиши и предложи 2–3 шага для диагностики.

Длинные документы/контракты:

На входе — пакет документов (PDF/DOCX).

Выведите три блока:
Несоответствия (суммы/даты/обязательства) с цитатами.
Риски с указанием вероятности и эффекта.
Вопросы к контрагенту.

Если факт не подтверждён цитатой, пометьте его как гипотезу.

Где «подводные камни»

  • Политические фильтры и комплаенс. Для глобального применения проверяйте поведение в «чувствительных» темах, используйте свой форк политик/настроек.
  • Стабильность нулевой ветки. R1-Zero — исследовательская игрушка с «гениальными» ходами и странной речью. В продакшене — R1 или дистиллированные модели.
  • Мифы о «дешёвых» тренировках. Сравнение «5 миллионов долларов против сотен миллионов» часто некорректно — оценивайте экономику с учётом своей задачи и инфраструктуры.

Что дальше по дорожной карте

СМИ со ссылкой на Bloomberg пишут, что новая модель DeepSeek будет представлена до конца года — с явным прицелом «догнать и перегнать» западных флагманов в области рассуждений. Для нас это означает продолжение ценовой войны и ещё больше «он-прем форков» на открытых весах.

Краткий «рецепт запуска» под ваш стек

  1. Выбираем 1 денежный сценарий (например: сокращение повторных обращений в службу поддержки).
  2. Собираем ядро данных (актуальные регламенты, ответы, кейсы), наводим порядок в версиях.
  3. Поднимаем V2.5 как дешёвый слой и R1 как слой рассуждений; включаем логирование токенов/латентности и A/B-маршрутизацию.
  4. Вводим «золотые запросы» и ежедневно проводим регрессионный анализ.
  5. Через 2–4 недели — дистилляция под домен, перенос на свой хостинг (при необходимости), корректировка политик.