21 подписчик

Сдвиг в экономике вычислений и архитектуре ИИ-систем

3 дня назад3 дня назад

2 мин

DeepSeek выпустил V4 в двух вариантах: V4-Flash — ~$0.14 за вход / $0.28 за выход на 1 млн токенов V4-Pro — ~$1.74 / $3.48 (временно снижено) Главное изменение — не сама модель, а стоимость вычислений. В большинстве прикладных сценариев (поиск по документам с генерацией, агенты, поддержка, внутренние ассистенты) цена работы снижается на порядок по сравнению с моделями уровня GPT. Критичный фактор — экономика кэша. Повторное использование контекста (системный промпт, документация, история диалога) стоит ~$0.003 за 1 млн токенов. Это меняет экономику систем: • длинные системные инструкции перестают быть дорогими • многошаговые сценарии становятся допустимыми по цене • системы с большим объёмом контекста перестают «наказывать» бюджет Контекст до ~1 млн токенов меняет архитектуру работы с документами: • снижается необходимость агрессивного дробления текста • можно передавать больше исходных данных целиком • упрощается логика поиска и подготовки данных Совместимость с API OpenAI делает

DeepSeek выпустил V4 в двух вариантах:

V4-Flash — ~$0.14 за вход / $0.28 за выход на 1 млн токенов

V4-Pro — ~$1.74 / $3.48 (временно снижено)

Главное изменение — не сама модель, а стоимость вычислений.

В большинстве прикладных сценариев (поиск по документам с генерацией, агенты, поддержка, внутренние ассистенты) цена работы снижается на порядок по сравнению с моделями уровня GPT.

Критичный фактор — экономика кэша.

Повторное использование контекста (системный промпт, документация, история диалога) стоит ~$0.003 за 1 млн токенов.

Это меняет экономику систем:

• длинные системные инструкции перестают быть дорогими

• многошаговые сценарии становятся допустимыми по цене

• системы с большим объёмом контекста перестают «наказывать» бюджет

Контекст до ~1 млн токенов меняет архитектуру работы с документами:

• снижается необходимость агрессивного дробления текста

• можно передавать больше исходных данных целиком

• упрощается логика поиска и подготовки данных

Совместимость с API OpenAI делает переход простым:

• можно заменить адрес сервиса без переписывания логики

• поддерживаются вызовы инструментов, структурированный вывод и работа с кодом

Агентный слой

Появляется полноценное выполнение задач:

• вызов инструментов без участия пользователя

• сохранение состояния между шагами

• генерация результата (например, правки кода или отчёты)

Это переводит систему из режима «ответов на вопросы» в режим «выполнения задач».

Что меняется в архитектуре?

Разделение моделей по задачам становится стандартом

дешёвый слой — для массовых операций

дорогой слой — для сложных задач

Управление стоимостью становится частью архитектуры

Стоимость вычислений учитывается при выборе модели, а не постфактум

Гибридная модель работы с данными

Часть логики поиска переносится внутрь модели за счёт длинного контекста

Практическая реализуемость агентов

Снижение стоимости позволяет делать сложные многошаговые сценарии

Плюсы для российского рынка.

• Снижается зависимость от западных API — есть доступная альтернатива без жёстких ограничений

• Можно строить собственные решения внутри страны — вплоть до развёртывания на своих мощностях

• Экономика внедрения становится проще — меньше барьеров для бизнеса и стартапов

• Появляется возможность конкурировать не за счёт модели, а за счёт продукта и архитектуры

Ограничения.

• сложные рассуждения и генерация кода всё ещё лучше у топ-моделей

• качество может падать в сложных цепочках без контроля

• стабильность зависит от инфраструктуры

DeepSeek-V4 — это не просто новая модель, а изменение экономики ИИ.

После этого порога вопрос «использовать ли ИИ» исчезает.

Остаётся вопрос «как правильно распределить вычисления».

#ИИ #архитектура #экономика

🔳 IT Vibe News

​​Сдвиг в экономике вычислений и архитектуре ИИ-систем

Сдвиг в экономике вычислений и архитектуре ИИ-систем