Добавить в корзинуПозвонить
Найти в Дзене
Нейрозона сегодня

DeepSeek V4: Новый вызов для OpenAI и Anthropic

Китайский стартап DeepSeek готовится представить свою флагманскую модель V4 в середине февраля, как сообщает The Information, ссылаясь на источники, знакомые с планами компании. Внутренние тесты демонстрируют, что V4 превосходит модели Claude от Anthropic и серию GPT от OpenAI в задачах программирования. Особо отмечается прорыв в обработке очень длинных промптов с кодом, что делает модель особенно полезной для разработчиков сложных проектов. Релиз запланирован на период китайского Нового года, повторяя стратегию прошлого года, когда модель R1 была выпущена 20 января и вызвала значительный резонанс в технологическом сообществе. V4 знаменует собой изменение в стратегии DeepSeek. Если R1 была ориентирована на “чистое рассуждение” – математику и логику, то V4 делает акцент на прикладном инжиниринге, нацеливаясь на корпоративный рынок, где качество генерации кода напрямую влияет на прибыль. На данный момент лидером по бенчмарку SWE-bench Verified является Claude Opus 4.5 с результатом 80,9%

Китайский стартап DeepSeek готовится представить свою флагманскую модель V4 в середине февраля, как сообщает The Information, ссылаясь на источники, знакомые с планами компании. Внутренние тесты демонстрируют, что V4 превосходит модели Claude от Anthropic и серию GPT от OpenAI в задачах программирования. Особо отмечается прорыв в обработке очень длинных промптов с кодом, что делает модель особенно полезной для разработчиков сложных проектов.

Релиз запланирован на период китайского Нового года, повторяя стратегию прошлого года, когда модель R1 была выпущена 20 января и вызвала значительный резонанс в технологическом сообществе.

V4 знаменует собой изменение в стратегии DeepSeek. Если R1 была ориентирована на “чистое рассуждение” – математику и логику, то V4 делает акцент на прикладном инжиниринге, нацеливаясь на корпоративный рынок, где качество генерации кода напрямую влияет на прибыль. На данный момент лидером по бенчмарку SWE-bench Verified является Claude Opus 4.5 с результатом 80,9%. V4 потребуется продемонстрировать не только генерацию кода, но и агентные способности в отладке и работе с репозиториями, чтобы занять первое место.

Перед анонсом DeepSeek расширила техническую документацию по R1, раскрыв полный пайплайн обучения. Компания признала, что некоторые перспективные методы, такие как Monte Carlo Tree Search и Process Reward Model, не показали эффективности в задачах общего рассуждения из-за проблем с “гранулярностью шагов”.

Ключевым вопросом остается, сохранит ли V4 формат открытых весов. Если да, и при этом продемонстрирует высокие результаты на бенчмарках кодинга, это может серьезно повлиять на бизнес-модель закрытых лабораторий, предложив бесплатную альтернативу, превосходящую платные решения.

Ну что ж, будем ждать февраля и надеяться, что очередная “революция” в мире ИИ не окажется просто очередным маркетинговым ходом. А пока, можно спокойно продолжать писать код своими руками, ведь кто знает, когда эти самые нейросети решат, что ваш код недостаточно “оптимизирован”.