Добавить в корзинуПозвонить
Найти в Дзене
DigiNews

DeepSeek тестирует модель с контекстным окном 1M: индустрия ждет релиз к Китайскому Новому году

13 февраля DeepSeek начал тестирование новой модели с 1 млн токенов, подогревая слухи о крупном релизе к Китайскому Новому году, который может повторить прошлогодний успех. — pandaily.com 13 февраля DeepSeek начал тестирование новой модели с длинным контекстом, поддерживающей 1 миллион токенов, в своих веб- и мобильных версиях, в то время как его API-сервис остается на уровне V3.2 со 128 тыс. контекста. Отраслевые наблюдатели предполагают, что DeepSeek может представить крупный новый релиз во время предстоящего Китайского Нового года, потенциально повторив прорывной импульс, достигнутый в прошлом году. 12 января DeepSeek опубликовал новую исследовательскую работу под названием «Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models». Среди авторов указан Лян Вэньфэн. В работе представлен «условный интеллект», отделяющий хранение статических паттернов от динамических вычислений с помощью модуля Engram. При идентичном количестве параметров и ограничениях

13 февраля DeepSeek начал тестирование новой модели с 1 млн токенов, подогревая слухи о крупном релизе к Китайскому Новому году, который может повторить прошлогодний успех. — pandaily.com

13 февраля DeepSeek начал тестирование новой модели с длинным контекстом, поддерживающей 1 миллион токенов, в своих веб- и мобильных версиях, в то время как его API-сервис остается на уровне V3.2 со 128 тыс. контекста.

Отраслевые наблюдатели предполагают, что DeepSeek может представить крупный новый релиз во время предстоящего Китайского Нового года, потенциально повторив прорывной импульс, достигнутый в прошлом году.

12 января DeepSeek опубликовал новую исследовательскую работу под названием «Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models». Среди авторов указан Лян Вэньфэн.

В работе представлен «условный интеллект», отделяющий хранение статических паттернов от динамических вычислений с помощью модуля Engram. При идентичном количестве параметров и ограничениях FLOPs этот подход значительно превосходит чисто базовые модели MoE.

1 декабря прошлого года DeepSeek выпустил две официальные модели: DeepSeek-V3.2 и DeepSeek-V3.2-Speciale. Сообщается, что V3.2 достигла производительности уровня GPT-5 на публичных бенчмарках рассуждений, а V3.2-Speciale завоевала золотые медали на IMO 2025, CMO 2025, ICPC World Finals 2025 и IOI 2025.

Словарь NetEase Youdao назвал «deepseek» своим Словом года 2025, сославшись на 8 672 940 годовых поисковых запросов. По данным компании, интерес к поиску резко возрос в течение года, первоначально обусловленный «недорогим» прорывом DeepSeek в вычислительной эффективности и подкрепленный каждым крупным обновлением продукта.

Источник: The Paper

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Автор – Pandaily

Оригинал статьи

Deep Seek
20,9 тыс интересуются