1856 подписчиков

Новая модель DeepSeek на подходе: код «MODEL1» намекает на свежую архитектуру и возможный релиз в феврале

21 января21 янв

113

1 мин

По слухам, DeepSeek готовит свою следующую флагманскую ИИ-модель. Обнаруженный в коде новый идентификатор указывает на переработанную архитектуру и возможное представление в феврале на фоне слухов о DeepSeek V4 с улучшенными возможностями кодирования. 21 января появились новые сведения, свидетельствующие о том, что компания DeepSeek может представить свою флагманскую модель искусственного интеллекта следующего поколения, DeepSeek V4, в середине февраля, во время празднования Лунного Нового года. Ожидается, что новая модель продемонстрирует значительно улучшенные возможности в области программирования. 20 января, в первую годовщину выпуска DeepSeek-R1, разработчики заметили, что DeepSeek обновила большой массив кода FlashMLA на GitHub. В 114 файлах 28 раз встречался неизвестный идентификатор большой модели с пометкой «MODEL1». Этот идентификатор упоминается наряду с существующей моделью «V32» (DeepSeek-V3.2) или явно отличается от нее. Основываясь на контекстуальном анализе кода, «MODEL

21 января появились новые сведения, свидетельствующие о том, что компания DeepSeek может представить свою флагманскую модель искусственного интеллекта следующего поколения, DeepSeek V4, в середине февраля, во время празднования Лунного Нового года. Ожидается, что новая модель продемонстрирует значительно улучшенные возможности в области программирования.

20 января, в первую годовщину выпуска DeepSeek-R1, разработчики заметили, что DeepSeek обновила большой массив кода FlashMLA на GitHub. В 114 файлах 28 раз встречался неизвестный идентификатор большой модели с пометкой «MODEL1».

Этот идентификатор упоминается наряду с существующей моделью «V32» (DeepSeek-V3.2) или явно отличается от нее. Основываясь на контекстуальном анализе кода, «MODEL1», по общему мнению, представляет собой новую модель, построенную на иной архитектуре, а не незначительную итерацию текущего поколения.

Разработчики, анализировавшие код, обнаружили заметные технические различия между «MODEL1» и «V32», особенно в компоновке кэша ключ-значение (KV), обработке разреженности (sparsity) и поддержке декодирования формата данных FP8. Эти изменения позволяют предположить, что новая архитектура, возможно, специально разработана для повышения эффективности использования памяти и вычислительной производительности.

Ранее исследовательская группа DeepSeek опубликовала две технические работы, в которых был представлен новый метод обучения под названием «Модифицированные иерархические соединения» (mHC) и вдохновленный биологией модуль памяти ИИ, известный как «Энграмма» (Engram). Эти публикации подогрели слухи о том, что будущая модель DeepSeek может интегрировать эти новейшие достижения в области исследований. Подробности ожидаются в ближайшее время.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Автор – Pandaily

Оригинал статьи

Электроника

81,9 тыс интересуются