140,9 тыс подписчиков

DeepSeek представила новую технологию, позволяющую запускать крупные ИИ-модели на более дешевом оборудовании

14 января14 янв

1494

1 мин

Команда DeepSeek, стоящая за одними из самых мощных в мире ИИ-моделей с «открытым весом» (open-weight), опубликовала новую научную работу, которая может изменить представление о том, как искусственный интеллект использует память. Исследование, инициированное лично основателем компании Лян Вэньфэном, предлагает способ запускать мощные модели, расходуя значительно меньше ценной видеопамяти. Ключевая идея — технология под названием «условная память» (conditional memory). Подобно предыдущим разработкам DeepSeek в области Mixture-of-Experts (MoE), она ориентирована прежде всего на эффективность. Метод разделяет «логику» и «знания» модели, позволяя хранить основной массив данных на более дешевом и доступном оборудовании. Более того, технология обеспечивает практически мгновенный поиск по базе знаний. В то время как популярный сегодня подход retrieval-augmented generation (RAG) нередко выглядит громоздким и медленным, решение DeepSeek работает почти моментально. Это похоже на библиотеку, где

Ключевая идея — технология под названием «условная память» (conditional memory). Подобно предыдущим разработкам DeepSeek в области Mixture-of-Experts (MoE), она ориентирована прежде всего на эффективность. Метод разделяет «логику» и «знания» модели, позволяя хранить основной массив данных на более дешевом и доступном оборудовании.

Более того, технология обеспечивает практически мгновенный поиск по базе знаний. В то время как популярный сегодня подход retrieval-augmented generation (RAG) нередко выглядит громоздким и медленным, решение DeepSeek работает почти моментально. Это похоже на библиотеку, где стоит вам лишь сформулировать вопрос — и нужная книга тут же телепортируется к вам в руки, открытая на нужной странице.

DeepSeek опубликовала официальный код этой технологии под названием Engram.

«Engram позволяет модели эффективно масштабировать объем знаний… обеспечивая более высокую производительность в задачах, насыщенных знаниями, при сохранении высокой эффективности обучения и инференса», — говорится в статье.

Для пользователей это означает, что будущее ИИ, вероятно, будет дешевле, быстрее и значительно лучше в способности помнить то, что вы попросили выполнить пятьдесят запросов назад.

Нейросети и ИИ

80,9 тыс интересуются