Найти в Дзене
224 подписчика

💬 Успех DeepSeek: как китайская open source модель бросает вызов ChatGPT


Китайская компания DeepSeek представила новую языковую модель с открытым исходным кодом — DeepSeek V3. В отличие от многих конкурентов, она доступна для свободного использования, в том числе в коммерческих проектах.

🖥 Умелый программист

DeepSeek V3 показала себя лучше других LLM почти во всех основных бенчмарках (см. таблицу ⤴️). Особенно хорошо DeepSeek V3 справляется с программированием. В тесте Aider Polyglot, проверяющем навык ИИ писать код, который можно встроить в существующие программы, DeepSeek V3 уступает только последней версии OpenAI o1.

💰 Быстро, дешево, качественно

За этими достижениями стоит серьезная подготовка. DeepSeek V3 обучена на объеме данных в 14,8 трлн токенов. Это соответствует примерно 11,1 трлн слов — как если бы ИИ прочитал все написанные человечеством книги несколько раз подряд.

Также DeepSeek V3 крупнейшая на сегодняшний день open source модель по числу параметров — 671 млрд. Прошлый лидер, Llama 3.1, имеет всего 405 млрд. Такой объем параметров позволяет нейросети лучше понимать контекст и решать более сложные задачи, но у этого есть своя цена. Чтобы работать с приемлемой скоростью, модели требуется очень мощное «железо».

С другой стороны, DeepSeek совершили прорыв в эффективности: с помощью специализированных GPU Nvidia H800 они обучили свою модель всего за два месяца. При этом разработка DeepSeek V3 обошлась компании всего в $5,5 млн. Для сравнения: на создание GPT-4 OpenAI потребовалось около $78 млн.

👁 Идеологически подкована

Как китайская компания DeepSeek подчиняется правилам интернет-регулятора КНР. Прежде всего, компания должна гарантировать, что ответы ее моделей соответствуют ценностям правящей партии. Поэтому DeepSeek V3 очень обтекаемо отвечает на острые запросы о политическом режиме в Китае на «родном» языке. На русском и английском чат-бот гораздо охотнее рассказывает о непростых вещах, но иногда все-таки предпочитает промолчать.

➡️ Пообщаться с DeepSeek V3 бесплатно можно здесь

Подпишись👉@aisimple
💬 Успех DeepSeek: как китайская open source модель бросает вызов ChatGPT  Китайская компания DeepSeek представила новую языковую модель с открытым исходным кодом — DeepSeek V3.
1 минута