Китайская компания DeepSeek выпустила новую открытую модель искусственного интеллекта DeepSeek V3. Она превосходит большинство конкурентов, включая OpenAI GPT-4o, по скорости и эффективности. Лицензия позволяет использовать модель бесплатно, включая коммерческие проекты.
Что умеет DeepSeek V3
DeepSeek V3 отлично справляется с обработкой текста, включая:
- Написание статей и писем,
- Переводы,
- Генерацию программного кода.
В тестах, включая Aider Polyglot, модель показала высокую эффективность в создании кода для реальных проектов. В задачах программирования она обошла Meta Llama 3.1, GPT-4o и Alibaba Qwen 2.5.
Технические характеристики
- Объём данных для обучения: 14,8 трлн записей.
- Размер модели: 685 млрд параметров (в 1,6 раза больше Llama 3.1 с 405 млрд).
- Обучение: Заняло 2 месяца на ускорителях Nvidia H800
- Стоимость обучения: $5,5 млн — значительно дешевле аналогичных моделей OpenAI.
Большой объём параметров делает DeepSeek V3 способной решать сложные задачи, но требует значительных вычислительных ресурсов.
Политкорректность
DeepSeek V3 настроена так, чтобы избегать вопросов, которые китайские власти считают спорными.
Кто стоит за проектом
DeepSeek поддерживает китайский хедж-фонд High-Flyer Capital Management, который инвестирует в разработку сверхразумного ИИ. У фонда есть мощные кластеры для обучения моделей, включая системы с 10 000 ускорителей Nvidia A100.
Итог
DeepSeek V3 — это шаг вперёд в развитии открытых ИИ-моделей. Она сочетает высокую производительность с доступностью, что делает её сильным конкурентом на мировом рынке ИИ.