31 подписчик

Китай представил ИИ-модель DeepSeek V3: быстрее GPT-4o и дешевле в обучении

16 января 202516 янв 2025

1 мин

Китайская компания DeepSeek выпустила новую открытую модель искусственного интеллекта DeepSeek V3. Она превосходит большинство конкурентов, включая OpenAI GPT-4o, по скорости и эффективности. Лицензия позволяет использовать модель бесплатно, включая коммерческие проекты. DeepSeek V3 отлично справляется с обработкой текста, включая: В тестах, включая Aider Polyglot, модель показала высокую эффективность в создании кода для реальных проектов. В задачах программирования она обошла Meta Llama 3.1, GPT-4o и Alibaba Qwen 2.5. Большой объём параметров делает DeepSeek V3 способной решать сложные задачи, но требует значительных вычислительных ресурсов. DeepSeek V3 настроена так, чтобы избегать вопросов, которые китайские власти считают спорными. DeepSeek поддерживает китайский хедж-фонд High-Flyer Capital Management, который инвестирует в разработку сверхразумного ИИ. У фонда есть мощные кластеры для обучения моделей, включая системы с 10 000 ускорителей Nvidia A100. DeepSeek V3 — это шаг впер

Оглавление

Что умеет DeepSeek V3
Технические характеристики
Политкорректность

Что умеет DeepSeek V3

DeepSeek V3 отлично справляется с обработкой текста, включая:

Написание статей и писем,
Переводы,
Генерацию программного кода.

В тестах, включая Aider Polyglot, модель показала высокую эффективность в создании кода для реальных проектов. В задачах программирования она обошла Meta Llama 3.1, GPT-4o и Alibaba Qwen 2.5.

Технические характеристики

Объём данных для обучения: 14,8 трлн записей.
Размер модели: 685 млрд параметров (в 1,6 раза больше Llama 3.1 с 405 млрд).
Обучение: Заняло 2 месяца на ускорителях Nvidia H800
Стоимость обучения: $5,5 млн — значительно дешевле аналогичных моделей OpenAI.

Большой объём параметров делает DeepSeek V3 способной решать сложные задачи, но требует значительных вычислительных ресурсов.

Политкорректность

DeepSeek V3 настроена так, чтобы избегать вопросов, которые китайские власти считают спорными.

Кто стоит за проектом

DeepSeek поддерживает китайский хедж-фонд High-Flyer Capital Management, который инвестирует в разработку сверхразумного ИИ. У фонда есть мощные кластеры для обучения моделей, включая системы с 10 000 ускорителей Nvidia A100.

Итог

DeepSeek V3 — это шаг вперёд в развитии открытых ИИ-моделей. Она сочетает высокую производительность с доступностью, что делает её сильным конкурентом на мировом рынке ИИ.