Китайская компания DeepSeek сообщила о выпуске инновационной языковой модели DeepSeek-V3 с 685 миллиардами параметров. Архитектура этой нейросети базируется на подходе Mixture of Experts (MoE) с 256 экспертами, активация восьми из которых осуществляется при обработке каждого токена. Если сравнивать с предыдущей версией, новинка может взаимодействовать с намного большими объёмами данных, имеет расширенный словарный запас и полностью переработанную архитектуру. Нейросеть DeepSeek-V3 показала невероятно высокие результаты в ходе тестов Aider Polyglot Benchmark, в процессе которых происходит оценка ИИ-моделей в решении 225 сложных задач на языках программирования C++, Go, Java, JavaScript, Python и Rust. В процессе тестирования китайская новинка смогла успешно решить 48,4% задач, оказавшись по этому показателю на втором месте в глобальном рейтинге. Она уступила только новой версии модели o1-2024-12-17 от OpenAI с результатом 61,7%. При этом позади остались другие известные модели Claude-3-
Китайская нейросеть влетела на верхушку рейтинга лучших языковых моделей по редактированию кода
26 декабря 202426 дек 2024
34
1 мин