Добавить в корзинуПозвонить
Найти в Дзене
ProAi

DeepSeek: Революция в открытом искусственном интеллекте

Новая версия модели рассуждений DeepSeek-R1-0528 становится настоящим открытием, демонстрируя значительные прорывы в области логического мышления и приближаясь к ведущим игрокам, таким как OpenAI o3 и Google Gemini 2.5 Pro. Ключевым моментом является то, что, в отличие от закрытых решений конкурентов, DeepSeek предоставляет открытый доступ к весам своей модели. В обновленной версии DeepSeek-R1-0528 были реализованы значительные архитектурные улучшения: количество параметров увеличилось с 671 миллиарда до 685 миллиардов. Основные изменения касаются алгоритмических оптимизаций в процессе последующего обучения, что дало возможность модели значительно углубить свои рассуждения. Результаты поражают: в тесте AIME 2025 точность модели возросла с 70% в предыдущей версии до 87.5% в актуальной. Это достижение стало возможным благодаря увеличению глубины анализа: если раньше модель использовала в среднем 12K токенов для решения задачи, то новая версия потребляет 23K токенов на вопрос. Максимальна
Оглавление
   DeepSeek: Революция в открытом искусственном интеллекте
DeepSeek: Революция в открытом искусственном интеллекте

Китайская компания DeepSeek продолжает впечатлять AI-сообщество

Новая версия модели рассуждений DeepSeek-R1-0528 становится настоящим открытием, демонстрируя значительные прорывы в области логического мышления и приближаясь к ведущим игрокам, таким как OpenAI o3 и Google Gemini 2.5 Pro. Ключевым моментом является то, что, в отличие от закрытых решений конкурентов, DeepSeek предоставляет открытый доступ к весам своей модели.

DeepSeek-R1-0528: Технический прорыв

В обновленной версии DeepSeek-R1-0528 были реализованы значительные архитектурные улучшения: количество параметров увеличилось с 671 миллиарда до 685 миллиардов. Основные изменения касаются алгоритмических оптимизаций в процессе последующего обучения, что дало возможность модели значительно углубить свои рассуждения.

Результаты поражают: в тесте AIME 2025 точность модели возросла с 70% в предыдущей версии до 87.5% в актуальной. Это достижение стало возможным благодаря увеличению глубины анализа: если раньше модель использовала в среднем 12K токенов для решения задачи, то новая версия потребляет 23K токенов на вопрос. Максимальная длина генерации составляет 64K токенов. Кроме того, разработчики снизили частоту галлюцинаций, улучшили поддержку вызова функций и оптимизировали генерацию кода. Модель демонстрирует выдающиеся результаты в математике, программировании и общей логике.

Важно отметить, что новая модель доступна напрямую на платформе DeepSeek. Хотя сама по себе модель не осознает, кем она является, пользователи могут взаимодействовать с ней. На вопрос о текущей версии модели DeepSeek-R1-0528 не удается получить ответ из-за особенностей ее обучения.

Дистиллированная версия: мощность в компактном формате

В дополнение к основной модели, DeepSeek представила дистиллированную версию под названием DeepSeek-R1-0528-Qwen3-8B, созданную на базе модели Qwen3-8B от Alibaba. Эта уменьшенная версия демонстрирует удивительные результаты относительно своего размера. В математическом бенчмарке AIME 2025 DeepSeek-R1-0528-Qwen3-8B обошла Google Gemini 2.5 Flash. В еще одном тесте, посвященном математическим стратегиям HMMT, модель практически достигла уровней недавно представленной Microsoft Phi 4 Plus — специализированной модели рассуждений от Microsoft.

Процесс создания дистиллированной версии включал в себя генерацию текстов основной моделью R1-0528 с последующим тонким настроением Qwen3-8B на этих данных. В результате получилась компактная модель, обладающая значительной частью возможностей своего более крупного аналога при гораздо меньших требованиях к ресурсам.

Вычислительная эффективность и доступность

Главным преимуществом дистиллированной версии является существенное снижение требований к вычислительным ресурсам. По информации облачной платформы NodeShift, DeepSeek-R1-0528-Qwen3-8B может функционировать на одном GPU с объемом памяти от 40 до 80GB (например, Nvidia H100). Для сравнения, полноразмерная R1-0528 требует около дюжины GPU с объемом памяти 80GB каждый.

Обе модели доступны под лицензией MIT, что позволяет использовать их в коммерческих проектах без каких-либо ограничений. DeepSeek-R1-0528-Qwen3-8B уже интегрирована в несколько платформ, в том числе LM Studio, и доступна через API. На Hugging Face модель позиционируется как решение для академических исследований и промышленного использования малых моделей.

Дальнейшие перспективы развития

Успех DeepSeek ставит под сомнение доминирование закрытых моделей OpenAI и Google. Эта китайская компания показывает, что качественные решения в области рассуждений могут быть одновременно открытыми, доступными и эффективными. Философия открытого ИИ предоставляет исследователям возможность изучать архитектуру, модифицировать модели и внедрять их в собственные проекты.

Тем не менее, несмотря на технические достижения, у моделей DeepSeek есть свои ограничения. Разработчики отмечают, что новая версия демонстрирует более строгую цензуру содержания, что в ряде случаев может стать препятствием для использования модели в различных регионах мира. Однако выпуск R1-0528 и дистиллированной версии представляют собой важный шаг вперед в развитии открытого искусственного интеллекта.

Очевидно, что успех DeepSeek усиливает конкуренцию на рынке ИИ-моделей и заставляет пересмотреть традиционные представления о необходимости массивных ресурсов для создания продвинутого искусственного интеллекта. Компания демонстрирует, что инновации в архитектуре зачастую могут иметь большее значение, чем просто вычислительная мощность. Появление эффективных открытых моделей создает условия для более широкого внедрения ИИ в различных областях. Эти решения предоставляют стартапам доступ к технологиям, сравнимым с возможностями технологических гигантов, а отдельным разработчикам — платформу для создания специализированных решений.

DeepSeek R1-0528 и её дистиллированная версия знаменуют новый этап в демократизации искусственного интеллекта. Новые модели делают передовые технологии доступными для более широкой аудитории и открывают путь для инноваций в самых различных сферах.

Эти достижения открывают не только новые горизонты для исследователей, но и предоставляют непередаваемые возможности для тех, кто стремится внедрить ИИ в свою работу.🔔 Чтобы узнать больше и следить за новостями из мира ИИ, подпишитесь на мой канал “ProAI” в Telegram!