Найти в Дзене
OVERCLOCKERS.RU

Обновлённая DeepSeek R1 почти догнала в тестах платный ChatGPT

Компания DeepSeek выпустила первое крупное обновление для своей нейросети R1, которая была представлена ещё в январе и принесла китайскому стартапу большую известность. Обновлённая большая языковая модель стала доступна пользователям ещё вчера вечером, а сегодня компания в краткой заметке поделилась основными новшествами. Любопытно, что разработчики называют обновление минорным, то есть небольшим, хотя разница в тестах говорит об обратном. Для демонстрации прогресса с января DeepSeek выбрали шесть ключевых бенчмарков. Это AIME 2024 и 2025, включающие в себя олимпиадные математические задачи. Также используются LiveCodeBench и Aider, проверяющие навыки программирования. Рядовым пользователям особое внимание стоит обратить на GPQA Diamond и Humanity's Last Exam. Первый оценивает научные знания и возможность рассуждать. Второй является уникальным сборником из 2500 разнообразных сложных задач, на котором лучшие нейросети 2024 года не могли набрать более 8% (столько набирала лишь модель o1

Компания DeepSeek выпустила первое крупное обновление для своей нейросети R1, которая была представлена ещё в январе и принесла китайскому стартапу большую известность.

Обновлённая большая языковая модель стала доступна пользователям ещё вчера вечером, а сегодня компания в краткой заметке поделилась основными новшествами. Любопытно, что разработчики называют обновление минорным, то есть небольшим, хотя разница в тестах говорит об обратном.

Для демонстрации прогресса с января DeepSeek выбрали шесть ключевых бенчмарков. Это AIME 2024 и 2025, включающие в себя олимпиадные математические задачи. Также используются LiveCodeBench и Aider, проверяющие навыки программирования.

Рядовым пользователям особое внимание стоит обратить на GPQA Diamond и Humanity's Last Exam. Первый оценивает научные знания и возможность рассуждать. Второй является уникальным сборником из 2500 разнообразных сложных задач, на котором лучшие нейросети 2024 года не могли набрать более 8% (столько набирала лишь модель o1 от OpenAI, остальные – 4% и ниже).

В качестве оппонентов своей новой R1 команда DeepSeek выбрала в первую очередь o3 от OpenAI. Эта модель на данный момент является самой сильной у авторов ChatGPT и доступна исключительно на платных тарифах. Ещё в конкуренты была взята лучшая актуальная система Google – Gemini 2.5 Pro, а также наиболее сильная версия Qwen 3 от Alibaba. Наконец, через тесты вновь прошла и оригинальная январская версия DeepSeek R1.

-2

Во всех шести испытаниях майская DeepSeek R1 0528 весьма ощутимо превосходит предшественника. Нейросеть решает уже около 90% олимпиадных задач по математике, хотя январская версия могла справиться только с 70-80%. Особо впечатляют результаты в Humanity's Last Exam, которые за 4 месяца выросли более чем вдвое (до 17,7%). С другой стороны, сам тест всё ещё является одним из наиболее сложных для современных нейросетей.

Стоит заметить, что новая DeepSeek R1 практически догнала в бенчмарках лучшую нейросеть OpenAI. Во всех тестах кроме Aider отставание весьма незначительное. Но разница в том, что на сайте DeepSeek любой пользователь может использовать R1 бесплатно, в то время как o3 для ChatGPT доступна исключительно на платных подписках от 20 долларов в месяц и 200 долларов в месяц, если нужен безлимитный доступ.

Помимо прироста в тестах команда DeepSeek обещает для обновлённой R1 уменьшенное число галлюцинаций и новые функции для разработчиков. С другой стороны, OpenAI всё ещё сильно впереди по различным дополнительным функциям, включая голосовой режим и генерацию картинок.

Обе компании, кажется, готовятся к более существенным релизам летом. Возможно, именно поэтому DeepSeek называют нынешнее обновление минорным. Судя по всему, команда уже готовит версию R2. В свою очередь, OpenAI намерена в скором времени выпустить o3 Pro и семейство моделей GPT-5.

📃 Читайте далее на сайте