Компания DeepSeek выпустила первое крупное обновление для своей нейросети R1, которая была представлена ещё в январе и принесла китайскому стартапу большую известность. Обновлённая большая языковая модель стала доступна пользователям ещё вчера вечером, а сегодня компания в краткой заметке поделилась основными новшествами. Любопытно, что разработчики называют обновление минорным, то есть небольшим, хотя разница в тестах говорит об обратном. Для демонстрации прогресса с января DeepSeek выбрали шесть ключевых бенчмарков. Это AIME 2024 и 2025, включающие в себя олимпиадные математические задачи. Также используются LiveCodeBench и Aider, проверяющие навыки программирования. Рядовым пользователям особое внимание стоит обратить на GPQA Diamond и Humanity's Last Exam. Первый оценивает научные знания и возможность рассуждать. Второй является уникальным сборником из 2500 разнообразных сложных задач, на котором лучшие нейросети 2024 года не могли набрать более 8% (столько набирала лишь модель o1