23 подписчика

OpenAI o3-mini vs DeepSeek-R1: сравнительный анализ

2 февраля 20252 фев 2025

4 мин

Наконец, OpenAI представила o3-mini, и теперь у пользователей ChatGPT есть возможность опробовать несколько бесплатных запросов. Но главный вопрос остаётся прежним:

«Лучше ли OpenAI o3-mini по сравнению с DeepSeek-R1?» Хотя официальных сравнительных тестов от команды OpenAI пока не опубликовано, уже появляются независимые бенчмарки, согласно которым модель OpenAI o3-mini-high демонстрирует несколько лучшие результаты, чем DeepSeek-R1. Ниже приведён подробный разбор по основным показателям.

Глобальный средний балл: Анализ:

У модели o3-mini немного выше глобальный средний балл, что говорит о её слегка лучшей общей производительности по широкому спектру задач. Средний балл по рассуждениям: Анализ:

Здесь o3-mini явно выигрывает — модель демонстрирует значительно лучшие способности к анализу, пониманию и логическим выводам. Средний балл по программированию: Анализ:

В области решения задач по кодированию o3-mini имеет существенное преимущество, что свидетельствует о её более глубоких знани

Глобальный средний балл: Анализ:

Оглавление

LiveBench
NYT Connections (пазлы)
Humanity’s Last Exam

Наконец, OpenAI представила o3-mini, и теперь у пользователей ChatGPT есть возможность опробовать несколько бесплатных запросов. Но главный вопрос остаётся прежним:
«Лучше ли OpenAI o3-mini по сравнению с DeepSeek-R1?»

Хотя официальных сравнительных тестов от команды OpenAI пока не опубликовано, уже появляются независимые бенчмарки, согласно которым модель OpenAI o3-mini-high демонстрирует несколько лучшие результаты, чем DeepSeek-R1. Ниже приведён подробный разбор по основным показателям.

LiveBench

Глобальный средний балл:

OpenAI o3-mini: 73.94
DeepSeek-R1: 71.38

Анализ:
У модели o3-mini немного выше глобальный средний балл, что говорит о её слегка лучшей общей производительности по широкому спектру задач.

Средний балл по рассуждениям:

OpenAI o3-mini: 89.58
DeepSeek-R1: 83.17

Анализ:
Здесь o3-mini явно выигрывает — модель демонстрирует значительно лучшие способности к анализу, пониманию и логическим выводам.

Средний балл по программированию:

OpenAI o3-mini: 82.74
DeepSeek-R1: 66.74

Анализ:
В области решения задач по кодированию o3-mini имеет существенное преимущество, что свидетельствует о её более глубоких знаниях в программировании.

Средний балл по математике:

OpenAI o3-mini: 65.65
DeepSeek-R1: 79.54

Анализ:
Интересно, что в математических задачах ситуация обратная — DeepSeek-R1 превосходит o3-mini, демонстрируя более сильные навыки числовых рассуждений и решения математических проблем.

Средний балл по анализу данных:

OpenAI o3-mini: 70.64
DeepSeek-R1: 69.78

Анализ:
Здесь o3-mini имеет незначительное преимущество, что говорит о чуть лучшей способности интерпретировать и обрабатывать наборы данных.

Средний балл по языковым задачам:

OpenAI o3-mini: 50.68
DeepSeek-R1: 48.53

Анализ:
Модель o3-mini также немного опережает DeepSeek-R1 в лингвистических задачах, хотя разница остаётся скромной.

IF (интегральный фактор) средний балл:

OpenAI o3-mini: 84.36
DeepSeek-R1: 80.51

Анализ:
Более высокий IF балл у o3-mini указывает на её общую эффективность при выполнении широкого круга задач.

NYT Connections (пазлы)

OpenAI o3-mini: 72.4
DeepSeek-R1: 54.4

Анализ:
Модель o3-mini занимает одну из лидирующих позиций по решению пазлов, опережая DeepSeek-R1 примерно на 18 пунктов. Это демонстрирует её высокую способность разгадывать логические и интеллектуальные задачи.

Humanity’s Last Exam

Точность (%):

o3-mini (high): 13.0%
DeepSeek-R1: 9.4%

Анализ:
Модель o3-mini показывает более высокую точность, что говорит о её лучшей способности давать правильные ответы в рамках данного теста.

Ошибка калибровки (%):

o3-mini (high): 93.2%
DeepSeek-R1: 81.8%

Анализ:
Ошибка калибровки измеряет, насколько уверенность модели соответствует фактической правильности её ответов. Здесь DeepSeek-R1 выигрывает, так как меньший процент ошибки свидетельствует о лучшей «калибровке» модели. То есть, DeepSeek-R1 более точно оценивает свои возможности и вероятность правильного ответа.

Прочие бенчмарки

AIME 2024:
O3-mini превосходит R1 в понимании сложных инструкций, хотя требует высоких усилий для рассуждений.
SWE-bench Verified:
O3-mini опережает R1 с разницей в 0.1 балла, опять же демонстрируя высокую требовательность к рассуждениям.
Codeforces:
O3-mini показывает лучшие результаты по сравнению с R1.
SWE-bench Benchmark:
O3-mini также лидирует по данному показателю.
AIME Benchmark:
O3-mini вновь выходит вперёд по сравнению с R1.

Стоимость использования API

Несмотря на то, что o3-mini позиционируется как доступная модель, её тарифы всё же выше, чем у DeepSeek-R1.

DeepSeek-R1:$0.14 за миллион кэшированных входных токенов
$2.19 за миллион выходных токенов
OpenAI o3-mini:$0.55 за миллион кэшированных входных токенов
$4.40 за миллион выходных токенов
(Примечание: миллион токенов примерно соответствует 750,000 словам.)

Анализ:
DeepSeek-R1 оказывается более экономичным вариантом, что делает его привлекательным для пользователей, ориентированных на оптимизацию затрат.

Open-source аспект

Ещё одно важное отличие:

DeepSeek-R1 — полностью открытый проект, что позволяет детально изучать и модифицировать модель.
OpenAI o3-mini — как и большинство моделей OpenAI, остаётся закрытым и недоступным в открытом доступе.

Вывод

Преимущества OpenAI o3-mini:

Лучше работает в задачах рассуждения, программирования и общего исполнения.
Выше глобальные и интегральные баллы, что свидетельствует о её универсальности.

Преимущества DeepSeek-R1:

Превосходит o3-mini в математических задачах.
Демонстрирует лучшую калибровку уверенности ответов.
Более доступен по стоимости использования API.
Полностью open-source, что даёт пользователям полный контроль и прозрачность.

Итак, что предпочесть?
Если для вас критичны высокие результаты в рассуждениях, программировании и общем выполнении задач, то OpenAI o3-mini выглядит предпочтительнее. Однако если вы ориентируетесь на бюджет, требуете лучшей математической производительности, а также цените открытость и возможность модификации модели, то DeepSeek-R1 — отличный выбор.

Какой вариант вам ближе: надежный, но закрытый o3-mini от OpenAI или экономичный, открытый DeepSeek-R1? Выбор остаётся за вами!