Наконец, OpenAI представила o3-mini, и теперь у пользователей ChatGPT есть возможность опробовать несколько бесплатных запросов. Но главный вопрос остаётся прежним:
«Лучше ли OpenAI o3-mini по сравнению с DeepSeek-R1?»
Хотя официальных сравнительных тестов от команды OpenAI пока не опубликовано, уже появляются независимые бенчмарки, согласно которым модель OpenAI o3-mini-high демонстрирует несколько лучшие результаты, чем DeepSeek-R1. Ниже приведён подробный разбор по основным показателям.
LiveBench
Глобальный средний балл:
- OpenAI o3-mini: 73.94
- DeepSeek-R1: 71.38
Анализ:
У модели o3-mini немного выше глобальный средний балл, что говорит о её слегка лучшей общей производительности по широкому спектру задач.
Средний балл по рассуждениям:
- OpenAI o3-mini: 89.58
- DeepSeek-R1: 83.17
Анализ:
Здесь o3-mini явно выигрывает — модель демонстрирует значительно лучшие способности к анализу, пониманию и логическим выводам.
Средний балл по программированию:
- OpenAI o3-mini: 82.74
- DeepSeek-R1: 66.74
Анализ:
В области решения задач по кодированию o3-mini имеет существенное преимущество, что свидетельствует о её более глубоких знаниях в программировании.
Средний балл по математике:
- OpenAI o3-mini: 65.65
- DeepSeek-R1: 79.54
Анализ:
Интересно, что в математических задачах ситуация обратная — DeepSeek-R1 превосходит o3-mini, демонстрируя более сильные навыки числовых рассуждений и решения математических проблем.
Средний балл по анализу данных:
- OpenAI o3-mini: 70.64
- DeepSeek-R1: 69.78
Анализ:
Здесь o3-mini имеет незначительное преимущество, что говорит о чуть лучшей способности интерпретировать и обрабатывать наборы данных.
Средний балл по языковым задачам:
- OpenAI o3-mini: 50.68
- DeepSeek-R1: 48.53
Анализ:
Модель o3-mini также немного опережает DeepSeek-R1 в лингвистических задачах, хотя разница остаётся скромной.
IF (интегральный фактор) средний балл:
- OpenAI o3-mini: 84.36
- DeepSeek-R1: 80.51
Анализ:
Более высокий IF балл у o3-mini указывает на её общую эффективность при выполнении широкого круга задач.
NYT Connections (пазлы)
- OpenAI o3-mini: 72.4
- DeepSeek-R1: 54.4
Анализ:
Модель o3-mini занимает одну из лидирующих позиций по решению пазлов, опережая DeepSeek-R1 примерно на 18 пунктов. Это демонстрирует её высокую способность разгадывать логические и интеллектуальные задачи.
Humanity’s Last Exam
Точность (%):
- o3-mini (high): 13.0%
- DeepSeek-R1: 9.4%
Анализ:
Модель o3-mini показывает более высокую точность, что говорит о её лучшей способности давать правильные ответы в рамках данного теста.
Ошибка калибровки (%):
- o3-mini (high): 93.2%
- DeepSeek-R1: 81.8%
Анализ:
Ошибка калибровки измеряет, насколько уверенность модели соответствует фактической правильности её ответов. Здесь DeepSeek-R1 выигрывает, так как меньший процент ошибки свидетельствует о лучшей «калибровке» модели. То есть, DeepSeek-R1 более точно оценивает свои возможности и вероятность правильного ответа.
Прочие бенчмарки
- AIME 2024:
O3-mini превосходит R1 в понимании сложных инструкций, хотя требует высоких усилий для рассуждений. - SWE-bench Verified:
O3-mini опережает R1 с разницей в 0.1 балла, опять же демонстрируя высокую требовательность к рассуждениям. - Codeforces:
O3-mini показывает лучшие результаты по сравнению с R1. - SWE-bench Benchmark:
O3-mini также лидирует по данному показателю. - AIME Benchmark:
O3-mini вновь выходит вперёд по сравнению с R1.
Стоимость использования API
Несмотря на то, что o3-mini позиционируется как доступная модель, её тарифы всё же выше, чем у DeepSeek-R1.
- DeepSeek-R1:$0.14 за миллион кэшированных входных токенов
$2.19 за миллион выходных токенов - OpenAI o3-mini:$0.55 за миллион кэшированных входных токенов
$4.40 за миллион выходных токенов
(Примечание: миллион токенов примерно соответствует 750,000 словам.)
Анализ:
DeepSeek-R1 оказывается более экономичным вариантом, что делает его привлекательным для пользователей, ориентированных на оптимизацию затрат.
Open-source аспект
Ещё одно важное отличие:
- DeepSeek-R1 — полностью открытый проект, что позволяет детально изучать и модифицировать модель.
- OpenAI o3-mini — как и большинство моделей OpenAI, остаётся закрытым и недоступным в открытом доступе.
Вывод
Преимущества OpenAI o3-mini:
- Лучше работает в задачах рассуждения, программирования и общего исполнения.
- Выше глобальные и интегральные баллы, что свидетельствует о её универсальности.
Преимущества DeepSeek-R1:
- Превосходит o3-mini в математических задачах.
- Демонстрирует лучшую калибровку уверенности ответов.
- Более доступен по стоимости использования API.
- Полностью open-source, что даёт пользователям полный контроль и прозрачность.
Итак, что предпочесть?
Если для вас критичны высокие результаты в рассуждениях, программировании и общем выполнении задач, то OpenAI o3-mini выглядит предпочтительнее. Однако если вы ориентируетесь на бюджет, требуете лучшей математической производительности, а также цените открытость и возможность модификации модели, то DeepSeek-R1 — отличный выбор.
Какой вариант вам ближе: надежный, но закрытый o3-mini от OpenAI или экономичный, открытый DeepSeek-R1? Выбор остаётся за вами!