Найти в Дзене
Innovate Today

OpenAI o3-mini vs DeepSeek-R1: сравнительный анализ

Наконец, OpenAI представила o3-mini, и теперь у пользователей ChatGPT есть возможность опробовать несколько бесплатных запросов. Но главный вопрос остаётся прежним:
«Лучше ли OpenAI o3-mini по сравнению с DeepSeek-R1?» Хотя официальных сравнительных тестов от команды OpenAI пока не опубликовано, уже появляются независимые бенчмарки, согласно которым модель OpenAI o3-mini-high демонстрирует несколько лучшие результаты, чем DeepSeek-R1. Ниже приведён подробный разбор по основным показателям.
Глобальный средний балл: Анализ:
У модели o3-mini немного выше глобальный средний балл, что говорит о её слегка лучшей общей производительности по широкому спектру задач. Средний балл по рассуждениям: Анализ:
Здесь o3-mini явно выигрывает — модель демонстрирует значительно лучшие способности к анализу, пониманию и логическим выводам. Средний балл по программированию: Анализ:
В области решения задач по кодированию o3-mini имеет существенное преимущество, что свидетельствует о её более глубоких знани
Оглавление
Фото сделано Solen Feyissa, Unsplash
Фото сделано Solen Feyissa, Unsplash

Наконец, OpenAI представила o3-mini, и теперь у пользователей ChatGPT есть возможность опробовать несколько бесплатных запросов. Но главный вопрос остаётся прежним:
«Лучше ли OpenAI o3-mini по сравнению с DeepSeek-R1?»

Хотя официальных сравнительных тестов от команды OpenAI пока не опубликовано, уже появляются независимые бенчмарки, согласно которым модель OpenAI o3-mini-high демонстрирует несколько лучшие результаты, чем DeepSeek-R1. Ниже приведён подробный разбор по основным показателям.


LiveBench

-2


Глобальный средний балл:

  • OpenAI o3-mini: 73.94
  • DeepSeek-R1: 71.38

Анализ:
У модели o3-mini немного выше глобальный средний балл, что говорит о её слегка лучшей общей производительности по широкому спектру задач.

Средний балл по рассуждениям:

  • OpenAI o3-mini: 89.58
  • DeepSeek-R1: 83.17

Анализ:
Здесь o3-mini явно выигрывает — модель демонстрирует значительно лучшие способности к анализу, пониманию и логическим выводам.

Средний балл по программированию:

  • OpenAI o3-mini: 82.74
  • DeepSeek-R1: 66.74

Анализ:
В области решения задач по кодированию o3-mini имеет существенное преимущество, что свидетельствует о её более глубоких знаниях в программировании.

Средний балл по математике:

  • OpenAI o3-mini: 65.65
  • DeepSeek-R1: 79.54

Анализ:
Интересно, что в математических задачах ситуация обратная — DeepSeek-R1 превосходит o3-mini, демонстрируя более сильные навыки числовых рассуждений и решения математических проблем.

Средний балл по анализу данных:

  • OpenAI o3-mini: 70.64
  • DeepSeek-R1: 69.78

Анализ:
Здесь o3-mini имеет незначительное преимущество, что говорит о чуть лучшей способности интерпретировать и обрабатывать наборы данных.

Средний балл по языковым задачам:

  • OpenAI o3-mini: 50.68
  • DeepSeek-R1: 48.53

Анализ:
Модель o3-mini также немного опережает DeepSeek-R1 в лингвистических задачах, хотя разница остаётся скромной.

IF (интегральный фактор) средний балл:

  • OpenAI o3-mini: 84.36
  • DeepSeek-R1: 80.51

Анализ:
Более высокий IF балл у o3-mini указывает на её общую эффективность при выполнении широкого круга задач.

NYT Connections (пазлы)

-3

  • OpenAI o3-mini: 72.4
  • DeepSeek-R1: 54.4

Анализ:
Модель o3-mini занимает одну из лидирующих позиций по решению пазлов, опережая DeepSeek-R1 примерно на 18 пунктов. Это демонстрирует её высокую способность разгадывать логические и интеллектуальные задачи.

Humanity’s Last Exam

-4

Точность (%):

  • o3-mini (high): 13.0%
  • DeepSeek-R1: 9.4%

Анализ:
Модель o3-mini показывает более высокую точность, что говорит о её лучшей способности давать правильные ответы в рамках данного теста.

Ошибка калибровки (%):

  • o3-mini (high): 93.2%
  • DeepSeek-R1: 81.8%

Анализ:
Ошибка калибровки измеряет, насколько уверенность модели соответствует фактической правильности её ответов. Здесь DeepSeek-R1 выигрывает, так как меньший процент ошибки свидетельствует о лучшей «калибровке» модели. То есть, DeepSeek-R1 более точно оценивает свои возможности и вероятность правильного ответа.

Прочие бенчмарки

-5
-6
-7

  • AIME 2024:
    O3-mini превосходит R1 в понимании сложных инструкций, хотя требует высоких усилий для рассуждений.
  • SWE-bench Verified:
    O3-mini опережает R1 с разницей в 0.1 балла, опять же демонстрируя высокую требовательность к рассуждениям.
  • Codeforces:
    O3-mini показывает лучшие результаты по сравнению с R1.
  • SWE-bench Benchmark:
    O3-mini также лидирует по данному показателю.
  • AIME Benchmark:
    O3-mini вновь выходит вперёд по сравнению с R1.

Стоимость использования API

Несмотря на то, что o3-mini позиционируется как доступная модель, её тарифы всё же выше, чем у DeepSeek-R1.

  • DeepSeek-R1:$0.14 за миллион кэшированных входных токенов
    $2.19 за миллион выходных токенов
  • OpenAI o3-mini:$0.55 за миллион кэшированных входных токенов
    $4.40 за миллион выходных токенов
    (Примечание: миллион токенов примерно соответствует 750,000 словам.)

Анализ:
DeepSeek-R1 оказывается более экономичным вариантом, что делает его привлекательным для пользователей, ориентированных на оптимизацию затрат.

Open-source аспект

Ещё одно важное отличие:

  • DeepSeek-R1 — полностью открытый проект, что позволяет детально изучать и модифицировать модель.
  • OpenAI o3-mini — как и большинство моделей OpenAI, остаётся закрытым и недоступным в открытом доступе.

Вывод

Преимущества OpenAI o3-mini:

  • Лучше работает в задачах рассуждения, программирования и общего исполнения.
  • Выше глобальные и интегральные баллы, что свидетельствует о её универсальности.

Преимущества DeepSeek-R1:

  • Превосходит o3-mini в математических задачах.
  • Демонстрирует лучшую калибровку уверенности ответов.
  • Более доступен по стоимости использования API.
  • Полностью open-source, что даёт пользователям полный контроль и прозрачность.

Итак, что предпочесть?
Если для вас критичны высокие результаты в рассуждениях, программировании и общем выполнении задач, то OpenAI o3-mini выглядит предпочтительнее. Однако если вы ориентируетесь на бюджет, требуете лучшей математической производительности, а также цените открытость и возможность модификации модели, то DeepSeek-R1 — отличный выбор.

Какой вариант вам ближе: надежный, но закрытый o3-mini от OpenAI или экономичный, открытый DeepSeek-R1? Выбор остаётся за вами!