Добавить в корзинуПозвонить
Найти в Дзене
Social Mebia Systems

OpenAI "перевернула стол": новая модель превзошла Google, а цены на o3 упали до "дна"

Мощнее, но медленнее. 11 июня, после 9-часового сбоя в работе ChatGPT, которым пользуются миллиарды людей, OpenAI объявила в социальной сети X о выпуске o3-pro, улучшенной версии самой мощной модели логического вывода OpenAI. Спустя два часа OpenAI объявила, что o3-pro доступна всем пользователям ChatGPT и API Pro. Чтобы удовлетворить потребности пользователей Plus, OpenAI решила увеличить лимит использования для пользователей Plus со 100 до 200 раз в неделю. Выпуск o3-pro был совершенно неожиданным. Генеральный директор OpenAI Сэм Альтман сказал, что был совершенно поражён, когда впервые увидел процент побед o3-pro над o3. В официальном заявлении говорится, что o3-pro предназначена для увеличения времени обдумывания и предоставления наиболее надёжных ответов. Эксперты единогласно признали, что o3-pro превосходит o3 во всех категориях тестирования, особенно в таких ключевых областях, как наука, образование, программирование, бизнес и помощь в написании текстов. Каждый выпуск OpenAI при

Мощнее, но медленнее.

11 июня, после 9-часового сбоя в работе ChatGPT, которым пользуются миллиарды людей, OpenAI объявила в социальной сети X о выпуске o3-pro, улучшенной версии самой мощной модели логического вывода OpenAI.

Спустя два часа OpenAI объявила, что o3-pro доступна всем пользователям ChatGPT и API Pro. Чтобы удовлетворить потребности пользователей Plus, OpenAI решила увеличить лимит использования для пользователей Plus со 100 до 200 раз в неделю.

Выпуск o3-pro был совершенно неожиданным. Генеральный директор OpenAI Сэм Альтман сказал, что был совершенно поражён, когда впервые увидел процент побед o3-pro над o3. В официальном заявлении говорится, что o3-pro предназначена для увеличения времени обдумывания и предоставления наиболее надёжных ответов.

Эксперты единогласно признали, что o3-pro превосходит o3 во всех категориях тестирования, особенно в таких ключевых областях, как наука, образование, программирование, бизнес и помощь в написании текстов.

Каждый выпуск OpenAI привлекает внимание отрасли, особенно после того, как Google с помощью Gemini 2.5 Pro наверстала упущенное и догнала отрасль. Как OpenAI покажет себя на этот раз?

Мощнее, но медленнее

В официальном заявлении OpenAI говорится, что o3-pro так же хороша, как и o1-pro, в математике, науке и программировании. Как и o3, o3-pro отлично использует инструменты, такие как поиск в Интернете, анализ файлов, логический вывод визуального ввода, использование Python, персонализация ответов с использованием памяти и т. д.

Более строгая оценка "надёжности 4/4" (то есть модель считается успешной, только если она правильно отвечает на вопрос в четырёх попытках) показала, что o3-pro превосходит o1-pro и o3 (Medium) в математическом тесте AIME 2024, научном тесте докторского уровня GPQA Diamond и конкурсе по программированию.

В отчёте Artificial Analysis отмечается, что o3-pro немного опережает Gemini 2.5 pro по уровню интеллекта.

-2

Согласно документации модели, o3-pro поддерживает два режима ввода: текст и изображение, размер контекстного окна составляет 200k, а максимальное количество выходных токенов — 100k. o3-pro не имеет преимуществ в контекстном окне и даже уступает Gemini 2.0 Pro Experimental и Gemini 1.5 Pro.

Срок действия знаний o3-Pro истекает 1 июня 2024 года, и сама по себе она не обладает информацией за последний год, но пользователи могут предоставить ей больше контекста с помощью таких инструментов, как поиск и базы знаний.

В настоящее время у o3-pro есть некоторые ограничения: функция временного чата отключена; o3-pro не поддерживает генерацию изображений, пользователи могут выбрать GPT-4o, OpenAI o3 или OpenAI o4-mini для создания изображений; в настоящее время она также не поддерживает Canvas.

В полузакрытой оценке ARC-AGI (тест на общие возможности искусственного интеллекта) o3-pro прошла 59,3% сложных задач ARC-AGI-1; в ARC-AGI-2 её уровень прохождения всех задач логического вывода составил всего 4,9%, что немного ниже, чем у o3 (High). Это показывает, что даже самая мощная модель логического вывода по-прежнему значительно отстаёт от человеческих возможностей.

Пользовательские тесты: поляризация

По мнению пользователей, наиболее очевидной особенностью o3-pro является медлительность. Один пользователь опубликовал в X сообщение о том, что o3-Pro потребовалось почти 4 минуты, чтобы ответить просто "ПРИВЕТ". В других моделях такой ответ обычно занимает несколько секунд.

Во время второго теста это заняло 13 минут 28 секунд. Медленная скорость ответа o3-pro заставила многих пользователей усомниться, но OpenAI объяснила это при выпуске модели, заявив, что, поскольку o3-pro может использовать инструменты, ответы обычно занимают больше времени, чем o1-pro. Официально рекомендуется использовать её для сложных задач, где надёжность важнее скорости.

Другими словами, o3-pro может лучше подходить для решения сложных задач, таких как планы проектов, интеграция нескольких файлов и т. д. Если вам нужны только повседневные вопросы, случайные разговоры или быстрое создание контента, вы можете выбрать более дешёвую и быструю o3.

В математических задачах o3-pro действительно соответствует тому, что заявила компания. Генеральный директор HyperWrite AI Мэтт Шуммер продемонстрировал в X, как он использовал o3-pro для решения математической задачи с логическими способностями. Он спросил по-английски: "Сколько слов в вашем ответе?", это вопрос, который легко может запутать большую модель. Большая модель должна подсчитать количество слов в ответе, некоторые модели могут ответить количеством слов в подсказке, но o3-pro дала правильный ответ.

Что касается возможностей программирования, пользователь X Flowers ввёл те же подсказки в Claude 4 и o3-pro, надеясь, что они создадут игру с прыгающим мячом. Результат: хотя у первой был красивый интерфейс, она совершенно не работала. Последняя же могла работать правильно.

Первый в мире рецензент o3-pro, Bilglin Ibryam, сказал, что o3-pro очень хороша в анализе и использовании инструментов, но не очень хороша в непосредственном выполнении задач. По его мнению, o3-pro будет отличным инструментом координации.

Он разобрал составные элементы и принципы проектирования подсказок o1 и o3-pro, показав, что последней требуется достаточно много справочной информации для объяснения требований, иначе модель действительно может слишком много думать.

YouTube-блогер Бижан Боуэн провёл практический опыт, он хотел, чтобы ChatGPT использовал HTML, JAVA, CSS для создания эмулятора операционной системы на основе браузера в стиле ретро-операционной системы, но через 5 минут ChatGPT предоставил только следующую информацию, то есть всё ещё думает.

-3

Через 14 минут 13 секунд ChatGPT сгенерировал браузер, который можно было перемещать, с датой, панелью диалога и возможностью открывать приложения, что в целом соответствовало ожиданиям автора. Помимо слишком долгого времени ожидания, Бижан Боуэн был вполне доволен результатом o3-pro.

Более частые обновления, более дешёвые большие модели

В 2025 году конкуренция в области больших моделей становится всё более жёсткой. Очевидным проявлением этого является то, что частота обновления моделей OpenAI явно выше, чем в 2024 году, включая оптимизацию основных моделей (o3-Pro, GPT-4.1), улучшение голосового взаимодействия, расширение мультимодальности и т. д., а также принятие более агрессивных стратегий вывода из эксплуатации, таких как быстрое прекращение использования GPT-4.5.

С другой стороны, в марте этого года Google, которая отставала в области больших моделей, выпустила большую языковую модель Gemini 2.5 Pro, которая обеспечивала почти такую же производительность, как и самая мощная модель логического вывода OpenAI o3, за восьмую часть цены, и эта модель обновлялась почти каждый месяц с момента её запуска.

Чтобы справиться с конкуренцией, OpenAI должна быстро реагировать. Одним из главных преимуществ o3-pro является цена: 20 долларов США за миллион токенов на входе и 80 долларов США за миллион токенов на выходе. По сравнению с o1-pro цена значительно снизилась. Это также означает, что o1-pro, скорее всего, будет быстро выведена из эксплуатации.

-4

В ходе внутренних тестов o3-pro превзошла Gemini 2.5 Pro от Google в математическом тесте AIME 2024 и победила Claude 4 Opus от Anthropic в научном тесте докторского уровня GPQA Diamond.

Будучи самой мощной моделью логического вывода OpenAI, o3 не получила широкого распространения среди разработчиков из-за своей цены, что дало пространство для Gemini 2.5 pro. Поэтому в день выпуска o3-pro генеральный директор OpenAI Сэм Альтман объявил о снижении цены на o3 на 80%: 2 доллара США за миллион токенов на выходе и 8 долларов США за миллион токенов на входе.

Artificial Analysis показывает, что после снижения цены сумма, уплаченная за каждые 100 токенов, введённых в o3, немного ниже, чем у Gemini 2.5 pro, хотя последняя немного выше по уровню интеллекта.

Многие пользователи говорят, что с инновациями в технологии AI стоимость вызова моделей для пользователей в будущем неизбежно будет становиться всё ниже и ниже. Неудивительно, что в будущем будет запущено всё больше моделей с более выдающимися возможностями и более выгодными ценами.