Добавить в корзинуПозвонить
Найти в Дзене
ТехноLOG

GPT-5 против GPT-4o: победа разума над скоростью

Цифры не врут. GPT-5 превосходит свою предшественницу GPT-4o настолько кардинально, что возникает вопрос: как OpenAI вообще решилась выпустить GPT-4o в качестве флагмана? При 74,9% успеха на SWE-bench Verified против жалких 30,8% у GPT-4o, новая модель демонстрирует 2,4-кратное улучшение в реальном программировании. Это не эволюция — это революция. Данные Analytics Vidhya и независимых бенчмарков рисуют однозначную картину. На AIME 2025 — тесте математических способностей PhD-уровня — GPT-5 достигает 94,6% против 71% у GPT-4o. Разрыв в 23,6 процентных пункта означает разницу между выпускником университета и доктором наук. GPQA Diamond, золотой стандарт научного рассуждения, показывает аналогичную пропасть: 89,4% для GPT-5 Pro с инструментами против 70,1% для GPT-4o. «Это первый раз, когда я чувствую, что могу обратиться к ней как к настоящему эксперту», — заявил CEO OpenAI Сэм Альтман, и цифры его подтверждают. Coding benchmark Aider Polyglot демонстрирует еще более драматичную разницу
Оглавление

Цифры не врут. GPT-5 превосходит свою предшественницу GPT-4o настолько кардинально, что возникает вопрос: как OpenAI вообще решилась выпустить GPT-4o в качестве флагмана? При 74,9% успеха на SWE-bench Verified против жалких 30,8% у GPT-4o, новая модель демонстрирует 2,4-кратное улучшение в реальном программировании. Это не эволюция — это революция.

Математика превосходства: когда PhD встречает ИИ

Данные Analytics Vidhya и независимых бенчмарков рисуют однозначную картину. На AIME 2025 — тесте математических способностей PhD-уровня — GPT-5 достигает 94,6% против 71% у GPT-4o. Разрыв в 23,6 процентных пункта означает разницу между выпускником университета и доктором наук.

GPQA Diamond, золотой стандарт научного рассуждения, показывает аналогичную пропасть: 89,4% для GPT-5 Pro с инструментами против 70,1% для GPT-4o. «Это первый раз, когда я чувствую, что могу обратиться к ней как к настоящему эксперту», — заявил CEO OpenAI Сэм Альтман, и цифры его подтверждают.

Coding benchmark Aider Polyglot демонстрирует еще более драматичную разницу: 88% для GPT-5 против 27% для GPT-4o — улучшение в 3,26 раза. В эпоху, когда программирование становится основной компетенцией ИИ, такой скачок меняет все правила игры.

Надежность как новая валюта ИИ

Галлюцинации — проклятие языковых моделей. GPT-5 сокращает общий уровень фактических ошибок с 22% у GPT-4o до 4,8% — улучшение на 78%. В критически важной области медицины разрыв еще более впечатляющий: 1,6% против 15,8% галлюцинаций в медицинских вопросах.

«GPT-4o демонстрирует очень высокие показатели ошибок, особенно в HealthBench», — отмечает анализ Vellum AI. При разработке ИИ-систем для здравоохранения такая разница может означать жизнь или смерть.

Снижение «льстивости» — тенденции соглашаться с пользователем ради угождения — составляет 58,6%: с 14,5% у GPT-4o до 6% у GPT-5. Это делает новую модель более честной и менее склонной к манипуляциям.

Экономика дизрупции: дешевле и лучше

OpenAI применила агрессивную ценовую стратегию. GPT-5 стоит $1,25 за миллион входных токенов против $2,50 у GPT-4o — экономия 50% при драматически лучшей производительности. Выходные токены остаются на уровне $10 за миллион, но качество результата несопоставимо выше.

Революционная 90% скидка на кэшированные токены создает беспрецедентную экономию для разработчиков, особенно в чат-приложениях, где контекст повторно используется. «Ценообразование агрессивно конкурентоспособно с другими поставщиками», — отмечает эксперт Simon Willison.

Линейка из трех моделей — GPT-5 ($1.25/$10), GPT-5 mini ($0.25/$2) и GPT-5 nano ($0.05/$0.40) — покрывает весь спектр потребностей от высокоинтеллектуальных задач до массовых развертываний. Это может спровоцировать ценовую войну в индустрии ИИ.

Скорость против интеллекта: компромиссы реального мира

GPT-5 медленнее — факт. Средняя задержка составляет 9,98 секунды против 3,2 у GPT-4o, а пропускная способность упала с 65,2 до 38,35 токенов в секунду. Для приложений реального времени это критично.

OpenAI решила проблему элегантно — унифицированной архитектурой с автоматическим выбором модели. «Реальный маршрутизатор» определяет сложность задачи и выбирает оптимальный подход от мгновенного ответа до глубокого анализа. Пользователям больше не нужно мучиться выбором между скоростью и качеством.

Потеря real-time голосовых возможностей GPT-4o — болезненный компромисс. Для голосовых помощников и эмоционального взаимодействия GPT-4o остается предпочтительным выбором, но для всех остальных задач GPT-5 доминирует.

Мультимодальное превосходство и новые возможности

Визуальное понимание показывает стабильное улучшение: 84,2% на MMMU benchmark против 69,1% у GPT-4o. Анализ видео демонстрирует еще более впечатляющий скачок — 81,1% против 58,8%, улучшение на 38%.

Новые возможности GPT-5 включают четыре предустановленные личности (циник, робот, слушатель, ботаник) и революционное «vibe coding» — создание полноценных приложений одним промптом. Демонстрация создания приложения для изучения французского за несколько минут показала потенциал модели.

«GPT-5 действительно открывает совершенно новый мир программирования по настроению», — заявил Yann Dubois из OpenAI. Это может демократизировать разработку программного обеспечения для миллионов непрограммистов.

Рыночные последствия: 700 миллионов пользователей получают апгрейд

При 700 миллионах еженедельных пользователей ChatGPT переход на GPT-5 как модель по умолчанию создает крупнейшее развертывание передового ИИ в истории. Подписчики Plus ($20/месяц) получают расширенные лимиты, а Pro ($200/месяц) — неограниченный доступ к полной мощности GPT-5.

Оценка снижения затрат разработчиков на 35% при улучшении производительности на 142% делает переход экономически неизбежным. «Я пытался вернуться к GPT-4 и это было довольно мучительно», — признался Альтман.

Конкуренты уже реагируют. TechCrunch предсказывает ценовую войну, поскольку Anthropic, Google и другие будут вынуждены снижать цены при улучшении качества. Это благотворно для всей экосистемы ИИ.

Ограничения и нерешенные проблемы

GPT-5 все еще галлюцинирует в 4,8% случаев — приемлемо для большинства применений, но недостаточно для критически важных систем. В медицине 1,6% ошибок могут быть фатальными, несмотря на десятикратное улучшение по сравнению с GPT-4o.

«Это означает, что GPT-5 будет галлюцинировать один раз из каждых десяти при выполнении обычных задач», — предупреждает Mashable. Человеческий надзор остается обязательным.

Потеря эмоциональной выразительности и real-time взаимодействия ограничивает применимость в некоторых областях. GPT-4o сохраняет преимущества в голосовых интерфейсах, творческом взаимодействии и эмпатическом общении.

Вердикт: эволюционный скачок с осознанными компромиссами

Интегральная оценка показывает 183 балла из возможных 200 — GPT-5 представляет квантовый скачок в производительности ИИ[собственные расчеты]. Переход оправдан для подавляющего большинства сценариев использования, особенно в программировании, анализе данных, научных исследованиях и контент-генерации.

GPT-4o не умирает — она находит нишу в голосовых приложениях, real-time взаимодействии и сценариях, где скорость критичнее качества. Но для большинства задач выбор очевиден: GPT-5 в 2,4 раза лучше кодирует, в 4,6 раза надежнее и в 2 раза дешевле на входных токенах.

Это не просто новая модель — это новая эра ИИ, где интеллект побеждает скорость, а качество становится доступным. OpenAI установила новую планку, и всей индустрии придется подтягиваться.