Найти в Дзене

Презентация GPT-5 обернулась конфузом: OpenAI признала ошибки в "обманчивых" диаграммах

Оглавление

Презентация флагманской модели GPT-5 от OpenAI, призванная продемонстрировать её превосходство, омрачилась скандалом из-за грубых ошибок в ключевых диаграммах. Сэм Альтман публично признал недочёты, но осадок остался — особенно на фоне заявлений о «снижении галлюцинаций» у новой модели.

В чём провал? Две роковые диаграммы

  1. Тест на "склонность к обману" (Deception Tendency):
    На слайде:
    GPT-5 показал 50.0% в категории "обман при написании кода", o3 — 47.4%.
    Ошибка 1: Столбец o3 визуально выше, чем у GPT-5, хотя его значение ниже.
    Ошибка 2: В официальном блоге OpenAI указано реальное значение GPT-5 — 16.5%.
    Ирония: Диаграмма, иллюстрирующая "честность" ИИ, сама оказалась нечестной.
  2. Тест SWE-bench Verified (оценка кода):
    На слайде:
    GPT-5 набрал 45.7%, o3 — 46.2%, GPT-4o — 40.5%.
    Ошибка: Столбцы o3 (46.2%) и GPT-4o (40.5%) имеют одинаковую высоту, хотя их результаты различаются.
    Столбец GPT-5 (45.7%) визуально
    выше o3 (46.2%), хотя его результат ниже.

Реакция OpenAI: признание и ущерб репутации

  • Публичное извинение Альтмана: Гендиректор оперативно признал ошибку, сославшись на правильные данные в блоге.
  • Тишина о причинах: OpenAI не пояснила, как возникли ошибки. Ключевые вопросы остались:
    Использовали ли
    саму GPT-5 для генерации диаграмм?
    Был ли это
    человеческий фактор (спешка, невнимательность)?
  • Удар по доверию: Инцидент произошёл ровно в тот момент, когда OpenAI уверяла, что GPT-5 менее склонна к галлюцинациям и точнее в деталях.

Почему это серьёзно? Контекст имеет значение

  1. Повторение сценария: Это уже второй провал за неделю: ранее пользователи массово жаловались на "бездушность" GPT-5 по сравнению с GPT-4o, что заставило OpenAI вернуть старую модель для подписчиков.
  2. Контраст с обещаниями: На презентации акцентировали "беспрецедентную точность" GPT-5, но диаграммы показали обратное.
  3. Ирония судьбы: Ошибка в графике про "обман" — это уровень чёрного юмора.
  4. Риски для бизнеса: Enterprise-клиенты, выбирающие ИИ для критичных задач (финансы, медицина), теперь справедливо зададутся вопросом: можно ли доверять заявлениям OpenAI?

Возможные причины провала

  • Спешка: Давление сроками при подготовке глобальной презентации.
  • Чрезмерная автоматизация: Попытка поручить GPT-5 генерацию визуализаций (что само по себе было бы тестом) без должного контроля.
  • Человеческий фактор: Ошибка дизайнера или инженера, не проверившего исходные данные.

Итог: OpenAI получила болезненный урок: даже гениальный ИИ не отменяет необходимость человеческой проверки. Для GPT-5, позиционируемой как "самая надёжная модель в истории", этот конфуз — пятно на репутации. Компании предстоит не только исправить диаграммы, но и восстановить доверие — особенно после череды спорных решений. Альтман признал ошибку — это первый шаг. Но второй шаг — гарантии, что подобное не повторится — куда важнее.

Подпишись, поставь лайк и поделись с друзьями!

Жмякни на колокольчик