Презентация флагманской модели GPT-5 от OpenAI, призванная продемонстрировать её превосходство, омрачилась скандалом из-за грубых ошибок в ключевых диаграммах. Сэм Альтман публично признал недочёты, но осадок остался — особенно на фоне заявлений о «снижении галлюцинаций» у новой модели.
В чём провал? Две роковые диаграммы
- Тест на "склонность к обману" (Deception Tendency):
На слайде: GPT-5 показал 50.0% в категории "обман при написании кода", o3 — 47.4%.
Ошибка 1: Столбец o3 визуально выше, чем у GPT-5, хотя его значение ниже.
Ошибка 2: В официальном блоге OpenAI указано реальное значение GPT-5 — 16.5%.
Ирония: Диаграмма, иллюстрирующая "честность" ИИ, сама оказалась нечестной. - Тест SWE-bench Verified (оценка кода):
На слайде: GPT-5 набрал 45.7%, o3 — 46.2%, GPT-4o — 40.5%.
Ошибка: Столбцы o3 (46.2%) и GPT-4o (40.5%) имеют одинаковую высоту, хотя их результаты различаются.
Столбец GPT-5 (45.7%) визуально выше o3 (46.2%), хотя его результат ниже.
Реакция OpenAI: признание и ущерб репутации
- Публичное извинение Альтмана: Гендиректор оперативно признал ошибку, сославшись на правильные данные в блоге.
- Тишина о причинах: OpenAI не пояснила, как возникли ошибки. Ключевые вопросы остались:
Использовали ли саму GPT-5 для генерации диаграмм?
Был ли это человеческий фактор (спешка, невнимательность)? - Удар по доверию: Инцидент произошёл ровно в тот момент, когда OpenAI уверяла, что GPT-5 менее склонна к галлюцинациям и точнее в деталях.
Почему это серьёзно? Контекст имеет значение
- Повторение сценария: Это уже второй провал за неделю: ранее пользователи массово жаловались на "бездушность" GPT-5 по сравнению с GPT-4o, что заставило OpenAI вернуть старую модель для подписчиков.
- Контраст с обещаниями: На презентации акцентировали "беспрецедентную точность" GPT-5, но диаграммы показали обратное.
- Ирония судьбы: Ошибка в графике про "обман" — это уровень чёрного юмора.
- Риски для бизнеса: Enterprise-клиенты, выбирающие ИИ для критичных задач (финансы, медицина), теперь справедливо зададутся вопросом: можно ли доверять заявлениям OpenAI?
Возможные причины провала
- Спешка: Давление сроками при подготовке глобальной презентации.
- Чрезмерная автоматизация: Попытка поручить GPT-5 генерацию визуализаций (что само по себе было бы тестом) без должного контроля.
- Человеческий фактор: Ошибка дизайнера или инженера, не проверившего исходные данные.
Итог: OpenAI получила болезненный урок: даже гениальный ИИ не отменяет необходимость человеческой проверки. Для GPT-5, позиционируемой как "самая надёжная модель в истории", этот конфуз — пятно на репутации. Компании предстоит не только исправить диаграммы, но и восстановить доверие — особенно после череды спорных решений. Альтман признал ошибку — это первый шаг. Но второй шаг — гарантии, что подобное не повторится — куда важнее.
Подпишись, поставь лайк и поделись с друзьями!
Жмякни на колокольчик
- Подпишись на мой основной канал