Реальные тесты показали: OpenAI o3 оказался слабее, чем обещали Вокруг ИИ-модели o3 от OpenAI разгорелся новый спор: независимые тесты показали, что её производительность оказалась ниже заявленной. Это вызывает вопросы к прозрачности компании и методам тестирования моделей. Когда в декабре OpenAI представила o3, утверждалось, что модель способна правильно отвечать более чем на 25% задач в наборе FrontierMath — одном из самых сложных тестов по математике. Для сравнения: ближайшие конкуренты набирали менее 2%. Однако, как выяснилось, этот показатель был достигнут при использовании версии o3 с агрессивными вычислительными ресурсами. В публичной версии модели, запущенной на прошлой неделе, таких условий нет. Исследовательский институт Epoch AI, разработавший FrontierMath, провёл независимое тестирование модели и зафиксировал результат около 10% — гораздо ниже заявленных 25%. При этом Epoch отметила, что использовала обновлённую версию теста и возможно отличающуюся выборку задач. В Op...
Реальные тесты показали: OpenAI o3 оказался слабее, чем обещали
21 апреля 202521 апр 2025
~1 мин