Источник изображения: Levart_Photographer / Unsplash Новая модель OpenAI o3 продемонстрировала в независимых тестах значительно более низкие результаты, чем изначально заявляла компания. В декабре OpenAI сообщила, что их модель решает более 25% задач из сложного математического набора FrontierMath, однако свежие данные Epoch AI показывают лишь 10% успешных решений. Разница в показателях вызвала вопросы к прозрачности тестирования моделей OpenAI. В компании же объяснили расхождение тем, что публичная версия o3 была оптимизирована для практического использования, тогда как высокие результаты в 25% были достигнуты на более мощной внутренней версии. «Сейчас все доступные модели конкурентов показывают менее 2% на FrontierMath, — заявил директор по исследованиям OpenAI Марк Чен (Mark Chen). — Но во внутренних тестах с увеличенными вычислительными мощностями наша модель o3 демонстрирует свыше 25%». Однако, как выяснилось, эти цифры относятся к экспериментальной, а не к публичной версии. Epoch
В математическом бенчмарке FrontierMath модель o3 от OpenAI показала результаты ниже заявленных
21 апреля 202521 апр 2025
2
2 мин