OpenAI выпустила PaperBench — тест для ИИ, который требует воспроизведения 20 научных работ. Исследования охватывают глубокое обучение и другие методы. Оценки проводятся с помощью 8,300 контрольных точек. ИИ должен разработать свой код и имеет 12 часов. OpenAI использует ИИ для оценки результатов и делает это в 10 раз дешевле, чем люди. Лучшая ИИ модель — Claude 3.5 Sonnet с результатом 21%. Однако, студенты достигли 41.4% успеха за 48 часов. Различия в стратегиях решения задач людьми и ИИ, также как и временные ограничения, влияют на эффективность моделей. 📚🔍 #OpenAI #Развитие_ИИ Подробнее
OpenAI выпустила PaperBench — тест для ИИ, который требует воспроизведения 20 научных работ
3 апреля 20253 апр 2025
~1 мин