Найти в Дзене

OpenAI выпустила PaperBench — тест для ИИ, который требует воспроизведения 20 научных работ

OpenAI выпустила PaperBench — тест для ИИ, который требует воспроизведения 20 научных работ. Исследования охватывают глубокое обучение и другие методы. Оценки проводятся с помощью 8,300 контрольных точек. ИИ должен разработать свой код и имеет 12 часов. OpenAI использует ИИ для оценки результатов и делает это в 10 раз дешевле, чем люди. Лучшая ИИ модель — Claude 3.5 Sonnet с результатом 21%. Однако, студенты достигли 41.4% успеха за 48 часов. Различия в стратегиях решения задач людьми и ИИ, также как и временные ограничения, влияют на эффективность моделей. 📚🔍 #OpenAI #Развитие_ИИ Подробнее

OpenAI выпустила PaperBench — тест для ИИ, который требует воспроизведения 20 научных работ.

Исследования охватывают глубокое обучение и другие методы. Оценки проводятся с помощью 8,300 контрольных точек. ИИ должен разработать свой код и имеет 12 часов. OpenAI использует ИИ для оценки результатов и делает это в 10 раз дешевле, чем люди.

Лучшая ИИ модель — Claude 3.5 Sonnet с результатом 21%. Однако, студенты достигли 41.4% успеха за 48 часов. Различия в стратегиях решения задач людьми и ИИ, также как и временные ограничения, влияют на эффективность моделей. 📚🔍

#OpenAI #Развитие_ИИ

Подробнее