1865 подписчиков

Рост популярности моделей «рассуждений» ИИ делает бенчмаркинг более дорогим

10 апреля10 апр

~1 мин

Лаборатории искусственного интеллекта, такие как OpenAI, утверждают, что их так называемые «рассуждающие» модели ИИ, способные последовательно анализировать проблемы, превосходят свои нерассуждающие аналоги в определенных областях, таких как физика. Хотя это утверждение в целом верно, высокие затраты на бенчмаркинг моделей рассуждений затрудняют независимую проверку этих заявлений. Согласно данным компании Artificial Analysis, стороннего тестировщика ИИ, оценка модели рассуждений o1 от OpenAI в рамках семи популярных бенчмарков — MMLU-Pro, GPQA Diamond, Humanity’s Last Exam, LiveCodeBench, SciCode, AIME 2024 и MATH-500 — обошлась в 2767,05 долларов США. Для сравнения, тестирование гибридной модели Claude 3.7 Sonnet от Anthropic на том же наборе тестов стоило 1485,35 долларов США, а оценка модели o3-mini-high от OpenAI составила 344,59 долларов США. Некоторые модели рассуждений дешевле для бенчмаркинга. На... #технологии #IT #gadgets