Найти в Дзене
itzine.ru

Рост популярности моделей «рассуждений» ИИ делает бенчмаркинг более дорогим

Рост популярности моделей «рассуждений» ИИ делает бенчмаркинг более дорогим

Лаборатории искусственного интеллекта, такие как OpenAI, утверждают, что их так называемые «рассуждающие» модели ИИ, способные последовательно анализировать проблемы, превосходят свои нерассуждающие аналоги в определенных областях, таких как физика. Хотя это утверждение в целом верно, высокие затраты на бенчмаркинг моделей рассуждений затрудняют независимую проверку этих заявлений. Согласно данным компании Artificial Analysis, стороннего тестировщика ИИ, оценка модели рассуждений o1 от OpenAI в рамках семи популярных бенчмарков — MMLU-Pro, GPQA Diamond, Humanity’s Last Exam, LiveCodeBench, SciCode, AIME 2024 и MATH-500 — обошлась в 2767,05 долларов США. Для сравнения, тестирование гибридной модели Claude 3.7 Sonnet от Anthropic на том же наборе тестов стоило 1485,35 долларов США, а оценка модели o3-mini-high от OpenAI составила 344,59 долларов США. Некоторые модели рассуждений дешевле для бенчмаркинга. На... #технологии #IT #gadgets