Слепой тест: бизнес-эксперты не отличили ИИ в 50% случаях 25 сентября OpenAI опубликовал крайне интересное для бизнеса исследование "GDPval: оценка работы моделей ИИ на реальных экономически ценных задачах". Компания создала систему GDPval (можете сами попробовать), которая проверяет, как ИИ справляется с настоящей бизнес-работой. Не с тестами на IQ и не с академическими задачками. С тем, что делают люди каждый день за деньги: пишут юридические документы, создают инженерные чертежи, составляют планы ухода за пациентами, готовят финансовые отчеты. Исследователи собрали 1320 заданий из 44 профессий. Выбрали девять секторов экономики США, те, что приносят больше 5% ВВП каждый. Наняли специалистов со средним опытом 14 лет. Попросили их создать задачи на основе реальных проектов из их практики. Задачи оказались сложными. В среднем эксперту требовалось семь часов на выполнение. Некоторые растягивались на недели. Дальше самое интересное. OpenAI провел слепое тестирование. Экспертам давал
Слепой тест: бизнес-эксперты не отличили ИИ в 50% случаях
29 сентября 202529 сен 2025
4
2 мин