23 подписчика

Слепой тест: бизнес-эксперты не отличили ИИ в 50% случаях

29 сентября 202529 сен 2025

2 мин

Слепой тест: бизнес-эксперты не отличили ИИ в 50% случаях 25 сентября OpenAI опубликовал крайне интересное для бизнеса исследование "GDPval: оценка работы моделей ИИ на реальных экономически ценных задачах". Компания создала систему GDPval (можете сами попробовать), которая проверяет, как ИИ справляется с настоящей бизнес-работой. Не с тестами на IQ и не с академическими задачками. С тем, что делают люди каждый день за деньги: пишут юридические документы, создают инженерные чертежи, составляют планы ухода за пациентами, готовят финансовые отчеты. Исследователи собрали 1320 заданий из 44 профессий. Выбрали девять секторов экономики США, те, что приносят больше 5% ВВП каждый. Наняли специалистов со средним опытом 14 лет. Попросили их создать задачи на основе реальных проектов из их практики. Задачи оказались сложными. В среднем эксперту требовалось семь часов на выполнение. Некоторые растягивались на недели. Дальше самое интересное. OpenAI провел слепое тестирование. Экспертам давал

25 сентября OpenAI опубликовал крайне интересное для бизнеса исследование "GDPval: оценка работы моделей ИИ на реальных экономически ценных задачах".

Компания создала систему GDPval (можете сами попробовать), которая проверяет, как ИИ справляется с настоящей бизнес-работой. Не с тестами на IQ и не с академическими задачками. С тем, что делают люди каждый день за деньги: пишут юридические документы, создают инженерные чертежи, составляют планы ухода за пациентами, готовят финансовые отчеты.

Исследователи собрали 1320 заданий из 44 профессий. Выбрали девять секторов экономики США, те, что приносят больше 5% ВВП каждый. Наняли специалистов со средним опытом 14 лет. Попросили их создать задачи на основе реальных проектов из их практики.

Задачи оказались сложными. В среднем эксперту требовалось семь часов на выполнение. Некоторые растягивались на недели. Дальше самое интересное. OpenAI провел слепое тестирование. Экспертам давали две работы: одну выполнил человек, другую ИИ. Никаких подписей. Просто: оцените качество, выберите лучшую.

Claude Opus 4.1 в 49%, GPT-5 — 40,6% случаев получил оценку "равен или лучше эксперта". Почти половина. При этом модели работали в сто раз быстрее и дешевле людей.

По сути, профессионалы с многолетним опытом в слепом тесте не смогли отличить работу ИИ от человеческой или признавали её лучше почти в половине случаев.

У каждой модели оказались свои сильные стороны. Claude выигрывал в эстетике: форматировании документов, оформлении слайдов. GPT-5 был точнее в поиске специализированной информации и следовании инструкциям. Claude чаще проигрывал, потому что игнорировал требования или использовал неправильный формат. GPT-5 спотыкался на технических деталях: неверное форматирование PDF, артефакты в файлах.

Очень радует честность отчета. OpenAI не скрывает ограничения. GDPval охватывает только ту работу, которую можно оформить как готовый продукт. Большинство профессий включает гораздо больше: живое общение, принятие решений в неожиданных ситуациях, работу с людьми. Это пока не измерить.

Ещё один эксперимент запомнился. Когда задачи делали менее детальными (убирали подсказки, где искать данные, как подходить к проблеме) модели справлялись хуже. Им труднее разбираться с неопределенностью. Люди интуитивно понимают, что нужно, даже когда задача сформулирована расплывчато.

Я думаю о своей работе. О коллегах, партнерах, клиентах. О том, как быстро всё меняется. Два года назад у меня вызывали улыбку ошибки ChatGPT. Сегодня читаю, что ИИ выполняет задачи профессионального уровня быстрее и дешевле меня.

Это не значит, что завтра все потеряют работу (но кто-то точно).

История показывает: от изобретения электричества до его повсеместного использования прошли десятилетия. Технологии не врываются мгновенно, но медленно (а много где быстро) и верно встраиваются в нашу жизнь.

Но теперь у нас есть метрика. Мы видим, где ИИ уже догнал человека, а где ещё нет. Это помогает готовиться, а не гадать на кофейной гуще.

Всем мира, здоровья, добра!

#ИИGDPval