С выходом всё более продвинутых моделей искусственного интеллекта неизбежно возникает вопрос: смогут ли такие системы со временем заменить людей на работе? Чтобы в этом моменте быть честнее рекламных слоганов, нужны специальные инструменты — бенчмарки. Они не только показывают, что умеет ИИ, но и отражают, насколько это умение реально сопоставимо с трудом специалистов. Недавно OpenAI представила именно такой тест — GDPval. И результаты оказались далеки от ожиданий. Бенчмарк GDPval измеряет вклад ИИ в «реальную» рабочую экономику. Суть проста: собрать 1320 задач из 44 профессий в разных сферах, от программирования до медицины. Затем показать экспертам «человеческий» и «машинный» вариант — и попросить оценить, где результат лучше или хотя бы равен. Результаты оказались скромными. Даже лучшие модели выигрывают не более чем в 40–49% случаев. Так, Claude Opus 4.1 показал лучший результат — около 47,6% «побед». GPT-5 (high-режим) чуть отстаёт — примерно 40–41%. При этом стоит помнить: модел
ИИ пока не заменит людей – OpenAI оценили нейросети в 44 профессиях
3 октября 20253 окт 2025
4
2 мин