Найти в Дзене

ИИ пока не заменит людей – OpenAI оценили нейросети в 44 профессиях

С выходом всё более продвинутых моделей искусственного интеллекта неизбежно возникает вопрос: смогут ли такие системы со временем заменить людей на работе? Чтобы в этом моменте быть честнее рекламных слоганов, нужны специальные инструменты — бенчмарки. Они не только показывают, что умеет ИИ, но и отражают, насколько это умение реально сопоставимо с трудом специалистов. Недавно OpenAI представила именно такой тест — GDPval. И результаты оказались далеки от ожиданий. Бенчмарк GDPval измеряет вклад ИИ в «реальную» рабочую экономику. Суть проста: собрать 1320 задач из 44 профессий в разных сферах, от программирования до медицины. Затем показать экспертам «человеческий» и «машинный» вариант — и попросить оценить, где результат лучше или хотя бы равен. Результаты оказались скромными. Даже лучшие модели выигрывают не более чем в 40–49% случаев. Так, Claude Opus 4.1 показал лучший результат — около 47,6% «побед». GPT-5 (high-режим) чуть отстаёт — примерно 40–41%. При этом стоит помнить: модел
Оглавление

С выходом всё более продвинутых моделей искусственного интеллекта неизбежно возникает вопрос: смогут ли такие системы со временем заменить людей на работе? Чтобы в этом моменте быть честнее рекламных слоганов, нужны специальные инструменты — бенчмарки. Они не только показывают, что умеет ИИ, но и отражают, насколько это умение реально сопоставимо с трудом специалистов.

Недавно OpenAI представила именно такой тест — GDPval. И результаты оказались далеки от ожиданий.

Как работает GDPval

Бенчмарк GDPval измеряет вклад ИИ в «реальную» рабочую экономику. Суть проста: собрать 1320 задач из 44 профессий в разных сферах, от программирования до медицины. Затем показать экспертам «человеческий» и «машинный» вариант — и попросить оценить, где результат лучше или хотя бы равен.

Результаты оказались скромными. Даже лучшие модели выигрывают не более чем в 40–49% случаев. Так, Claude Opus 4.1 показал лучший результат — около 47,6% «побед». GPT-5 (high-режим) чуть отстаёт — примерно 40–41%.

При этом стоит помнить: модели выполняют задачи примерно в 100 раз быстрее и дешевле, чем эксперты, если не учитывать интеграцию, проверку и доработку.

Где ИИ выигрывает, а где проигрывает людям

В чём машины выигрывают:

  • Код и автоматическое программирование. Модели справляются с типовыми задачами и шаблонами быстрее человека (но не всегда без ошибок).
  • Анализ данных, отчёты, табличные преобразования. Работа для рутинной аналитики, включающая в себя сбор и обработку информации.
  • Визуализация. Создание презентаций, форматирование, дизайн — здесь Claude особенно силён.
-2

Что остаётся «человеческим» полем:

  • Медицина, диагностика, сложные клинические случаи. В одном из недавних тестов GPT-5 показал лишь ~30% точности на радиологических задачах, тогда как врачи — 83%.
  • Бухгалтерия, аудит, налоговое право. Здесь важно глубокое знание контекста, законодательства и личная ответственность.
  • Этика, принятие решений. Как показали тесты, машины не могут нести ответственность или проявлять инициативу.

Как итог: ИИ сейчас выполняет скорее роль ассистента, чем полноценного специалиста.

Чего ждать дальше: шаги к 100%?

GDPval продолжает развиваться. В дальнейшем тесты будут включать интерактивность, обратную связь и неоднозначные сценарии, где задача требует не единственного ответа, а серии решений. Это позволит проверить модели на устойчивость в сложных условиях, а не только на «одиночных выстрелах». Кроме того, исследователи хотят, чтобы модели могли пояснять, почему они приняли то или иное решение, и показывать свою логику действий.

Всё это приближает нас к системе, где ИИ и человек работают как единая команда. Но до ситуации, когда нейросети начнут выигрывать хотя бы в 70–80% случаев, ещё далеко.