38 подписчиков

Исследование METR: Как современный AI меняет скорость разработки

17 июля 202517 июл 2025

2 мин

В эпоху активного внедрения AI-ассистентов для кодирования компаниям важно понимать реальный эффект этих инструментов на продуктивность. Учёные из Model Evaluation & Threat Research (METR) провели рандомизированный контролируемый эксперимент, чтобы измерить влияние AI-инструментов (Cursor Pro + Claude 3.5/3.7) на скорость опытных open-source разработчиков. 📄 Полный текст исследования: https://metr.org/Early_2025_AI_Experienced_OS_Devs_Study.pdf С дайджестом исследования можно также познакомиться на Хабр: https://habr.com/ru/articles/927072/ Методика исследования - Рандомизированное контролируемое испытание (RCT). - 16 опытных контрибьюторов (средний стаж — 5 лет, проекты ≈ 23 000 ★). - Всего 246 задач из реальных open-source репозиториев, каждая длительностью ≈ 2 ч. - Случайное распределение: “AI Allowed” vs “AI Disallowed”. - Оценка прогноза экономии времени и ретроспективная оценка влияния AI. - Запись экранов (143 ч) для детального анализа взаимодействия и таймингов. Ключевы

📄 Полный текст исследования: https://metr.org/Early_2025_AI_Experienced_OS_Devs_Study.pdf

С дайджестом исследования можно также познакомиться на Хабр: https://habr.com/ru/articles/927072/

Методика исследования

- Рандомизированное контролируемое испытание (RCT).

- 16 опытных контрибьюторов (средний стаж — 5 лет, проекты ≈ 23 000 ★).

- Всего 246 задач из реальных open-source репозиториев, каждая длительностью ≈ 2 ч.

- Случайное распределение: “AI Allowed” vs “AI Disallowed”.

- Оценка прогноза экономии времени и ретроспективная оценка влияния AI.

- Запись экранов (143 ч) для детального анализа взаимодействия и таймингов.

Ключевые выводы

| Метрика | Прогноз | Факт |

|----------------------------------------------|-------------------|---------------------|

| Ожидаемое ускорение с AI | −24 % | (+20 % ретродиктед) |

| Изменение времени при AI vs без AI | — | +19 % (замедление) |

| Прогноз экспертов в ML и экономике | +38…39 % | — |

| Ускорение на задачах высокой сложности | −15 % прогноз | +30…35 % факт |

- Вместо ожидаемых 24 % ускорения AI-инструменты замедлили опытных разработчиков на 19 %.

- На низкой и средней сложности задачи накладные расходы на промпты и ревью перевешивали пользу.

- В сценариях глубокой архитектурной проработки моделям удавалось предлагать интересные варианты, но требовалась тщательная проверка и адаптация.

Рекомендации для IT и бизнеса

- Экспериментируйте с AI для архитектурного анализа и сложных задач, но оценивайте качество и безопасность предложений до интеграции.

- Для рутинных баг-фиксов и правок по-прежнему опирайтесь на проверенные IDE-инструменты и опыт команды.

- Дообучите модели на внутреннем коде, документации и гайдлайнах, чтобы снизить накладные расходы на промпты.

- Проведите пилот после 100+ часов использования и оцените экономику внедрения: окупаемость, эффект на командную скорость, качество кода.

Ну и ещё раз сформулировать мои выводы по этому исследованию: не всё так грустно...

Во-первых сравнивали работу сильных разработчиков в знакомых им областях.

Во-вторых, взяли Клауде, которой хоть и считается одним из лучших ИИ для разрабов, но был общим, а не погруженным в контекст решаемых задач

В третьих, там нашли классы задач, в которых работа в тандеме человек+AI давала порой неплохое ускорение...

Но в целом ясно видно,

что ИскИны-разработчики - это вовсе не серебряная пуля.
Что преимущества "Магии ИИ" для рутины может быть переоценены в сознании ИТ-сообщества.
Что изменение привычных техник работы даст проседание в скорости решения задач и увеличит трудоемкость

К сожалению, "выход на плато эффективности" не был в скоупе исследования. А ведь спад эффективности — естественный этап, возникающий после внедрения любых значительных изменений в рабочие процессы, будь то новое программное обеспечение или автоматизация рутинных операций. Поэтому трудно на основе данного исследования дать ответ: сможет ли ситуация с использованием ИИ опытным разработчиком существенно улучшится со временем. И если сможет, то как долго будет наблюдаться спад