На фоне шокирующих заголовков о массовых сокращениях (включая недавние увольнения в Amazon и итоги, которые в сумме дают порядка 170 000 сокращённых позиций) возникает простой страх: AI «украл» рабочие места и теперь вытеснит миллионы офисных сотрудников.
Новое исследование команды Scale AI вместе с Center for AI Safety предлагает более сдержанную, но глубокую картину: современные передовые модели в реальных, экономически значимых удалённых заданиях автоматизируют меньше 3% работы.
Ниже — структурированное изложение основных выводов, методологии и практических последствий исследования.
Новый стандарт — Remote Labor Index (RLI)
Авторы исследования ввели Remote Labor Index (RLI) — набор реально существующих заказов с платформ удалённой работы (например, Upwork), чтобы оценить, что модели способны сделать в условиях «настоящей» работы, а не на учебных бенчмарках. Главное отличие RLI от традиционных тестов:
- задачи долгие, многокомпонентные и часто междисциплинарные (геймдев, архитектура, видео‑анимация, продуктовый дизайн, аналитика и т.д.);
- стоимость многих проектов высока (до $10 000), время выполнения — десятки/сотни часов;
- данные собраны из реальных заказов — в сумме >6000 часов работы и реальной стоимости свыше $140K;
- в выборку попали 240 проработанных проектов, отобранных из первоначальных 550.
Исследование привлекло 358 опытных фрилансеров с серьёзным бэкграундом на платформах типа Upwork, чтобы поставить «человеческую золотую планку» и обеспечить реалистичные эталоны.
Как оценивались модели
Для каждого проекта модели выполняли задания, а исследователи сверяли результаты с «человеческим» эталоном. Ключевые метрики:
- автоматизация (automation rate) — доля проектов, которые AI может выполнить экономически полезно;
- Elo‑рейтинг для парных сравнений моделей;
- доходность/экономический эффект;
- эффект «автоматизационной дефляции» (автоматизация, снижающая цену труда).
Реальный результат оказалcя невелик: максимум автоматизации по одному из участников (Manus) — ≈2.5%, в среднем — значительно ниже. Автоматизация «менее 3%» стала главным тезисом.
Почему модели проваливались — основные причины
Команда проанализировала ~400 кейсов отказа и выделила главные классы ошибок:
- Технические/форматные проблемы: повреждённые или пустые файлы, неправильные форматы, которые нельзя использовать.
- Неполные или дефектные поставки: отсутствуют ключевые компоненты, исходники или связующие элементы.
- Низкое качество: даже при видимой полноте — профессиональный уровень не достигнут.
- Несогласованность: разные артефакты одного проекта противоречат друг другу.
- Отдельно отмечается дефицит «знания мира» — неспособность проверить и исправить ошибки, требующие внешней верификации и восприятия реального результата (особенно критично в архитектуре, геймдеве, веб‑разработке с визуальными проверками).
Одновременно исследование показало, что в некоторых творческих, визуальных и аудио‑задачах (генерация изображений/аудио, часть маркетинговых материалов, написание текстов, веб‑скрейпинг/сбор информации) модели уже близки к человеку или даже превосходят в отдельных аспектах. Пример — Claude 4.5 Sonnet показал превосходство в простых веб‑визуализациях.
Что это значит для рынка труда и паники
- Паника о тотальном и немедленном вытеснении миллионов работ — преувеличена. Технически «заменить» рутинные фрагменты задач гораздо проще, чем выполнить сложную, междисциплинарную работу с высоким стандартом качества и полной ответственностью.
- Тем не менее увольнения происходят — но не всегда напрямую из‑за «замены» моделями. Компании используют AI как повод для реструктуризации, оптимизации процессов, сокращения расходов; автоматизация части операций ускоряет эти процессы, но прямое замещение сложной работы пока редкость.
- Рост производительности и автоматизация отдельных подзадач реально изменят требования к навыкам: рутинные операции сократятся, возрастёт спрос на верификацию результатов, интеграцию систем, управление AI‑пайплайнами и креативные компетенции.
Практические рекомендации
Для бизнеса:
- Внедряйте AI как инструмент «аугментации», а не как «полную замену» — проектируйте рабочие процессы с human‑in‑the‑loop.
- Инвестируйте в пайплайны валидации/тестирования результатов (проверка форматов, качества, консистентности).
- Оценивайте экономическую ценность автоматизации, а не только техническую успешность.
Для работников и политиков:
- Сфокусируйтесь на навыках, требующих контекстного понимания, кросс‑дисциплинарности и верификации (meta‑skills: критическое мышление, системная интеграция, коммуникация).
- Образовательные программы и переобучение должны учитывать роль человека в верификации и управлении AI.
- Политика занятости должна предусматривать поддержку при переходах и создание инструментов для проверки качества автоматизированных поставок.
Для исследователей/разработчиков:
- Нужны более реалистичные бенчмарки (как RLI) и метрики, ориентированные на экономическую полезность.
- Важны работы по «заземлению» (grounding), верификации фактов и устойчивой памяти у моделей.
Заключение
RLI от Scale AI показывает важную мысль: мы стоим в середине волны — модели становятся всё мощнее, но реальная способность заменить сложную, многокомпонентную и экономически значимую работу остаётся ограниченной. Это не означает, что глобальные изменения не наступят — они наступят, но постепеннее и с иным профилем: AI будет убирать и трансформировать подзадачи, а люди — смещаться в роли проверяющих, интеграторов и творцов новых процессов. Понять этот переход и подготовиться — ключевая задача как для компаний, так и для сотрудников и регулирующих органов.
Источник исследования (полный текст): Remote Labor Index — paper.pdf
Хотите создать уникальный и успешный продукт? СМС – ваш надежный партнер в мире инноваций! Закажи разработки ИИ-решений, LLM-чат-ботов, моделей генерации изображений и автоматизации бизнес-процессов у профессионалов.
ИИ сегодня — ваше конкурентное преимущество завтра!
Тел. +7 (985) 982-70-55
E-mail sms_systems@inbox.ru
Сайт https://www.smssystems.ru/razrabotka-ai/