Найти в Дзене
Social Mebia Systems

17 тысяч уволенных — и всё же AI использует лишь 3% своих возможностей: что показало новое исследование Scale AI

На фоне шокирующих заголовков о массовых сокращениях (включая недавние увольнения в Amazon и итоги, которые в сумме дают порядка 170 000 сокращённых позиций) возникает простой страх: AI «украл» рабочие места и теперь вытеснит миллионы офисных сотрудников. Новое исследование команды Scale AI вместе с Center for AI Safety предлагает более сдержанную, но глубокую картину: современные передовые модели в реальных, экономически значимых удалённых заданиях автоматизируют меньше 3% работы. Ниже — структурированное изложение основных выводов, методологии и практических последствий исследования. Новый стандарт — Remote Labor Index (RLI) Авторы исследования ввели Remote Labor Index (RLI) — набор реально существующих заказов с платформ удалённой работы (например, Upwork), чтобы оценить, что модели способны сделать в условиях «настоящей» работы, а не на учебных бенчмарках. Главное отличие RLI от традиционных тестов: Исследование привлекло 358 опытных фрилансеров с серьёзным бэкграундом на платформа

На фоне шокирующих заголовков о массовых сокращениях (включая недавние увольнения в Amazon и итоги, которые в сумме дают порядка 170 000 сокращённых позиций) возникает простой страх: AI «украл» рабочие места и теперь вытеснит миллионы офисных сотрудников.

Новое исследование команды Scale AI вместе с Center for AI Safety предлагает более сдержанную, но глубокую картину: современные передовые модели в реальных, экономически значимых удалённых заданиях автоматизируют меньше 3% работы.

Ниже — структурированное изложение основных выводов, методологии и практических последствий исследования.

Новый стандарт — Remote Labor Index (RLI)

Авторы исследования ввели Remote Labor Index (RLI) — набор реально существующих заказов с платформ удалённой работы (например, Upwork), чтобы оценить, что модели способны сделать в условиях «настоящей» работы, а не на учебных бенчмарках. Главное отличие RLI от традиционных тестов:

  • задачи долгие, многокомпонентные и часто междисциплинарные (геймдев, архитектура, видео‑анимация, продуктовый дизайн, аналитика и т.д.);
  • стоимость многих проектов высока (до $10 000), время выполнения — десятки/сотни часов;
  • данные собраны из реальных заказов — в сумме >6000 часов работы и реальной стоимости свыше $140K;
  • в выборку попали 240 проработанных проектов, отобранных из первоначальных 550.

Исследование привлекло 358 опытных фрилансеров с серьёзным бэкграундом на платформах типа Upwork, чтобы поставить «человеческую золотую планку» и обеспечить реалистичные эталоны.

Как оценивались модели

Для каждого проекта модели выполняли задания, а исследователи сверяли результаты с «человеческим» эталоном. Ключевые метрики:

  • автоматизация (automation rate) — доля проектов, которые AI может выполнить экономически полезно;
  • Elo‑рейтинг для парных сравнений моделей;
  • доходность/экономический эффект;
  • эффект «автоматизационной дефляции» (автоматизация, снижающая цену труда).

Реальный результат оказалcя невелик: максимум автоматизации по одному из участников (Manus) — ≈2.5%, в среднем — значительно ниже. Автоматизация «менее 3%» стала главным тезисом.

Почему модели проваливались — основные причины

Команда проанализировала ~400 кейсов отказа и выделила главные классы ошибок:

  1. Технические/форматные проблемы: повреждённые или пустые файлы, неправильные форматы, которые нельзя использовать.
  2. Неполные или дефектные поставки: отсутствуют ключевые компоненты, исходники или связующие элементы.
  3. Низкое качество: даже при видимой полноте — профессиональный уровень не достигнут.
  4. Несогласованность: разные артефакты одного проекта противоречат друг другу.
  5. Отдельно отмечается дефицит «знания мира» — неспособность проверить и исправить ошибки, требующие внешней верификации и восприятия реального результата (особенно критично в архитектуре, геймдеве, веб‑разработке с визуальными проверками).

Одновременно исследование показало, что в некоторых творческих, визуальных и аудио‑задачах (генерация изображений/аудио, часть маркетинговых материалов, написание текстов, веб‑скрейпинг/сбор информации) модели уже близки к человеку или даже превосходят в отдельных аспектах. Пример — Claude 4.5 Sonnet показал превосходство в простых веб‑визуализациях.

Что это значит для рынка труда и паники

  • Паника о тотальном и немедленном вытеснении миллионов работ — преувеличена. Технически «заменить» рутинные фрагменты задач гораздо проще, чем выполнить сложную, междисциплинарную работу с высоким стандартом качества и полной ответственностью.
  • Тем не менее увольнения происходят — но не всегда напрямую из‑за «замены» моделями. Компании используют AI как повод для реструктуризации, оптимизации процессов, сокращения расходов; автоматизация части операций ускоряет эти процессы, но прямое замещение сложной работы пока редкость.
  • Рост производительности и автоматизация отдельных подзадач реально изменят требования к навыкам: рутинные операции сократятся, возрастёт спрос на верификацию результатов, интеграцию систем, управление AI‑пайплайнами и креативные компетенции.

Практические рекомендации

Для бизнеса:

  • Внедряйте AI как инструмент «аугментации», а не как «полную замену» — проектируйте рабочие процессы с human‑in‑the‑loop.
  • Инвестируйте в пайплайны валидации/тестирования результатов (проверка форматов, качества, консистентности).
  • Оценивайте экономическую ценность автоматизации, а не только техническую успешность.

Для работников и политиков:

  • Сфокусируйтесь на навыках, требующих контекстного понимания, кросс‑дисциплинарности и верификации (meta‑skills: критическое мышление, системная интеграция, коммуникация).
  • Образовательные программы и переобучение должны учитывать роль человека в верификации и управлении AI.
  • Политика занятости должна предусматривать поддержку при переходах и создание инструментов для проверки качества автоматизированных поставок.

Для исследователей/разработчиков:

  • Нужны более реалистичные бенчмарки (как RLI) и метрики, ориентированные на экономическую полезность.
  • Важны работы по «заземлению» (grounding), верификации фактов и устойчивой памяти у моделей.

Заключение

RLI от Scale AI показывает важную мысль: мы стоим в середине волны — модели становятся всё мощнее, но реальная способность заменить сложную, многокомпонентную и экономически значимую работу остаётся ограниченной. Это не означает, что глобальные изменения не наступят — они наступят, но постепеннее и с иным профилем: AI будет убирать и трансформировать подзадачи, а люди — смещаться в роли проверяющих, интеграторов и творцов новых процессов. Понять этот переход и подготовиться — ключевая задача как для компаний, так и для сотрудников и регулирующих органов.

Источник исследования (полный текст): Remote Labor Index — paper.pdf

Хотите создать уникальный и успешный продукт? СМС – ваш надежный партнер в мире инноваций! Закажи разработки ИИ-решений, LLM-чат-ботов, моделей генерации изображений и автоматизации бизнес-процессов у профессионалов.

ИИ сегодня — ваше конкурентное преимущество завтра!

Тел. +7 (985) 982-70-55

E-mail sms_systems@inbox.ru

Сайт https://www.smssystems.ru/razrabotka-ai/