1921 подписчик

Как Anthropic оценивала «теоретические возможности» ИИ на рынке труда в контексте «hardware»?

31 марта31 мар

8 мин

Анализ отчета Anthropic: исследование 2023 года создало пугающие прогнозы о возможностях ИИ, основываясь на устаревших догадках о будущем «ожидаемом программном обеспечении на базе LLM». — arstechnica.com Если вы следите за продолжающимися дебатами о растущем экономическом влиянии ИИ, то, возможно, видели представленную ниже инфографику, которая циркулирует в этом месяце. Она взята из отчета Anthropic о влиянии ИИ на рынок труда и призвана сравнить текущую «наблюдаемую подверженность» профессий большим языковым моделям (LLM) (красным цветом) с «теоретической способностью» тех же LLM (синим цветом) в разрезе 22 категорий рабочих мест. Хотя текущая область «наблюдаемой подверженности» сама по себе интересна, именно синяя область «теоретической способности» бросается в глаза. На первый взгляд, график подразумевает, что системы на основе LLM теоретически могут выполнять по меньшей мере 80 процентов отдельных «рабочих задач» в поразительно широком спектре человеческих профессий. Похоже, Ant

Оглавление

Лучший ИИ, который можно купить в 2023 году
Обещание «ожидаемого программного обеспечения на базе LLM»
Посмотрим

Если вы следите за продолжающимися дебатами о растущем экономическом влиянии ИИ, то, возможно, видели представленную ниже инфографику, которая циркулирует в этом месяце. Она взята из отчета Anthropic о влиянии ИИ на рынок труда и призвана сравнить текущую «наблюдаемую подверженность» профессий большим языковым моделям (LLM) (красным цветом) с «теоретической способностью» тех же LLM (синим цветом) в разрезе 22 категорий рабочих мест.

Хотя текущая область «наблюдаемой подверженности» сама по себе интересна, именно синяя область «теоретической способности» бросается в глаза. На первый взгляд, график подразумевает, что системы на основе LLM теоретически могут выполнять по меньшей мере 80 процентов отдельных «рабочих задач» в поразительно широком спектре человеческих профессий. Похоже, Anthropic прогнозирует, что LLM в конечном итоге смогут выполнять подавляющее большинство работ в таких широких категориях, как «Искусство и СМИ», «Офисная и административная работа», «Юридические вопросы, бизнес и финансы» и даже «Менеджмент».

Однако, если вникнуть в основу этих показателей «теоретической способности», картина будущего влияния ИИ на профессии предстает гораздо менее пугающей. При детальном рассмотрении это синее поле представляет собой устаревшие и сильно спекулятивные обоснованные предположения о том, где ИИ, вероятно, повысит производительность труда человека, а не обязательно о том, где он полностью заменит людей.

Лучший ИИ, который можно купить в 2023 году

Базовый уровень «теоретической способности» LLM, на который ссылается Anthropic, основан не на собственных эмпирических тестах компании с использованием текущих моделей или количественно измеримых прогнозах роста производительности с течением времени. Вместо этого Anthropic ссылается на отчет от августа 2023 года под названием «GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models», соавторами которого являются исследователи из OpenAI, OpenResearch и Пенсильванского университета.

Исследователи начинают с отчетов O*NET о детальной рабочей деятельности, которые разбивают отдельные задачи, связанные со многими профессиями, на чрезвычайно гранулированном уровне. Затем они используют комбинацию человеческой аннотации и маркировки с помощью GPT-4, чтобы оценить, может ли «самая мощная на тот момент большая языковая модель OpenAI» сократить время, необходимое для выполнения этой отдельной задачи, по крайней мере на 50 процентов «с эквивалентным качеством». Если нет, они также оценивали, может ли доступ к «ожидаемому программному обеспечению на базе LLM» обеспечить аналогичную экономию времени в будущем.

Ключевой момент: люди, которых консультировали для этой разметки, не были теми, кто фактически выполняет эти работы, или даже теми, кто знаком с ними. Вместо этого это были люди, знакомые с передовым состоянием ИИ в 2023 году, которых просили сделать общие предположения о том, где LLM и будущее программное обеспечение на базе LLM будут наиболее полезны.

Исследователи признают, что, поскольку аннотаторы «в основном не знали о конкретных оцениваемых профессиях», «субъективность разметки» представляет собой «фундаментальное ограничение нашего подхода». Результаты этой разметки показывают то, что исследователи называют «неясной логикой агрегирования задач и профессий, а также некоторые очевидные расхождения в метках». Это довольно серьезные оговорки для создания объективно выглядящей оценки влияния ИИ на профессии.

Изучая подробную рубрику, использованную исследователями, мы также можем увидеть, какие предположения они сделали относительно профессий, которые могли бы иметь наибольшую «прямую подверженность» LLM на тот момент. Эта рубрика содержит множество полезных примеров типов задач, которые могли бы выполнять LLM, включая:

Написание и преобразование текста и кода в соответствии со сложными инструкциями
Предоставление правок существующего текста или кода в соответствии со спецификациями
Написание кода, который может помочь выполнить задачу, ранее выполнявшуюся вручную
Перевод текста между языками
Обобщение документов средней длины
Предоставление отзывов о документах
Ответы на вопросы по документу
Генерация вопросов, которые пользователь может захотеть задать по документу

В целом, это неплохой список задач, в которых LLM были лучшими в 2023 году. Но то, что LLM могла выполнять эти задачи в некоторой степени, не обязательно означает, что она могла делать это таким образом, чтобы «сократить время выполнения задачи с эквивалентным качеством по крайней мере вдвое».

Имейте в виду, например, что исследование 2025 года показало, что разработчики открытого исходного кода, использующие ИИ, работали на 19 процентов медленнее, чем те, кто не использовал ИИ, если учитывать время, затраченное на написание запросов и проверку сгенерированного кода. Также имейте в виду хорошо известную склонность LLM к галлюцинациям и подхалимству, прежде чем предполагать, что их вывод будет «эквивалентного качества» человеческому.

Обещание «ожидаемого программного обеспечения на базе LLM»

Даже при такой щедрой трактовке возможностей LLM, связанных с работой, по состоянию на 2023 год, исследователи подсчитали, что только около 15 процентов всех рабочих задач могли быть сделаны по крайней мере на 50 процентов более эффективными с помощью LLM в то время. В общей сложности только около 2,3 процента профессий имели по крайней мере 50 процентов своих задач O*NET, «подверженных» LLM того времени таким образом.

Чтобы получить более пугающие цифры, показанные на графике в начале этой статьи, исследователям пришлось начать прогнозировать влияние «ожидаемого программного обеспечения на базе LLM» на различные рабочие места.

Вспомните на секунду состояние индустрии ИИ в августе 2023 года, сразу после выпуска модели GPT-4 от OpenAI. Этот момент мог ознаменовать своего рода пик ажиотажа вокруг ИИ. Примерно в это время Илон Маск и другие призывали к шестимесячной паузе в разработке ИИ из опасений, что мы «рискуем потерять контроль над нашей цивилизацией», а Элиезер Юдковский предупреждал, что мы должны быть готовы «уничтожить вышедший из-под контроля дата-центр авиаударом», если сверхчеловеческая сущность ИИ угрожает всей жизни на Земле. Джеффри Хинтон уходил из Google, чтобы иметь возможность открыто говорить об опасениях, что ИИ «может стать умнее людей» и «выйти из-под контроля». И широко известное влияние рабочих сбоев из-за галлюцинаций ИИ только начинало привлекать всеобщее внимание.

Именно в этой обстановке экспертов по ИИ просили спрогнозировать будущие возможности LLM-программного обеспечения по изменению рабочих мест.

Важно отметить, что исследователи даже не установили для себя крайний срок, когда эти эффекты будут видны в будущем программном обеспечении. «Мы не делаем прогнозов о сроках разработки или внедрения таких LLM», — пишут исследователи, создавая, по сути, неограниченный горизонт, который ограничивает предсказательную силу такого рода проекций.

Изучение некоторых примеров показывает, насколько сильно разметчики полагаются на будущие возможности LLM. Например, исследователи предсказывают, что на ведение переговоров о покупках или контрактах могут повлиять LLM, потому что «каждая сторона могла бы транскрибировать свою точку зрения, а затем передать это в LLM для разрешения любых споров». Хотя некоторые люди могут использовать LLM таким образом в какой-то момент, даже исследователи беззаботно признают, что «многие люди должны будут согласиться на использование новых технологических инструментов для достижения этого».

Именно эти перспективные предположения о программном обеспечении на базе LLM генерируют более ошеломляющие цифры «теоретической способности», подобные тем, на которые ссылается Anthropic. При самой щедрой трактовке этой меры исследователи прогнозируют, что «от 47 до 56 процентов всех задач» в конечном итоге будут выполняться по крайней мере на 50 процентов быстрее с помощью LLM, и что 19 процентов всех работников «заняты в профессии, где более половины задач помечены как подверженные воздействию». Это расширяется до 100 процентов всех рабочих задач для некоторых «полностью подверженных» профессий, включая «математиков», «писателей и авторов» и «веб-дизайнеров и дизайнеров цифровых интерфейсов», по мнению исследователей.

Посмотрим

Даже здесь, однако, важно отметить, что исследователи не предполагают, что LLM смогут заменить людей или работать без посторонней помощи при выполнении этих задач. Использование программного обеспечения на базе LLM для ускорения выполнения рабочей задачи — это не то же самое, что полная замена человеческого труда этим же программным обеспечением.

Иногда исследователи даже прямо указывают на сохраняющуюся потребность в человеческом труде. Например, в отношении назначения лекарств исследователи отмечают, что «модель может давать предположения для различных диагнозов и писать рецепты и истории болезни. Однако для принятия окончательного решения по-прежнему требуется участие человека, использующего свое суждение и знания». Исследователи также прямо отмечают, что они проводят свой анализ «без различения между эффектами дополнения труда или вытеснения труда».

Анализируя текущую статистику безработицы, Anthropic заявляет, что не видит дифференцированного воздействия на рабочие места, наиболее подверженные текущему использованию LLM, и на те, которые наименее подвержены. Но Anthropic также предупреждает, что влияние ИИ на рабочие места может проявиться в данных о занятости с задержкой — подобно влиянию китайского производства или Интернета — и его может быть трудно отличить от обычных проблем делового цикла.

В любом случае, Anthropic заявляет, что, хотя текущее использование ИИ, которое наблюдается, в некоторой степени коррелирует с этими прогнозами 2023 года, текущее использование «далеко от достижения своей теоретической способности: фактический охват остается долей от того, что осуществимо». Но эта «осуществимая» способность на данный момент основана на устаревших догадках, которые даже первоначальные исследователи признают крайне ограниченными в своей полезности.

«Точное прогнозирование будущих применений LLM остается серьезной проблемой даже для экспертов», — писали они тогда. «Некоторые задачи, на которые сегодня маловероятно повлияют LLM или программное обеспечение на базе LLM, могут измениться с появлением новых возможностей моделей. И наоборот, задачи, которые кажутся подверженными воздействию, могут столкнуться с непредвиденными проблемами, ограничивающими применение языковых моделей».

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Автор – Kyle Orland

Оригинал статьи

Бизнес и финансы

1,13 млн интересуются