Найти тему

Данные, на которых работает ИИ, быстро исчезают

Новое исследование, проведенное в рамках инициативы Data Provenance, выявило резкое сокращение объема контента, доступного для обучения искусственного интеллекта.

На протяжении многих лет разработчики мощных систем искусственного интеллекта использовали огромные массивы текстов, изображений и видео, извлеченных из Интернета, для обучения своих моделей.

Теперь эти данные улетучиваются.

За последний год многие из важнейших интернет-источников, используемых для обучения моделей ИИ, ограничили использование своих данных, согласно исследованию, сделанному исследовательской группой Data Provenance Initiative под руководством Массачусетского технологического института.

Исследование, в ходе которого были изучены 14 000 оменов, входящих в три наиболее часто используемых набора данных для обучения искусственного интеллекта, выявило «возникающий кризис согласия», поскольку издатели и онлайн-платформы предприняли шаги для предотвращения сбора своих данных.

Исследователи подсчитали, что в трех наборах данных — C4, RefinedWeb и Dolma — 5 процентов всех данных и 25 процентов данных из источников самого высокого качества были ограничены. Эти ограничения устанавливаются с помощью протокола исключения роботов, десятилетнего метода для владельцев веб-сайтов, чтобы предотвратить сканирование их страниц автоматизированными ботами с помощью файла robots.txt.

Исследование также показало, что до 45 процентов данных в одном наборе, C4, были ограничены условиями обслуживания сайтов.

Данные являются основным ингредиентом современных генеративных систем ИИ, которые получают миллиарды примеров текста, изображений и видео. Большая часть этих данных собирается исследователями с общедоступных сайтов и компилируется в большие наборы данных, которые можно загрузить и свободно использовать или дополнить данными из других источников.

Обучение на основе этих данных позволяет инструментам генеративного ИИ, таким как ChatGPT от OpenAI, Gemini от Google и Claude от Anthropic, писать, кодировать и генерировать изображения и видео. Чем больше высококачественных данных поступает в эти модели, тем лучше, как правило, их результаты.

В течение многих лет разработчики ИИ могли довольно легко собирать данные. Но генеративный бум ИИ последних нескольких лет привел к напряженности с владельцами этих данных — многие из которых испытывают опасения по поводу использования их в качестве корма для обучения ИИ или, по крайней мере, хотят получать за это деньги.

По мере роста негативной реакции некоторые издатели установили платные экраны или изменили условия обслуживания, чтобы ограничить использование своих данных для обучения ИИ. Другие заблокировали автоматизированные веб-краулеры, используемые такими компаниями, как OpenAI, Anthropic и Google.

Такие сайты, как Reddit и StackOverflow, начали взимать плату с компаний, занимающихся ИИ, за доступ к данным, а несколько издательств подали в суд — в том числе The New York Times, которая в прошлом году подала в суд на OpenAI и Microsoft за нарушение авторских прав, утверждая, что компании использовали новостные статьи для обучения своих моделей без разрешения.

Такие компании, как OpenAI, Google и Meta, в последние годы приложили огромные усилия для сбора большего количества данных с целью улучшения своих систем, включая расшифровку видеороликов YouTube и изменение собственной политики в отношении данных.

Совсем недавно некоторые компании, занимающиеся разработкой искусственного интеллекта, заключили соглашения с издателями, включая Associated Press и News Corp, владельца The Wall Street Journal, предоставляя им постоянный доступ к своему контенту.

Однако широко распространенные ограничения данных могут представлять угрозу для компаний, занимающихся ИИ, которым необходим постоянный приток высококачественных данных для поддержания актуальности и свежести своих моделей.

Они также могут стать проблемой для небольших компаний, занимающихся ИИ, и академических исследователей, которые полагаются на общедоступные наборы данных и не могут позволить себе лицензировать данные напрямую у издателей. Common Crawl, один из таких наборов данных, включающий миллиарды страниц контента и поддерживаемый некоммерческой организацией, упоминается в более чем 10 000 академических исследований.

Неясно, какие популярные продукты ИИ были обучены на этих источниках, поскольку немногие разработчики раскрывают полный список используемых ими данных. Но наборы данных, полученные из Common Crawl, включая C4 (что означает Colossal, Cleaned Crawled Corpus), использовались компаниями, включая Google и OpenAI, для обучения предыдущих версий своих моделей. Представители Google и OpenAI отказались от комментариев.

Однако, если все данные для обучения ИИ придется получать через лицензионные соглашения, это исключит «исследователей и гражданское общество из участия в управлении технологией».

Компании ИИ утверждают, что их использование общедоступных данных защищено законом о добросовестном использовании. Но сбор новых данных стал сложнее. Некоторые руководители ИИ беспокоятся, что могут натолкнуться на «стену данных» — их термин для обозначения точки, в которой все обучающие данные в общедоступном интернете исчерпаны, а оставшиеся скрыты за платными доступами, заблокированы robots.txt или заперты в эксклюзивных сделках.

Некоторые компании полагают, что могут масштабировать стену данных, используя синтетические данные — то есть данные, которые сами генерируются системами ИИ — для обучения своих моделей. Но многие исследователи сомневаются, что сегодняшние системы ИИ способны генерировать достаточно высококачественных синтетических данных, чтобы заменить данные, созданные человеком.

Другая проблема заключается в том, что, хотя издатели могут попытаться помешать компаниям, занимающимся ИИ, собирать их данные, устанавливая ограничения в своих файлах robots.txt, эти запросы не являются юридически обязательными, и соблюдение требований является добровольным.

Крупные поисковые системы уважают эти запросы на отказ, и несколько ведущих компаний ИИ, включая OpenAI и Anthropic, публично заявили, что они тоже это делают. Но другие компании, включая поисковую систему на базе ИИ Perplexity, обвиняются в их игнорировании.

Одним из главных выводов исследования является то, что нужны новые инструменты, чтобы предоставить владельцам сайтов более точные способы контроля использования своих данных. Некоторые сайты могут возражать против того, чтобы гиганты ИИ использовали их данные для обучения чат-ботов с целью получения прибыли, но могут быть готовы позволить использовать те же данные некоммерческой организации или образовательному учреждению. Прямо сейчас у них нет хорошего способа различать эти виды использования или блокировать одно, разрешая другое.

Но здесь есть и урок для крупных компаний ИИ, которые годами относились к интернету как к шведскому столу данных, где можно есть сколько угодно, не давая владельцам этих данных никакой ценности взамен.