1917 подписчиков

ИИ могут генерировать почти дословные копии романов из обучающих данных

23 февраля23 фев

5 мин

LLM запоминают больше обучающих данных, чем считалось ранее, что ставит под сомнение заявления разработчиков ИИ об отсутствии хранения контента, защищенного авторским правом, и может иметь серьезные юридические последствия. — arstechnica.com Ведущие мировые модели искусственного интеллекта (ИИ) можно побудить генерировать почти дословные копии бестселлеров, что вновь поднимает вопросы о заявлении индустрии о том, что ее системы не хранят защищенные авторским правом произведения. Серия недавних исследований показала, что большие языковые модели от OpenAI, Google, Meta*, Anthropic и xAI запоминают гораздо больше данных из своего обучающего набора, чем предполагалось ранее. Эксперты в области ИИ и юристы сообщили FT, что эта способность к «запоминанию» может иметь серьезные последствия для борьбы групп разработчиков ИИ с десятками исков об авторском праве по всему миру, поскольку она подрывает их основной аргумент защиты о том, что LLM «учатся» на произведениях, защищенных авторским право

Ведущие мировые модели искусственного интеллекта (ИИ) можно побудить генерировать почти дословные копии бестселлеров, что вновь поднимает вопросы о заявлении индустрии о том, что ее системы не хранят защищенные авторским правом произведения.

Серия недавних исследований показала, что большие языковые модели от OpenAI, Google, Meta*, Anthropic и xAI запоминают гораздо больше данных из своего обучающего набора, чем предполагалось ранее.

Эксперты в области ИИ и юристы сообщили FT, что эта способность к «запоминанию» может иметь серьезные последствия для борьбы групп разработчиков ИИ с десятками исков об авторском праве по всему миру, поскольку она подрывает их основной аргумент защиты о том, что LLM «учатся» на произведениях, защищенных авторским правом, но не хранят их копии.

«Появляется все больше свидетельств того, что запоминание — это более значимое явление, чем считалось ранее», — заявил Ив-Александр де Монжуа, профессор прикладной математики и информатики в Имперском колледже Лондона.

Группы разработчиков ИИ долгое время утверждали, что запоминание не происходит. В письме Бюро по авторским правам США от 2023 года Google заявлял, что «в самой модели нет копии обучающих данных — будь то текст, изображения или другие форматы».

Индустрия ИИ также утверждает, что обучение моделей на книгах, защищенных авторским правом, является «добросовестным использованием» (fair use), утверждая, что технология преобразует оригинальное произведение во что-то существенно новое.

Однако в исследовании, опубликованном в прошлом месяце, показано, что исследователи из Стэнфордского и Йельского университетов смогли стратегически побудить LLM от OpenAI, Google, Anthropic и xAI сгенерировать тысячи слов из 13 книг, включая A Game of Thrones, The Hunger Games и The Hobbit.

Попросив модели закончить предложения из книги, Gemini 2.5 воспроизвела 76,8 процента текста Harry Potter and the Philosopher’s Stone с высокой степенью точности, в то время как Grok 3 сгенерировал 70,3 процента.

Им также удалось извлечь почти весь роман «почти дословно» из Claude 3.7 Sonnet от Anthropic путем «джейлбрейка» модели, когда пользователи могут побудить LLM игнорировать свои защитные механизмы.

Это дополняет исследование прошлого года, в котором было обнаружено, что «открытые» модели, такие как Llama от Meta*, запоминают огромные части определенных книг в своих обучающих данных.

Ранее эксперты по ИИ не были уверены, подвержены ли закрытые модели, которые, как правило, имеют больше защитных механизмов, предотвращающих генерацию нежелательного контента, крупномасштабному запоминанию.

«Было сюрпризом, что они смогли запомнить целые тексты» несмотря на защитные барьеры, — сказала А. Федер Купер, исследователь из Йельского университета, участвовавшая в исследовании.

Исследователи еще не выяснили, почему LLM запоминают то, что появляется в их обучающих данных. Также остается неясным, какая часть обучающих данных проявляется в генерируемых ими результатах.

Эта функция запоминания также может иметь серьезные последствия в других секторах, таких как здравоохранение и образование, где утечка любых обучающих данных может привести к проблемам с конфиденциальностью и секретностью.

Юристы заявили, что это может создать значительную ответственность для групп разработчиков ИИ в отношении нарушения авторских прав, а также повлечь последствия для того, как компании, занимающиеся ИИ, обучают свои модели и каковы затраты на их разработку.

Результаты исследования «могут бросить вызов тем, кто утверждает, что модель ИИ не хранит и не воспроизводит какие-либо произведения, защищенные авторским правом», — сказала Кэрис Уинн Дэвис, партнер по интеллектуальной собственности в юридической фирме Pinsent Masons.

Запоминают ли модели ИИ свои обучающие данные или нет, играло важную роль в недавних судебных баталиях по поводу авторского права.

В прошлом году суд США постановил, что обучение Anthropic LLM на некотором контенте, защищенном авторским правом, может считаться добросовестным использованием, поскольку оно было признано «трансформативным».

Однако суд определил, что хранение пиратских произведений является «по своей сути, неисправимо нарушающим», что затем привело к тому, что группа разработчиков ИИ выплатила 1,5 миллиарда долларов для урегулирования иска.

В Германии постановление от ноября прошлого года установило, что OpenAI нарушила авторские права, поскольку ее модель запомнила тексты песен. Дело, возбужденное GEMA, ассоциацией, представляющей композиторов, авторов текстов и издателей, было признано знаковым решением в ЕС.

Руди Тельшер, партнер юридической фирмы Husch Blackwell, заявил, что воспроизведение целой книги без джейлбрейка «очевидно является нарушением авторских прав». Но «вопрос в том, происходит ли это достаточно часто, чтобы [модели ИИ] могли нести косвенную ответственность за нарушение», — добавил он.

Anthropic заявила, что техника джейлбрейка, использованная в исследовании Стэнфорда и Йеля, непрактична для обычных пользователей и потребует больших усилий для извлечения текста, чем просто покупка контента.

Компания также добавила, что ее модель не хранит копии конкретных наборов данных, а учится на закономерностях и взаимосвязях между словами и строками в своих обучающих данных.

xAI, OpenAI и Google не ответили на запросы о комментариях.

Тот факт, что лаборатории ИИ внедрили защитные механизмы для предотвращения извлечения обучающих данных, означает, что они осведомлены о проблеме, — сказал де Монжуа из Имперского колледжа.

Бен Чжао, профессор информатики в Чикагском университете, поставил под сомнение, действительно ли лабораториям ИИ необходимо использовать контент, защищенный авторским правом, в обучающих данных для создания передовых моделей.

«Независимо от того, достижим ли технический результат, вопрос остается в том, должны ли мы это делать?» — сказал Чжао. «Юридическая сторона в конечном итоге должна настоять на своем и действительно стать арбитром во всем этом процессе».

Facebook*, Instagram* и WhatsApp* принадлежат компании Meta* Platforms Inc., деятельность которой признана экстремистской и запрещена на территории Российской Федерации.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Автор – Melissa Heikkilä, Financial Times

Оригинал статьи

Гаджеты и электроника

5,73 млн интересуются