Недовольные тем, что ИИ-компании потребляют онлайновый контент без согласия, авторы фантастики, актеры, компании, работающие в социальных сетях, и новостные организации протестуют.
Писатели-фантасты - лишь одна из групп, устраивающих протесты против систем искусственного интеллекта, поскольку лихорадка вокруг этой технологии охватила Кремниевую долину и весь мир. В последние месяцы компании социальных сетей, такие как Reddit и Twitter, новостные организации, включая The New York Times и NBC News, авторы, такие как Пол Тремблей и актриса Сара Сильверман, заняли позицию против того, чтобы AI без разрешения собирали их данные.
Их протесты принимают различные формы. Писатели и художники закрывают свои файлы от публичного доступа, чтобы защитить свои работы, или бойкотируют некоторые сайты, публикующие контент, созданный AI, а такие компании, как Reddit, хотят взимать плату за доступ к их данным. В этом году было подано не менее 10 судебных исков против компаний, занимающихся разработкой AI, обвиняющих их в том, что они обучают свои системы творчеству художников без их согласия. На прошлой неделе г-жа Сильверман и авторы Кристофер Голден и Ричард Кадри подали иск против компании OpenAI, создателя ChatGPT, и других компаний в связи с использованием AI их работ.
В основе этих протестов лежит новое понимание того, что сетевая информация - рассказы, произведения искусства, новостные статьи, сообщения на досках объявлений и фотографии - может обладать определенной нематериальной ценностью.
Новая волна ИИ, известная как "генеративная ИИ" за создаваемые ею тексты, изображения и другой контент, строится на основе сложных систем, таких как большие языковые модели, способные создавать человекоподобную прозу. Эти модели обучаются на огромном количестве данных, что позволяет им отвечать на вопросы людей, имитировать стиль письма, создавать юмористические и поэтические произведения.
GPT-3 компании OpenAI, система искусственного интеллекта, выпускаемая в 2020 году, охватывает 500 млрд. "лексем", каждая из которых представляет собой части слов, встречающихся в основном в Интернете. Некоторые модели ИИ насчитывают более одного триллиона "лексем".
Практика сбора информации из Интернета существует давно и была в значительной степени раскрыта компаниями и некоммерческими организациями, которые этим занимались. Однако компании, владеющие этими данными, не очень хорошо понимали ее и не считали это проблемой. Ситуация изменилась после того, как в ноябре состоялся дебют ChatGPT, и общественность узнала больше о моделях искусственного интеллекта, на основе которых работают чат-боты.
В связи с этим технологические компании начали охоту за еще большим количеством данных для своих систем искусственного интеллекта. Google, Meta и OpenAI, по сути, использовали информацию со всего Интернета, включая большие базы данных художественной литературы, новостные статьи и коллекции книг, большая часть которых находилась в свободном доступе в сети.
GPT-3 компании OpenAI, система искусственного интеллекта, выпускаемая в 2020 году, охватывает 500 млрд. "лексем", каждая из которых представляет собой части слов, встречающихся в основном в Интернете. Некоторые модели ИИ насчитывают более одного триллиона "лексем".
Практика сбора информации из Интернета существует давно и была в значительной степени раскрыта компаниями и некоммерческими организациями, которые этим занимались. Однако компании, владеющие этими данными, не очень хорошо понимали ее и не считали это проблемой. Ситуация изменилась после того, как в ноябре состоялся дебют ChatGPT, и общественность узнала больше о моделях искусственного интеллекта, на основе которых работают чат-боты.
В долгосрочной перспективе протесты против данных могут оказаться малоэффективными. Такие технологические гиганты, как Google и Microsoft, уже обладают огромным объемом закрытой информации и имеют все возможности для ее лицензирования. Но по мере того как эпоха легкодоступного контента подходит к концу, более мелкие начинающие АИ-специалисты и некоммерческие организации, которые надеялись составить конкуренцию крупным компаниям, могут оказаться не в состоянии получить достаточное количество контента для обучения своих систем.
В заявлении OpenAI говорится, что ChatGPT обучался на "лицензионном контенте, общедоступном контенте и контенте, созданном людьми, обучающими AI". Она добавила: "Мы уважаем права создателей и авторов и надеемся на дальнейшее сотрудничество с ними для защиты их интересов".
В заявлении Google говорится, что компания участвует в переговорах о том, как издатели смогут управлять своим контентом в будущем. "Мы считаем, что от динамично развивающейся экосистемы контента выигрывают все", - заявила компания. Компания Microsoft не ответила на просьбу о комментарии.
Протесты против сбора данных начались в прошлом году после того, как ChatGPT стал широко известен. В ноябре группа программистов подала коллективный иск против Microsoft и OpenAI, утверждая, что компании нарушили их авторские права после того, как их код был использован для обучения помощника по программированию, работающего под управлением ИИ.
В январе компания Getty Images, предоставляющая стоковые фотографии и видео, подала в суд на компанию Stability A.I., занимающуюся созданием изображений на основе текстовых описаний, утверждая, что эта компания использовала защищенные авторским правом фотографии для обучения своих систем.
Источник: NY Times
Актуальные новости в телеграм https://t.me/navigator_it