Добавить в корзинуПозвонить
Найти в Дзене
НТВ

«Корм» для ИИ: как крупные компании охотятся за данными пользователей соцсетей

Крупнейшие компании, разрабатывающие искусственный интеллект, начали агрессивно захватывать социальные сети или заключать сделки с ними, чтобы получить доступ к огромным массивам пользовательских данных. Об этом пишет обозреватель Bloomberg Дейв Ли. По его словам, такая информация стала критически важной для обучения ИИ-моделей, и теперь личные посты, фотографии и даже комментарии миллионов людей превращаются в «топливо» для алгоритмов. Современные ИИ-системы, такие как ChatGPT, сталкиваются с одинаковой проблемой — после обработки практически всех человеческих знаний, им требуется все новый контент для дальнейшего обучения. Синтетические данные не всегда подходят, так как могут усиливать предвзятость или приводить к искажениям. И компании обратились к соцсетям как идеальному источнику «человеческого» контента: постов, фотографий, обсуждений и новостей. Миллионы пользователей ежедневно публикуют информацию, использование которой не связано с риском нарушения авторских прав, возникающег
   Фото: Igor Omilaev / unsplash.com
Фото: Igor Omilaev / unsplash.com

Крупнейшие компании, разрабатывающие искусственный интеллект, начали агрессивно захватывать социальные сети или заключать сделки с ними, чтобы получить доступ к огромным массивам пользовательских данных. Об этом пишет обозреватель Bloomberg Дейв Ли. По его словам, такая информация стала критически важной для обучения ИИ-моделей, и теперь личные посты, фотографии и даже комментарии миллионов людей превращаются в «топливо» для алгоритмов.

Современные ИИ-системы, такие как ChatGPT, сталкиваются с одинаковой проблемой — после обработки практически всех человеческих знаний, им требуется все новый контент для дальнейшего обучения. Синтетические данные не всегда подходят, так как могут усиливать предвзятость или приводить к искажениям. И компании обратились к соцсетям как идеальному источнику «человеческого» контента: постов, фотографий, обсуждений и новостей. Миллионы пользователей ежедневно публикуют информацию, использование которой не связано с риском нарушения авторских прав, возникающего при использовании других источников.

«Пользователи социальных сетей уже давно являются „продуктом“. Теперь они также являются своего рода „разработчиками продукта“ благодаря своим публикациям», — пишет обозреватель Bloomberg Дейв Ли.

Meta* (владелец Facebook** и Instagram**) уже уведомила пользователей, что их публикации будут использоваться для обучения ИИ Llama. Илон Маск, чья компания xAI разрабатывает ИИ Grok, официально приобрел X (бывший Twitter), получив доступ к архивам твитов за почти 20 лет. Microsoft активно поощряет пользователей LinkedIn публиковать больше контента, хотя и не делится этими данными со своим партнером OpenAI. Последняя, судя по слухам, даже рассматривает возможность создания собственной социальной сети.

Компании, у которых нет своих платформ, ищут обходные пути. Например, Perplexity, разрабатывающая ИИ-поисковик, пыталась купить TikTok, чтобы получить доступ к миллиардам видеороликов. Google, несмотря на провал с запуском собственной соцсети Google+, заключил сделку с Reddit, чтобы использовать его базу обсуждений для обучения своих моделей.

Все эти действия происходят за спиной пользователей, которые изначально публиковали контент для других целей. Компании тихо меняют политики конфиденциальности, легализуя использование данных для ИИ. Хотя в настройках некоторых платформ можно запретить использование своих данных для обучения алгоритмов, скорее всего, это уже запоздалая мера. ИИ требует «больше входных данных» и компании готовы добывать их любыми способами.

По материалам: Bloomberg.

*Meta — признана экстремистской, ее деятельность запрещена в РФ.

**Facebook и Instagram — принадлежат Meta, признанной экстремистской и запрещенной в РФ.