Найти тему
OVERCLOCKERS.RU

Поисковый робот AppleBot теперь также ищет данные для обучения ИИ

В рамках своей стратегии в области искусственного интеллекта Apple впервые предоставила глубокую информацию о своих специально разработанных моделях искусственного интеллекта, которые называются Apple Foundation Models (AFM). Это довольно небольшая модель (LLM) с тремя миллиардами параметров, достаточно маленькая и эффективная для работы на iPhone или iPad. В то же время существует возможность передать вычислительные задачи на аутсорсинг в облако Apple, если конечное устройство не может выполнить их самостоятельно.

Но как Apple обучает свои AFM? Собственно, как и все остальные компании, будь то OpenAI или Google.

«Это обучение включает в себя данные, которые мы лицензировали у издателей, курируемые, общедоступные или открытые наборы данных, а также общедоступную информацию, просканированную нашим веб-сканером Applebot», — говорится в научной статье, представляющей AFM.

Будут приняты во внимание запреты на сканирование, которые обычно создаются с помощью файлов robots.txt.

«Мы уважаем право веб-издателей исключать Applebot с помощью стандартных директив robots.txt», — заявляет Apple.

А если контент будет использован, это обеспечит удаление «определенных категорий личной информации». В дополнение к «бесплатному» контенту также будут приобретаться наборы данных от издателей для обучения моделей ИИ. Недавно прозвучало обвинение в том, что Apple использует видео на YouTube для обучения. Но компания отрицала, что использовала подобные данные из печально известной обучающей базы данных «The Pile».

В любом случае, AppleBot уже давно сканирует в интернете сайты, которые явно не запрещают его использование. Изначально сканер был разработан для включения таких функций, как голосовое управление Siri или предложения Spotlight — это функции iPhone или Mac, позволяющие обращаться к внешним источникам, таким как сайты, или отображать или считывать оттуда отрывки контента.

CloudFlare недавно показал, какие парсинг-боты наиболее активны в сети (парсинг – это быстрый сбор информации, расположенной на страницах; такие боты могут использоваться для сбора информации о пользователях для дальнейших рассылок, анализа активности каналов и комментариев пользователей).

Компания предлагает защиту от парсинга — техническую меру для защиты от ботов компаний, занимающихся искусственным интеллектом, и защиты контента пользователей. Хотя некоторые операторы сайтов блокируют сканирование ботов с помощью файлов robots.txt, не все боты должны придерживаться этого правила. В любом случае, по данным CloudFlare, наиболее активными ботами являются:

-2

📃 Читайте далее на сайте