Теперь мы можем узнать откуда ИИ берет информацию для обучения.

Новый интерактивный инструмент для пользователей позволяет идентифицировать, отслеживать, и понимать правовой статус подготовки наборов данных для Генеративных ИИ. И невооруженным взглядом видно, что многие могут столкнуться с проблемами связанными с лицензированием.

Названный как Data Provenance Explorer, этот инструмент является результатом сотрудничества специалистов по машинному обучению и юристов из Массачусетского Технологического Института, поставщика API для Генеративного ИИ Coherе, и еще 11 различных организаций, включая Гарвардский Школу Права, Университет Карнеги Меллона, и Apple. Этот инструмент позволяет исследователям и журналистам, и другим лицам проводить поиск в тысячах баз данных обучения ИИ и проследить происхождение широко используемых наборов данных.

Суть идеи заключается в предоставлении способа исследовать иногда туманный мир обучающих данных используемых для Генеративного ИИ. Команда стоящая за этим инструментом описала “кризис в прозрачности данных” в своем официальном объявлении анонсирующем этот продукт. Наборы данных полученные через краудсорсинг, часто не имеют известную лицензию.

Около минуты

7 ноября 2023