878 подписчиков
Слово вырубишь нейросетью
Благодаря новым деталям судебного разбирательства американской Гильдии авторов с OpenAI стало известно, что разработчик удалил два крупных датасета с книгами из базы обучения нейросетей типа GPT. Это случилось еще в 2022 году ввиду неиспользования этих данных.
Адвокаты гильдии сообщали о как минимум 100 000 книг, на которых обучали языковые модели, без соответствующего разрешения от авторов. Информация из этих книг составила до 16% итогового датасета модели GPT-3, активная работа над которым велась в 2020–2021 годах.
Сейчас датасет не используется, а сотрудники, ответственные за его составление, более не работают в OpenAI. Несмотря на то что удаление книжной базы данных прошло два года назад, об этом компании пришлось сообщить только из-за давления гильдии в судебном разбирательстве.
Около минуты
8 мая 2024