С развитием крупных языковых моделей (LLM) и генеративного ИИ в 2023–2025 годах всё больше внимания привлекает вопрос: на чём обучаются эти алгоритмы? Исследования, утечки и журналистские расследования выявили тревожный тренд — корпорации массово используют личные данные пользователей, включая переписки, изображения и голосовые команды, зачастую без прямого согласия. Для того чтобы крупная модель вроде GPT, Claude, Gemini или Midjourney научилась генерировать убедительный текст, изображение или звук, она должна пройти обучение на огромных массивах данных — от Википедии до комментариев в Reddit, от подкастов до книг и форумов. Чем больше данных, тем «умнее» ИИ. Однако основной вопрос — какие именно данные используются и было ли получено разрешение их использовать. NYT подал в суд на OpenAI и Microsoft, утверждая, что их статьи массово использовались для тренировки GPT без согласия. В иске указывалось, что чат-боты дословно воспроизводят защищённые авторским правом материалы, что стало с
Секретные базы для обучения ИИ: как корпорации собирают ваши данные без разрешения
7 августа 20257 авг 2025
6
3 мин