По мнению журналистов The New York Times, крупные корпорации в погоне за материалами для обучения ИИ порой игнорируют законодательные и морально-этические нормы, например, «забывая» об авторских правах. Так, согласно данным СМИ, в компании OpenAI создали программное обеспечение, расшифровывающее речь людей в роликах на Youtube и переводящее ее в текст. Это позволило фирме получить огромное количество контента для обучения GPT-4. Похожей стратегии придерживаются и конкуренты OpenAI, включая Google.
Наиболее значительную ценность для обучения ИИ представляют качественные тексты из книг и статей, написанных и отредактированных квалифицированными людьми. По оценкам экспертов, такие тексты могут быть почти полностью использованы уже в 2026-2027 годах. Единственным же практически применимым и экономически выгодным способом совершенствования чат-ботов останется обучение на колоссальных массивах информации с различных площадок без согласия правообладателей. Подобная политика уже стала предметом ряда судебных разбирательств. При этом чем на большем количестве данных обучен ИИ – тем лучше он работает. Глава OpenAI Сэм Альтман предлагал обучать нейросети на основе текстов, сгенерированных другими нейросетями, но это сопряжено со значительными рисками — с каждым циклом такого обучения могут накапливаться ошибки.