139,5 тыс подписчиков

OpenAI тайно транскрибировала миллионы часов видео YouTube для обучения своего ИИ

9 апреля 20249 апр 2024

~1 мин

Процесс обучения ИИ в крупных технологических компаниях остается довольно непрозрачным. Детали этого процесса сложно узнать, так как часто они связаны с нарушением авторских прав.Недавно The New York Times подробно описала, как OpenAI получала данные для обучения своей новой языковой модели GPT-4. Оказалось, что компания исчерпала "все запасы надежных англоязычных текстов в Интернете" и создала инструмент Whisper для транскрипции более миллиона часов видео YouTube - что является нарушением правил платформы.Представитель ChatGPT рассказал The Verge, что компания использует "множество источников, включая общедоступные данные и некоторые партнерские отношения для непубличных данных". В будущем Big Tech может также прибегнуть к использованию синтетических данных, генерируемых самими моделями ИИ.Однако, по-видимому, кража данных остается наиболее распространенной стратегией в этой отрасли. Технологические гиганты нуждаются в большом объеме данных для обучения ИИ и готовы идти на нарушения ради этого.