139,1 тыс подписчиков

Компания Runway попалась на краже более 100 000 видео с YouTube для обучения ИИ

26 июля 202426 июл 2024

2 мин

В мире высоких технологий разгорелся новый скандал, связанный с этикой использования данных для обучения искусственного интеллекта (ИИ). Американская компания Runway, известная своим генератором видео на базе искусственного интеллекта, оказалась в центре внимания из-за обвинений в несанкционированном использовании более 100 000 видеороликов с платформы YouTube.

В настоящее время искусственный интеллект способен творить чудеса, генерируя тексты, изображения и даже видео, поражающие своей реалистичностью. Однако за кулисами этого технологического волшебства скрывается неприглядная реальность: многие компании, разрабатывающие ИИ, используют для обучения своих моделей данные, полученные сомнительным путем.

Недавнее расследование пролило свет на масштабы проблемы. Оказалось, что не только Runway, но и такие гиганты, как Apple, NVIDIA и Anthropic, использовали огромный массив транскриптов видео с YouTube без соответствующих разрешений. Это прямое нарушение правил пользования платформой, о чем ранее недвусмысленно заявлял генеральный директор YouTube.

Но случай с Runway выделяется особо. Согласно отчету издания 404 Media, компания не ограничилась транскриптами, а загрузила сами видео – десятки тысяч роликов с каналов Washington Post, New York Times, Wall Street Journal и многих других. Более того, для обучения своей модели Gen-3 Alpha Runway якобы использовала даже пиратский контент.

Масштаб "заимствований" поражает: 21 000 видео от Washington Post, 10 000 от New York Times, 27 000 от Wall Street Journal. Даже популярный техноблогер MKBHD обнаружил, что 1 600 его видео были использованы без его ведома.

Бывший сотрудник Runway, пожелавший остаться анонимным, раскрыл детали операции: "Мы целенаправленно искали качественные видео по всему YouTube. Затем использовали специальную программу-краулер, которая скачивала контент, обходя защиту Google с помощью прокси-серверов".

Этот случай поднимает важные вопросы об этике в сфере ИИ. Где проходит грань между инновациями и нарушением авторских прав? Как защитить интеллектуальную собственность в эпоху больших данных? И главное – можем ли мы доверять компаниям, которые в погоне за технологическим прогрессом готовы идти на сомнительные с этической точки зрения шаги?