5339 подписчиков

Интеллектуальные права на искусственный интеллект

30 марта30 мар

5 мин

Не успели отбушевать споры о том, кому принадлежат авторские права на продукт, разработанный с помощью нейронных сетей, как возник новый спор — а каковы авторские права на то, на основе чего генерируется этот самый продукт нейросетей? С произведениями, сгенерированными нейросетям, сейчас всё вроде как более или менее понятно — и российские, и зарубежные суды становятся на сторону тех, кто с помощью нейронной сети генерировал текст или изображение, поскольку человеком был сделан творческий вклад в процессе генерации (мотивировка российских судов) или в процессе создания программного кода (мотивировка китайских и австралийскийх судов). Таким образом, если вы сгенерируете милого котика и разместите в Интернете, то использование этого котика другими лицами возможно только с вашего разрешения. Вроде как все логично. Но... нет. Поскольку в генерации текста, видео или изображения есть не только творческий вклад того, кто выдал промпты, не только того, кто разработал код, но и тысячи и миллион

С произведениями, сгенерированными нейросетям, сейчас всё вроде как более или менее понятно — и российские, и зарубежные суды становятся на сторону тех, кто с помощью нейронной сети генерировал текст или изображение, поскольку человеком был сделан творческий вклад в процессе генерации (мотивировка российских судов) или в процессе создания программного кода (мотивировка китайских и австралийскийх судов). Таким образом, если вы сгенерируете милого котика и разместите в Интернете, то использование этого котика другими лицами возможно только с вашего разрешения.

Вроде как все логично. Но... нет. Поскольку в генерации текста, видео или изображения есть не только творческий вклад того, кто выдал промпты, не только того, кто разработал код, но и тысячи и миллионов изображений, текстов, видео, на основе которых эта генерация произошла. Ни один самый невероятный ИИ-агент не сможет сгенерировать ничего, не имея этой базы. И какие бы мы промпты ни написали, милый котик не получится, если в хранилищах данных не лежат образцы других милых котиков, размеченных, отклассифицированных и разложенных по признакам. Напомню, что в основе любой сети любой архитектуры в том числе и лежит статистика и алгоритмы обработки статистической информации, ее частотности, вероятностный анализ и вариация. Алгоритмы подбирают просто наиболее статистически вероятный (то есть частотный) вариант комбинации черт и признаков котика. И в алгоритмах заложено, что наиболее частый ответ — наиболее верный. Соответственно, в основе милого котика не должны лежать милые котики, сфотографированные, нарисованные, сгенерированные ранее. И у всех этих котиков есть автор, которому и принадлежат на них права. По сути, GAN использует творческий вклад авторов, которые всячески старались сфотографировать котика с наибольшим градусом умильности, чтобы создать котика, у которого все признаки и старания безымянных авторов будут максимально выражены. Если смотреть на нейросети с этого ракурса, то получается, что фактически все, кто занимается генерацией, немножечко как бы… вторичны по отношению к оригинальным произведениям, а их творческий вклад не такой уж и творческий.

И тут вроде как защита прав этих самых миллионов безымянных авторов произведений становится важной. А теперь давайте развернем диван и посмотрим на ситуацию с другой стороны.

И сторона эта называется «расстройство модельной аутофагии» (Model Autophagy Disorder, MAD), или галлюцинации нейронных сетей. Одна из причин этой проблемы в том, что у нейросетей есть практически неограниченный доступ к низкокачественной и не верифицированной информации из Интернета и нет доступа к информации, защищенной авторским правом (например, к техническим справочникам, учебникам, медицинским и ряду научных журналов, закрытым судебным базам данных). А мы же помним, что важна частотность и встречаемость? Так вот, чем больше защищена информация авторским правом, тем ниже ее частотность и встречаемость, и алгоритмы оценивают ее значимость как низкую, выдавая ответы, основанные на источниках с намного меньшей валидностью и верифицированностью. В результате мы получаем неправильные судебные справки, основанные на фейковых решениях, медицинские советы в стиле «лечитесь подоржником», основанные на «популярных» сайтах в Интернете и справочниках, составленных без применения правил доказательной медицины, советы по психологии, основанные на блогах разных поп-психологов и коучей, технические советы, основанные на рекламных материалах. И это хорошо, если в сеть встроены предохранительные алгоритмы, которые позволяют выдать ответ в стиле «к сожалению, информация находится в закрытых источниках и не может быть использована, обратитесь к специалистам». Вопрос в том, что именно специалисты часто хотят получить некую сводку по разным справочникам и отчетам, а взять ее негде. Лично я наблюдала несколько раз такие запросы со сходным ответом. Людям (инженерам) нужно было просто получить список разных результатов расследований аварий на технических объектах определенных типов. И, увы, результат был, как описано выше. А откуда брать несчастной сети проверенные данные, если доступа нет? Как говорится, шьем из материала заказчика. И с этой стороны — доступ нейросетей к справочникам, научным работам, учебным пособиям, клиническим исследованиям и архивным документам — благо, которое значительно повысит безопасность и гигиену использования нейросетей, а также снизит уровень из галлюцинирования.

Но, разумеется, у всех этих источников есть авторы, а у авторов — права. И они ничем не менее важны, чем права авторов фото с котиками. И их тоже надо учитывать и защищать.

Но есть еще и третья проблема. А именно проблема трактовки. Читая результаты клинического исследования или научной работы, мы относимся к прочитанному критично, трактуем его в зависимости от нашей задачи и важности той или иной информации для нас. А вот ни одна модель не обладает критическим мышлением и будет ориентироваться на заданные алгоритмы, веса и прочее… И будут ли они применимы к той или иной задаче или промпту, или просто мы прошли по варианту с наименьшими потерями и несоответствием, никто не знает. А неправильно истолкованная специализированная информация чревата огромными потерями, особенно если это будет касаться столь чувствительных областей, как медицина, инженерия или право.

Вот наш экспертный диван и завис в суперпозиции: и открытый доступ чреват проблемами, и его запрет тоже.

Увы, тут нет варианта «лучше», тут есть вариант «менее хуже». В любом исходе чьи-то интересы пострадают или не будут учтены в полной мере. Нам придется формировать и новую этику, и новые «предохранительные клапаны» при проектировании сетей, и создавать новую правовую базу, чтобы интересы всех сторон пострадали минимально, и не закрыть дверь развитию искусственного интеллекта интеллектуальными правами.

Подробнее на it-world.ru

Гаджеты и электроника

5,73 млн интересуются