Найти в Дзене
DigiNews

ИИ может переписать код open source, но под силу ли ему изменить лицензию?

Спор вокруг библиотеки chardet: является ли переработка кода с помощью ИИ «чистой» обратной разработкой или это «производная работа», отфильтрованная LLM, меняющая лицензию? — arstechnica.com Инженеры-компьютерщики и программисты давно полагались на обратную разработку как способ скопировать функциональность компьютерной программы, не копируя напрямую защищенный авторским правом код этой программы. Теперь инструменты кодирования на базе ИИ поднимают новые вопросы о том, как этот процесс переписывания в «чистой комнате» разворачивается с юридической, этической и практической точек зрения. Эти вопросы вышли на первый план на прошлой неделе с выпуском новой версии chardet, популярной библиотеки Python с открытым исходным кодом для автоматического определения кодировки символов. Изначально репозиторий был написан программистом Марком Пилгримом в 2006 году и выпущен под лицензией LGPL, которая налагала строгие ограничения на его повторное использование и распространение. Дэн Бланшар взял на
Оглавление

Спор вокруг библиотеки chardet: является ли переработка кода с помощью ИИ «чистой» обратной разработкой или это «производная работа», отфильтрованная LLM, меняющая лицензию? — arstechnica.com

Инженеры-компьютерщики и программисты давно полагались на обратную разработку как способ скопировать функциональность компьютерной программы, не копируя напрямую защищенный авторским правом код этой программы. Теперь инструменты кодирования на базе ИИ поднимают новые вопросы о том, как этот процесс переписывания в «чистой комнате» разворачивается с юридической, этической и практической точек зрения.

Эти вопросы вышли на первый план на прошлой неделе с выпуском новой версии chardet, популярной библиотеки Python с открытым исходным кодом для автоматического определения кодировки символов. Изначально репозиторий был написан программистом Марком Пилгримом в 2006 году и выпущен под лицензией LGPL, которая налагала строгие ограничения на его повторное использование и распространение.

Дэн Бланшар взял на себя поддержку репозитория в 2012 году, но вызвал споры выпуском версии 7.0 chardet на прошлой неделе. Бланшар охарактеризовал этот капитальный ремонт как «полную переработку с нуля, под лицензией MIT» всей библиотеки, созданной с помощью Claude Code, чтобы она стала «намного быстрее и точнее», чем предыдущая версия.

В беседе с The Register Бланшар заявил, что давно хотел, чтобы chardet была добавлена в стандартную библиотеку Python, но у него не хватало времени на исправление проблем с «ее лицензией, скоростью и точностью», которые мешали достижению этой цели. Однако с помощью Claude Code Бланшар смог переработать библиотеку «примерно за пять дней» и добиться 48-кратного прироста производительности.

Однако не все остались довольны таким результатом. Пользователь под именем Марк Пилгрим появился на GitHub, чтобы заявить, что эта новая версия представляет собой неправомерное перелицензирование оригинального кода Пилгрима под более разрешительной лицензией MIT (которая, среди прочего, допускает ее использование в проектах с закрытым исходным кодом). Поскольку это модификация его оригинального кода под лицензией LGPL, Пилгрим утверждает, что эта новая версия chardet также должна сохранять ту же лицензию LGPL.

,

«Их утверждение, что это „полная переработка“, не имеет значения, поскольку они имели достаточный доступ к коду с оригинальной лицензией (то есть это не реализация „чистой комнаты“)», — написал Пилгрим. «Добавление модного генератора кода в смесь никоим образом не дает им никаких дополнительных прав. Я почтительно настаиваю на том, чтобы они вернули проекту его первоначальную лицензию».

Чей это код, в конце концов?

В своем ответе Пилгриму Бланшар признает, что у него был «обширный доступ к исходному коду», что означает, что он не соблюдал традиционного «строгого разделения», обычно используемого для обратной разработки в «чистой комнате». Но эта традиция была установлена для программистов-людей как способ «гарантировать, что полученный код не является производным произведением оригинала», утверждает Бланшар.

В данном случае Бланшар заявил, что новый код, сгенерированный ИИ, «качественно отличается» от предыдущего и «структурно независим от старого кода». В качестве доказательства он приводит статистику схожести JPlag, показывающую, что максимум 1,29 процента любого файла версии 7.0.0 chardet структурно схожи с соответствующим файлом в версии 6.0.0. Сравнение же версии 5.2.0 с версией 6.0.0 выявляет до 80 процентов схожести в некоторых соответствующих файлах.

«Ни один файл в кодовой базе 7.0.0 структурно не напоминает ни один файл из предыдущих версий», — пишет Бланшар. «Это не тот случай, когда „переписали большую часть, но сохранили некоторые файлы“. Ничего не было сохранено».

-2

Бланшар заявляет, что ему удалось осуществить этот процесс «чистой комнаты ИИ», сначала определив архитектуру в проектной документации и изложив некоторые требования для Claude Code. После этого Бланшар «начал в пустом репозитории без доступа к старому дереву исходников и прямо проинструктировал Claude ничего не основывать на коде под лицензиями LGPL/GPL».

,

Однако в этой простой истории есть несколько усложняющих факторов. Во-первых, Claude явно использовал некоторые метафайлы из предыдущих версий chardet, что вызывает прямые вопросы о том, является ли эта версия на самом деле «производной».

Во-вторых, модели Claude обучаются на массивах данных, взятых из открытого Интернета, что означает, что весьма вероятно, что Claude поглотил открытый исходный код предыдущих версий chardet в процессе своего обучения. Является ли это предыдущее «знание» основанием считать творение Claude «производным» от работы Пилгрима — открытый вопрос, даже если новый код структурно отличается от старого.

И, наконец, остается человеческий фактор. Хотя код для этой новой версии был сгенерирован Claude, Бланшар заявил, что он «проверил, протестировал и доработал каждую часть результата с помощью Claude. … Я не писал код вручную, но я был глубоко вовлечен в проектирование, проверку и доработку каждого аспекта этого кода».

Смелый новый мир

Все эти проблемы предсказуемо привели к бурным дебатам о законности версии 7.0.0 chardet в сообществе открытого исходного кода. «В Большой языковой модели, которая поглотила код, который ей поручено воссоздать, нет ничего „чистого“», — заявила The Register исполнительный директор Фонда свободного ПО Зои Куйман.

Но другие считают, что аргументы в стиле «Корабль Тесея», которые часто возникают в спорах о лицензировании кода, здесь не так применимы. «Если вы выбрасываете весь код и начинаете с нуля, даже если конечный результат ведет себя так же, это новый корабль», — сказал разработчик открытого ПО Армин Ронахер в своем блоге, анализируя ситуацию.

,

-3

Если отбросить старые лицензии на код, использование ИИ для создания нового кода с нуля также может создать свои собственные юридические сложности в будущем. Суды уже постановили, что ИИ не может быть автором патента или правообладателем произведения искусства, но еще не вынесли решения о том, что это означает для лицензирования программного обеспечения, созданного полностью или частично с помощью ИИ. Вопросы, связанные с потенциальным «загрязнением» лицензии открытого исходного кода подобным сгенерированным кодом, могут становиться поразительно сложными очень быстро.

Каким бы ни был исход в данном случае, практическое влияние возможности использовать ИИ для быстрого переписывания и перелицензирования многих проектов с открытым исходным кодом — без столь значительных усилий со стороны программистов-людей — вероятно, повлечет за собой огромные последствия для всего сообщества.

«Теперь процесс переписывания настолько прост, что многих это беспокоит», — написал итальянский программист Сальваторе «antirez» Санфилиппо в своем блоге. «Здесь есть более фундаментальная истина: природа программного обеспечения изменилась; перереализации под разными лицензиями — это лишь пример того, как эта природа была изменена навсегда. Вместо того чтобы бороться с каждым проявлением автоматического программирования, я считаю, что лучше построить новую ментальную модель и адаптироваться».

Другие оценивают этот кардинальный сдвиг в более тревожных терминах. «Я разбиваю стекло и дергаю за пожарную сигнализацию!» — заявил евангелист открытого исходного кода Брюс ПеренсThe Register. «Вся экономика разработки программного обеспечения мертва, ушла, закончилась! … Мы уже проходили это раньше, например, когда появилось книгопечатание и возник закон об авторском праве, когда распространился научный метод и внезапно появилась логическая структура для накопления знаний. Я думаю, это событие столь же масштабное».

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Автор – Kyle Orland

Оригинал статьи

Open Source
12 тыс интересуются