Найти тему

Первая «Достаточно обученная» большая языковая модель ИИ здесь

Оглавление

«Было бы невозможно обучить ведущие модели ИИ без использования материалов, защищенных авторским правом», — заявила OpenAI в своем заявлении в Палату лордов Великобритании, которое попало в заголовки газет в Интернете в начале этого года.

На самом деле, этот аргумент лежит в основе публичной и юридической защиты компании от ее спорных практик массового сбора данных, используемых для обучения ее моделей искусственного интеллекта, включая большие языковые модели GPT-3.5/4 (LLM), которые лежат в основе ее популярного продукта ChatGPT, а также, косвенно, даже конкурентов, таких как Google, Mistral, Meta, Anthropic и Cohere. Критики утверждают, что OpenAI должна была получить положительное явное согласие и/или выплатить лицензионные сборы владельцам за использование данных, защищенных авторским правом, но компания заявляет, что ее методы являются справедливым трансформационным использованием и что они работают в соответствии с давними нормами Интернета, где контент в течение многих лет очищался многими другими компаниями для обеспечения индексов поисковых систем и других полезных функций. без массовых жалоб. Борьба продолжается в различных продолжающихся судебных процессах.

Но новая модель бросает вызов этому предположению — по крайней мере, бросает вызов представлению о том, что невозможно создать полезную модель, не полагаясь на данные, защищенные авторским правом.

Новый LLM называется KL3M (Kelvin Legal Large Language Model, произносится как «Клем»), и это работа 273 Ventures, двухлетнего стартапа, соучредителями которого являются Дэниел Мартин Кац, профессор права в Иллинойском технологическом институте и директор по стратегии (CSO) предприятия, и его «частый сотрудник» Майкл Боммарито, предприниматель в области юридических технологий, который является генеральным директором 273 Ventures. Дуэт ранее был соучредителем LexPredict, более старого юридического стартапа в области искусственного интеллекта, и продал его глобальной юридической компании Elevate.

KL3M был выпущен в конце февраля 2024 года, но сегодня он удостоился чести стать первым LLM, получившим «Сертификат лицензированной модели (L)» от независимой аудиторской компании Fair Trained, некоммерческой организации, основанной и возглавляемой бывшим руководителем Stability AI Эдом Ньютон-Рексом в начале этого года. Журнал Wired, где моя жена работает главным редактором, первым сообщил эту новость.

Сертификат Fair Trained (L) присуждается только тем компаниям, которые могут доказать в процессе подачи заявки и проверки, что их данные для обучения модели ИИ были получены и использованы в соответствии с «договорным соглашением со стороной, которая имеет права, необходимые для заключения такого соглашения» или является общественным достоянием/открытой лицензией. Это также стоит сбор в размере от 150 долларов США авансом и 500 долларов США в год до 500 долларов США авансом/6 000 долларов США в год. Очевидно, что KL3M соответствует этим требованиям.

«Сегодня мы очень рады сообщить, что Kelvin Legal Large Language Model (KL3M) теперь сертифицирована как достаточно обученная», — написал Кац в своем аккаунте в социальной сети X. «KL3M является самым первым LLM (в любой категории), получившим такой сертификат».

«Генеративный ИИ может существовать без использования работ, защищенных авторским правом, без разрешения», — написал Fair Trained в своем блоге, объявляя о сертификации K3LM и четырех других организаций — Voicemod, которая предлагает модели речи и пения ИИ, музыкальных компаний Infinite Album и Lemonaide, а также группы Frostbite Orckings, управляемой искусственным интеллектом.

Как обучался KL3M?

По словам Каца, который сегодня дал короткое телефонное интервью VentureBeat, 273 Ventures с момента своего создания «кропотливо собирала данные, которые не были бы проблематичными» из источников, включая релизы документов правительства США и старые юридические документы — все это находится в открытом доступе.

«Мы не были уверены, что вы можете сделать такую вещь [обучение модели ИИ], не используя огромные объемы информации, защищенной авторским правом», — сказал Кац. «Мы думали, что, по крайней мере, в определенном масштабе можно добиться успеха, особенно в юридической, финансовой и нормативной сферах, где существует достаточно большое количество материалов, на которые не распространяется авторское право».

Кац отметил, что не все из этих отраслей предлагают единообразные документы, находящиеся в общественном достоянии, и что это сильно варьируется в зависимости от страны — например, в Великобритании некоторые правительственные учреждения или агентства могут распространять авторское право на документы и данные, которые они производят.

Большая часть первых месяцев работы 273 Ventures была посвящена выяснению того, какие документы и данные можно использовать для обучения KL3M, не нарушая и даже не рискуя нарушить авторские права. Сами эти данные в конечном итоге были объединены в продукт, Kelvin Legal DataPack, который содержит более 150 миллиардов токенов и был выпущен в августе 2023 года.

KL3M, со своей стороны, обучался на «высококачественном, курируемом английском подмножестве Kelvin Legal DataPack», включая ручную проверку 10 000 документов и «набор данных, содержащий примерно 350 миллиардов токенов». 273 Ventures более подробно описывает свой режим обучения для KL3M здесь.

На данный момент результатом являются две версии KL3M: kl3m-170m со 170 миллионами параметров (атрибутов, которые управляют моделью ИИ) и более крупная kl3m-1.7b с 1,7 миллиардами параметров. Kl3m-170m менее производительный, но может работать на таком низкомощном и дешевом оборудовании, как Macbook Air с чипом M1, по сравнению с чипом NVidia RTX 4060 8 ГБ, необходимым для более крупной модели (и многих других конкурирующих LLM).

273 Ventures также готовится выпустить вариант KL3M с 3,7 млрд параметров в следующем месяце.

Чем хорош KL3M и сколько он стоит?

На веб-странице своего продукта KL3M рекламируется как полезный для «составления и пересмотра записей учета рабочего времени и счетов-фактур, составления и пересмотра договорных положений, составления и пересмотра документов SEC, таких как разделы отчетов 10-K и 8-K, [и] составления очевидных патентов...»

Несмотря на то, что KL3M был разработан с учетом интересов юридических фирм и юридической отрасли, где клиенты особенно чувствительны к вопросам происхождения данных и законности, Кац сказал VentureBeat, что он был шокирован тем, насколько хорошо KL3M выходит за рамки этого целевого сектора.

«Просто подумайте об этом так: закон затрагивает практически все темы в обществе, — объяснил Кац. И правительства публикуют много исходных материалов, которые учат вас концепциям и использованию языка... Лично я немного удивлен, но это действительно имеет более широкий охват, чем мы могли бы подумать».

Первоначально анонсировав модель в прошлом месяце, 273 Ventures представила несколько графиков, сравнивающих производительность KL3M с другими моделями в своем классе, обнаружив, что версия с 1,7 миллиардами параметров имеет меньшую (и, следовательно, лучшую) запутанность или ошибки предсказания токенов, чем 10 других ведущих моделей, включая GPT-2 Large и open_llama_3b_v2 — по крайней мере, при написании юридических материалов и статей в Wiki.

Модель KL3M с 1,7 миллиардами параметров также набрала гораздо меньше (и лучше) баллов по токсичным выходам, чем другие небольшие модели в своем классе, включая хваленую Phi-2 от Microsoft.

На данный момент, по словам Каца, эта модель уже используется несколькими клиентами юридических фирм, которых он отказался назвать из соображений конфиденциальности.

Стоимость модели также не является общедоступной, хотя Кац предложил заинтересованным сторонам написать 273 Ventures для получения дополнительной информации по адресу: hello@273ventures.com.