Верный своему слову, стартап миллиардера Илона Маска xAI сегодня сделал свою первую большую языковую модель (LLM) Grok с открытым исходным кодом.
Этот шаг, о котором Маск ранее объявил на этой неделе, теперь позволяет любому другому предпринимателю, программисту, компании или частному лицу использовать весовые коэффициенты Грока — силу связей между искусственными «нейронами» модели или программными модулями, которые позволяют модели принимать решения, принимать входные данные и предоставлять выходные данные в виде текста — и другую связанную с этим документацию и использовать копию модели для всего, что они хотят. в том числе для коммерческого применения.
«Мы выпускаем весовые коэффициенты базовой модели и сетевую архитектуру Grok-1, нашей большой языковой модели», — объявила компания в своем блоге. «Grok-1 — это модель Mix-of-Experts с 314 миллиардами параметров, обученная с нуля с помощью xAI».
Что означает открытый исходный код Grok
Параметры относятся к весовым коэффициентам и смещениям, которые управляют моделью — чем больше параметров, тем более продвинутой, сложной и производительной является модель. С 314 миллиардами параметров Grok значительно опережает конкурентов с открытым исходным кодом, таких как Llama 2 от Meta (70 миллиардов параметров) и Mistral 8x7B (12 миллиардов параметров).
Grok был с открытым исходным кодом под лицензией Apache 2.0, которая позволяет коммерческое использование, модификацию и распространение, хотя он не может быть зарегистрирован как товарный знак, и пользователи не несут никакой ответственности или гарантий с его помощью. Кроме того, они должны воспроизвести оригинал уведомления о лицензии и авторских правах, а также указать внесенные изменения.
Архитектура Grok, разработанная с использованием пользовательского обучающего стека поверх JAX и Rust в октябре 2023 года, включает в себя инновационные подходы к проектированию нейронных сетей. Модель использует 25% своих весов для данного токена, стратегия, которая повышает его эффективность и результативность
Grok был первоначально выпущен как проприетарная модель или модель с «закрытым исходным кодом» еще в ноябре 2023 года, и до сих пор он был доступен только в отдельной, но связанной социальной сети Маска X (ранее Twitter), в частности, через платную подписку X Premium+, которая стоит 16 долларов в месяц или 168 долларов в год.
Тем не менее, релиз Grok не включает в себя полный корпус его обучающих данных. На самом деле это не имеет значения для использования модели, так как она уже была обучена, но не позволяет пользователям видеть, чему она научилась, предположительно, из текстовых сообщений пользователя на X (в сообщении в блоге xAI об этом непрозрачно сказано как «Базовая модель, обученная на большом объеме текстовых данных, не настроенная для какой-либо конкретной задачи»).
Он также не включает в себя какую-либо связь с информацией в реальном времени, доступной на X, которую Маск изначально рекламировал как главный атрибут Grok по сравнению с другими LLM. Для этого пользователям все равно нужно будет подписаться на платную версию на X.
Больше, чем просто технический ход — бизнес- и PR-стратегия
Разработанный, чтобы конкурировать с ChatGPT, созданным OpenAI, компанией, которую Маск основал и из которой резко порвал в 2018 году и с которой теперь конкурирует, Grok назван в честь сленгового термина, означающего «понимание», и описывается как «искусственный интеллект, смоделированный по образцу «Автостопом по галактике», основополагающей серии радиопостановок 1970-х годов и сатирических научно-фантастических книг британского писателя Дугласа Адамса (он был адаптирован в крупный фильм в 2005 году).
Маск позиционирует Grok как более юмористическую и нецензурированную версию ChatGPT и других ведущих LLM, позиция, которая приобрела новую привлекательность среди пользователей в более широком смысле в свете жалоб на цензуру ИИ и неловкое расовое смешение поколений изображений Google Gemini и сомнительные идеологические позиции (Gemini предположил, по крайней мере, в одном примере, что твиты Маска, возможно, были так же вредны для общества, как и нацистский лидер Адольф Гитлер). Gemini, конечно, подвергся резкой критике со стороны Маска и других влиятельных технологических лидеров, включая соучредителя a16z и пионера веб-технологий Марка Андриссена.
Открытый исходный код Grok также явно является полезной идеологической позицией для Маска в его иске и общей критике OpenAI, на которую он недавно подал в суд, обвинив свою бывшую компанию в отказе от своего «учредительного соглашения» для работы в качестве некоммерческой организации. OpenAI опубликовала электронные письма в свою защиту в суде общественного мнения, по крайней мере, указывая на то, что Маск знал и, возможно, поддерживал ее переход к проприетарным, коммерческим технологиям.
Сообщество ИИ на X уже отреагировало на релиз с любопытством и волнением. Примечательно, что техническое сообщество отметило использование GeGLU в моделях прямого распространения и ее подход к нормализации, с отсылкой к интригующей технике сэндвич-норм. Даже сотрудники OpenAI написали о своем интересе к модели.
Таким образом, выпуск Grok, вероятно, окажет давление на всех других поставщиков LLM, особенно на других конкурирующих провайдеров с открытым исходным кодом, чтобы они объяснили пользователям, насколько они превосходят других.