1927 подписчиков

Три «AI engines» заходят в бар гуськом…

8 февраля8 фев

4 мин

Представляем llama3pure: набор движков для инференса без зависимостей для C, Node.js и JavaScript. Изучите машинное обучение на локальном оборудовании. — theregister.com Разработчики, стремящиеся лучше понять машинное обучение на локальном оборудовании, могут воспользоваться новым движком Llama. Разработчик программного обеспечения Леонардо Руссо выпустил llama3pure — набор из трех автономных движков для инференса. Он включает чистую реализацию на C для настольных компьютеров, чистую реализацию на JavaScript для Node.js и версию на чистом JavaScript для веб-браузеров, не требующую WebAssembly. «Все версии совместимы с архитектурами Llama и Gemma», — пояснил Руссо в электронном письме изданию The Register. «Цель — предоставить независимую, изолированную альтернативу на C и JavaScript, способную читать файлы GGUF и обрабатывать запросы». GGUF расшифровывается как GPT-Generated Unified Format; это распространенный формат для распространения моделей машинного обучения. Llama3pure не предна

Представляем llama3pure: набор движков для инференса без зависимостей для C, Node.js и JavaScript. Изучите машинное обучение на локальном оборудовании. — theregister.com

Разработчики, стремящиеся лучше понять машинное обучение на локальном оборудовании, могут воспользоваться новым движком Llama.

Разработчик программного обеспечения Леонардо Руссо выпустил llama3pure — набор из трех автономных движков для инференса. Он включает чистую реализацию на C для настольных компьютеров, чистую реализацию на JavaScript для Node.js и версию на чистом JavaScript для веб-браузеров, не требующую WebAssembly.

«Все версии совместимы с архитектурами Llama и Gemma», — пояснил Руссо в электронном письме изданию The Register. «Цель — предоставить независимую, изолированную альтернативу на C и JavaScript, способную читать файлы GGUF и обрабатывать запросы».

GGUF расшифровывается как GPT-Generated Unified Format; это распространенный формат для распространения моделей машинного обучения.

Llama3pure не предназначен для замены llama.cpp — широко используемого движка для инференса, который значительно быстрее отвечает на запросы. Llama3pure является образовательным инструментом.

«Я рассматриваю llama3pure как более гибкую альтернативу llama.cpp, особенно в плане прозрачности архитектуры и широкой совместимости с оборудованием», — пояснил Руссо. «В то время как llama.cpp является стандартом для высокопроизводительной оптимизации и включает сложную экосистему зависимостей и конфигураций сборки, llama3pure предлагает иной подход».

Руссо считает, что разработчики выиграют от наличия движка для инференса в одном удобочитаемом файле, который наглядно демонстрирует логику разбора файлов и генерации токенов.

«Основная цель проекта — предоставить движок для инференса, заключенный в один файл чистого кода», — сказал он. «Устраняя внешние зависимости и уровни абстракции, он позволяет разработчикам понять весь поток выполнения — от разбора GGUF до финального токена — без необходимости переключаться между файлами или библиотеками. Он создан для тех, кому нужно точно понимать, что делает оборудование».

Руссо также видит пользу в ситуациях, когда разработчик работает с устаревшим программным или аппаратным обеспечением, где клиентский WebAssembly не является вариантом, и где желательно иметь изолированный инструмент без потенциальных конфликтов зависимостей в будущем.

По его словам, движки на C и Node.js были протестированы с моделями Llama до 8 миллиардов параметров и с моделями Gemma до 4 миллиардов параметров. Основным ограничивающим фактором является физическая оперативная память, необходимая для размещения весов модели.

Оперативная память, необходимая для запуска моделей машинного обучения на локальном оборудовании, составляет примерно 1 ГБ на миллиард параметров при квантовании модели до 8 бит. Удвоение или уменьшение точности вдвое удваивает или уменьшает вдвое требуемую память. Модели обычно квантуются до 16 бит, поэтому для модели с 1 миллиардом параметров обычно требуется 2 ГБ.

По словам Руссо, расчет для весов GGUF отличается.

«Веса GGUF загружаются непосредственно в оперативную память, что обычно означает, что использование ОЗУ соответствует полному размеру файла», — пояснил он. «Вы можете уменьшить размер контекстного окна, передав определенный параметр (context_size) — функция, поддерживаемая большинством движков инференса, включая три, которые я разработал. Хотя уменьшение размера контекстного окна является распространенным «трюком» для экономии ОЗУ при локальном запуске моделей, это также означает, что ИИ будет «помнить» меньше, чем было изначально задумано».

Он также отметил, что llama3pure в настоящее время ориентирован на однократный инференс. Он ожидает реализовать управление состоянием истории чата позже.

Для повседневной работы Руссо использует Gemma 3 в качестве личного помощника, работающего на его движке инференса на базе C, чтобы гарантировать конфиденциальную и автономную обработку данных.

«В качестве помощника по программированию я рекомендую Gemma 3 27B», — сказал он. «Что касается задержек, хотя локальные модели исторически были медленными, запуск оптимизированных версий на современном оборудовании теперь обеспечивает опыт, очень близкий к облачным моделям, таким как Claude, и без необходимости платить за такую услугу».

Хотя Руссо ожидает, что распространенные сценарии общего использования ИИ-помощников продолжат полагаться на облачные модели, он предвидит, что разработчики и компании будут все чаще обращать внимание на локальный ИИ. Несмотря на то, что машины разработчиков с 32 ГБ или 48 ГБ ОЗУ могут иметь меньшее контекстное окно по сравнению с облачными моделями, они обеспечивают безопасность и конфиденциальность без зависимости от поставщиков услуг.

Отвечая на вопрос о своих ощущениях как разработчика по поводу перехода к ИИ, Руссо сказал, что ожидает, что разработчики в конечном итоге превратятся в «супервайзеров» ИИ.

«Поскольку модели ИИ представляют ответы с высокой степенью уверенности, даже когда они ошибочны, человек-эксперт должен оставаться в цепочке для проверки результатов», — сказал он. «Технические знания не устареют; скорее, они станут все более важными для аудита работы, сгенерированной ИИ.

«Хотя названия должностей могут меняться, старшие разработчики всегда будут необходимы для поддержания этих систем, создавая рабочий процесс, который значительно быстрее, чем разработка только силами человека. Для младших и средних разработчиков ИИ предлагает возможность учиться быстрее, чем предыдущие поколения. При правильном управлении ИИ может способствовать значительному скачку в интеллектуальной эволюции отрасли». ®

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Автор – Thomas Claburn

Оригинал статьи