127,5 тыс подписчиков

Яндекс создал сервис для запуска ИИ на смартфоне и ПК с экономией на мощностях

9 декабря 20249 дек 2024

1 мин

Владимир Малиновский, исследователь из научного отдела Яндекса, разработал сервис для запуска большой языковой модели (LLM) с 8 млрд параметров на обычных компьютерах и смартфонах. Это решение позволяет значительно сократить расходы на вычислительные мощности, что делает использование нейросетей более доступным для корпораций, стартапов и исследователей. Исходный код проекта был опубликован на GitHub и доступен в открытом доступе. Проект основывается на технологии сжатия нейросетей AQLM, которая была разработана командой Yandex Research совместно с университетами ISTA и KAUST летом 2024 года. Это позволило перенести все вычисления на устройства пользователей, исключив необходимость в дорогих графических процессорах. Сервис позволяет пользователям загрузить модель, размер которой был уменьшен в шесть раз, с 15 до 2,5 ГБ. Модель работает даже без интернета, а её скорость зависит от мощности устройства. Например, на MacBook Pro M1 модель отвечает со скоростью 1,5 токена в секунду. Програм

Проект основывается на технологии сжатия нейросетей AQLM, которая была разработана командой Yandex Research совместно с университетами ISTA и KAUST летом 2024 года. Это позволило перенести все вычисления на устройства пользователей, исключив необходимость в дорогих графических процессорах.

Сервис позволяет пользователям загрузить модель, размер которой был уменьшен в шесть раз, с 15 до 2,5 ГБ. Модель работает даже без интернета, а её скорость зависит от мощности устройства. Например, на MacBook Pro M1 модель отвечает со скоростью 1,5 токена в секунду.

Программа написана на языке Rust с использованием технологии WebAssembly, что позволяет запускать её прямо в браузере. Несмотря на значительное сжатие, качество работы модели сохраняется на уровне 80% от исходных показателей, благодаря использованию методов AQLM и PV-tuning.

Гаджеты и электроника

5,73 млн интересуются