Владимир Малиновский, исследователь из научного отдела Яндекса, разработал сервис для запуска большой языковой модели (LLM) с 8 млрд параметров на обычных компьютерах и смартфонах. Это решение позволяет значительно сократить расходы на вычислительные мощности, что делает использование нейросетей более доступным для корпораций, стартапов и исследователей. Исходный код проекта был опубликован на GitHub и доступен в открытом доступе. Проект основывается на технологии сжатия нейросетей AQLM, которая была разработана командой Yandex Research совместно с университетами ISTA и KAUST летом 2024 года. Это позволило перенести все вычисления на устройства пользователей, исключив необходимость в дорогих графических процессорах. Сервис позволяет пользователям загрузить модель, размер которой был уменьшен в шесть раз, с 15 до 2,5 ГБ. Модель работает даже без интернета, а её скорость зависит от мощности устройства. Например, на MacBook Pro M1 модель отвечает со скоростью 1,5 токена в секунду. Програм
Яндекс создал сервис для запуска ИИ на смартфоне и ПК с экономией на мощностях
9 декабря 20249 дек 2024
14
1 мин