🚀 Команда Yandex Research с партнерами разработала новые методы сжатия больших языковых моделей, которые позволяют бизнесу сократить расходы на вычислительные ресурсы до восьми раз. Эти методы уменьшают размер модели, что позволяет запускать её на устройствах с меньшей вычислительной мощностью, снижая затраты на оборудование и его обслуживание.
🔧 Решение включает два инструмента: один уменьшает размер нейросети, другой исправляет ошибки, возникающие при сжатии. Эффективность методов была подтверждена на популярных моделях с открытым исходным кодом, таких как Llama 2 и Mistral, сохраняя в среднем 95% качества ответов. Код и обучающие материалы доступны на GitHub.
Ещё больше самых полезных новостей из бизнеса и IT в нашей телеге: https://t.me/+gbMWitV9cdBmMDgy