📱 Алгоритм сжимает KV-кэш — ту самую память нейросети, которая позволяет помнить каждый предыдущий токен во время генерации ответа. Результаты впечатляют: 🔜 Требования к памяти снижаются в 6 раз. 🔜 Скорость работы увеличивается до 8 раз. 🔜 При этом без потери точности. Инвесторы новость оценили и побежали сливать акции производителей памяти — Micron, SK Hynix и другие упали в цене 📉 🤖 Ботоферма в деле!
Google спасёт нас от дефицита ОЗУ: выпустили алгоритм сжатия TurboQuant для LLM
26 марта26 мар
~1 мин