Найти в Дзене

Google придумал как сжать «рабочую память» AI в 6 раз без потери качества

Новый алгоритм TurboQuant сжимает часть памяти, которую модель использует при генерации ответов. При этом не страдает качество, а инференс требует существенно меньше ресурсов. Интернет уже назвал это «Pied Piper» — в честь стартапа из «Кремниевой долины» с его алгоритмом сжатия без потерь. CEO Cloudflare сравнил TurboQuant с появлением DeepSeek, когда китайским разработчиком удалось обучить конкурентоспособную LLM в разы дешевле западных компаний. Интересно, что научная работа по TurboQuant вышла год назад. Сегодняшний ажиотаж вызван тем, что Google наконец-то рассказал о технологии в своём блоге. https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/?ref=aisecret.us

Google придумал как сжать «рабочую память» AI в 6 раз без потери качества

Новый алгоритм TurboQuant сжимает часть памяти, которую модель использует при генерации ответов. При этом не страдает качество, а инференс требует существенно меньше ресурсов.

Интернет уже назвал это «Pied Piper» — в честь стартапа из «Кремниевой долины» с его алгоритмом сжатия без потерь. CEO Cloudflare сравнил TurboQuant с появлением DeepSeek, когда китайским разработчиком удалось обучить конкурентоспособную LLM в разы дешевле западных компаний.

Интересно, что научная работа по TurboQuant вышла год назад. Сегодняшний ажиотаж вызван тем, что Google наконец-то рассказал о технологии в своём блоге.

https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/?ref=aisecret.us