Google только что сделали это в реальности. TurboQuant — новый алгоритм, который сжимает память нейросетей в 6 раз и ускоряет работу до 8 раз. Без потери качества и без дообучения. Если проще: когда вы общаетесь с нейросетью, она хранит весь диалог в оперативной памяти. Чем длиннее разговор — тем дороже. TurboQuant сжимает эту память с 32 бит до 3 на каждое число — и модель продолжает отвечать так же точно. Пока это исследование, но если TurboQuant доедет до продакшена, нейросети станут в разы дешевле. NeuroTrends
Помните Пегий Дудочник из «Кремниевой долины»? Стартап, который изобрёл алгоритм сжатия, перевернувший индустрию
ВчераВчера
~1 мин