Он уменьшает расход памяти при работе с контекстом, при этом качество генерации остаётся на том же уровне В итоге требования к ОЗУ падают до 6 раз, а скорость может вырасти до 8 раз — рынок уже дёрнулся, акции производителей памяти просели Похоже на чит-код, но посмотрим 👀 Подробнее: https://hard-tm.su/threads/155493/ 🕹HARD-TM — Подписаться
Google представили TurboQuant — алгоритм для сжатия LLM и снижения потребления оперативки
СегодняСегодня
~1 мин