# KIV: миллион токенов контекста на обычной видеокарте — как это работает Когда вы загружаете длинный текст в нейросеть, она «читает» его и запоминает. Но эта память ограничена. Контекстное окно — это сколько текста модель может держать в голове одновременно. У большинства локальных моделей (тех, что работают на вашем компьютере, а не в облаке) это окно — 32 тысячи токенов. Примерно 50 страниц текста. Для короткого вопроса — достаточно. Для анализа договора на 200 страниц — нет. Дело в видеопамяти. Нейросеть хранит специальный кеш — записи о каждом прочитанном токене. Чем больше текста, тем больше кеш. На видеокарте RTX 4070 с 12 ГБ памяти кеш для 32K токенов уже занимает почти всю свободную память. Хочешь 100K токенов — нужна видеокарта за несколько тысяч долларов. Хочешь миллион — только серверное железо. Так было до KIV. KIV (K-Indexed V Materialization) — это программная надстройка для HuggingFace, главной платформы для запуска нейросетей. Она заменяет стандартный механизм хранения
KIV: миллион токенов контекста на обычной видеокарте — как это работает
26 мая26 мая
2 мин