Многие думают, что для запуска нейросети на ПК важна мощь графического чипа. На самом деле, в мире больших языковых моделей (LLM) правит пропускная способность памяти. Текстовая генерация — это бесконечное перетаскивание гигабайтов «весов» из памяти в ядра для каждого нового слова. Это конвейер, работающий по жестоким законам физики. Нейросеть — это миллиарды параметров (чисел). В исходном формате F32 один параметр весит 4 байта. Хотите запустить модель на 70 миллиардов параметров «в чистом виде»? Готовьте 300 ГБ видеопамяти. В СНГ такая сборка стоит как квартира в областном центре. Спасение — квантование. Мы «сжимаем» числа до 16, 8 или 4 бит. Просто умножить параметры на размер веса недостаточно. Система требует место под «черновик» (контекст и кэш). VRAMtotal≈(P×bw)+(0.08×P)+0.55+Contextcache Важно: Каждые 1000 токенов контекста для модели 8B забирают около 134 МБ. Раздули историю чата до 32к токенов? Отдайте лишние 0.5 ГБ только на «память о прошлом». Что будет, если память кон