Искусственный интеллект всё чаще работает не в облаке, а прямо в компаниях — на своих серверах.
Главный вопрос при сборке такого сервера — сколько видеопамяти нужно, чтобы модель не «захлебнулась» и при этом не платить лишнее за VRAM. Когда мы запускаем нейросеть, память тратится на два больших блока: К этому добавляются служебные буферы и фрагментация — примерно ещё +20% резерва. Есть два подхода: быстрый (для оценки «на глаз») и точный (для инженерного расчёта). Используем простые усреднённые цифры: Формула простая: VRAM ≈ Веса + (Контекст × Окно/1000 × Пользователи) × 1.2 Пример:
Модель 7B, окно 4k, 5 пользователей
→ (1,3×7 + 1,5×4×5) × 1,2 = ≈47 ГБ
→ комфортно GPU 48 ГБ Подходит для пилотов, тестов и быстрых смет. Здесь важно, в каком формате хранятся веса: BF16, FP16, FP8, INT8 или INT4.
А также какой контекст и сколько одновременных запросов идёт. Пример для 7B-модели, 4k контекста, 5 пользователей: 👉 Реальный диапазон: 24–48 ГБ VRAM — в зависимости от формата и задач. Чтоб