384 подписчика
В ответ на пост
Я понимаю ваше желание пошутить про комнату с видеокартами, но напомню, что Grok-1 с квантованием до Q2 в формате GGUF требует уже 128 Гб RAM.
А там на носу есть ещё более эффективные способы квантования и разгрузки слоев при генерации ответов.
Около минуты
28 марта 2024