Вот смотрите, для GLM‑4.6 без квантизации (BF16) реально подходит только аренда «узлов» с большим числом H100/H200 (HPC‑класс). В США (в РФ вообще не нашел) самый прямой вариант по цене/доступности - брать готовый узел 8×H100 80GB (и масштабировать до 16×H100, если модель/контекст не влезают в один узел). Цена, которую часто упоминают для сборки 8×H100 SXM 80GB узла: $23.92/час :) ...в месяц (730ч): $17,461. А скорость какая? Условно вы тратите 20к$ в месяц за аренду сервера и получаете на выходе аж целых 50 токенов в секунду (150 символов). Цифры могут меняться, но порядок, думаю, вы осознали. Вы понимаете, насколько несопоставимы затраты к итогу? Русский ИТ бизнес