19 подписчиков

Мы экспериментируем с разными вариантами хостинга LLM, и вот что уже успели протестировать:

Хостинг с GPU:

1. Immers.cloud — классический VPS с GPU, поддерживает запуск моделей типа LLaMA или vLLM. Можешь хостить любую модель, но главный минус — высокая стоимость, особенно для долгосрочного использования.

2. Свой ПК с RTX 3090/4090 — по сути, одни разовые вложения на железо, после чего можно спокойно запускать LLaMA 3, Gemini 2 и другие модели. Это выгодно для долгосрочных объемов, так как нет платы за токены, но для круглосуточной работы нужен серверный режим, иначе это не слишком удобно.

Serverless решения для использования в LangChain.js:

1. Fireworks.ai — дает $1 на регистрацию, можно дергать LLaMA 3 и другие модели. Работает без прокси, так что подключение идет легко.

2. Google Vertex.ai — тут нужна карта для регистрации, но дают $300 на 90 дней. Gemini-Pro доступен без заморочек, но вот для использования Gemini 2 надо наращивать квоты, что оказалось не таким простым делом.

3. Hugging Face — самый беспроблемный вариант, быстро поднял google/gemini-2-27b-it. С доступностью и лимитами надо разбираться дальше, но пока все гладко.

4. Groq.ai — тоже можно хостить LLaMA и Gemini, но нужен VPN, и пока не удалось настроить прокси в LangChain.js для нормальной работы.

С таким набором есть пространство для выбора: либо платишь за стабильность и готовое окружение, либо экспериментируешь с self-hosted для больших объемов.

1 минута

21 октября 2024