19 подписчиков
Мы экспериментируем с разными вариантами хостинга LLM, и вот что уже успели протестировать:
Хостинг с GPU:
1. Immers.cloud — классический VPS с GPU, поддерживает запуск моделей типа LLaMA или vLLM. Можешь хостить любую модель, но главный минус — высокая стоимость, особенно для долгосрочного использования.
2. Свой ПК с RTX 3090/4090 — по сути, одни разовые вложения на железо, после чего можно спокойно запускать LLaMA 3, Gemini 2 и другие модели. Это выгодно для долгосрочных объемов, так как нет платы за токены, но для круглосуточной работы нужен серверный режим, иначе это не слишком удобно.
Serverless решения для использования в LangChain.js:
1. Fireworks.ai — дает $1 на регистрацию, можно дергать LLaMA 3 и другие модели. Работает без прокси, так что подключение идет легко.
2. Google Vertex.ai — тут нужна карта для регистрации, но дают $300 на 90 дней. Gemini-Pro доступен без заморочек, но вот для использования Gemini 2 надо наращивать квоты, что оказалось не таким простым делом.
3. Hugging Face — самый беспроблемный вариант, быстро поднял google/gemini-2-27b-it. С доступностью и лимитами надо разбираться дальше, но пока все гладко.
4. Groq.ai — тоже можно хостить LLaMA и Gemini, но нужен VPN, и пока не удалось настроить прокси в LangChain.js для нормальной работы.
С таким набором есть пространство для выбора: либо платишь за стабильность и готовое окружение, либо экспериментируешь с self-hosted для больших объемов.
1 минута
21 октября 2024