Найти тему
Запуск VLLM в docker-контейнере
Работа с LLM накладывает значительные требования к вычислительным ресурсам, особенно при инференсе (выводе) на реальных данных. Для оптимизации процесса инференса были разработаны различные бэкенды, и одним из таких решений является VLLM. VLLM (Vectorized Large Language Model) — это высокопроизводительный бэкенд для инференса больших языковых моделей, разработанный с акцентом на эффективное использование памяти и вычислительных ресурсов. VLLM использует векторизацию операций и оптимизацию...
181 читали · 4 месяца назад
Большие языковые модели. Какие бывают и для чего нужны?
С каждым днем все реальнее становится видение мира, где машины не просто выполняют команды, а понимают, сопереживают и создают. Большие языковые модели (LLM) стоят у истоков этой революции, демонстрируя невероятные возможности в обработке естественного языка, генерации текста и даже творчестве. Но что же такое LLM на самом деле? Какие они бывают и как меняют нашу жизнь уже сегодня? В этой статье мы рассмотрим: Готовы ли вы узнать больше о технологиях, которые способны перевернуть наше представление...
5 месяцев назад
Запуск LM-Studio в docker-контейнере
LM Studio — это десктопное приложение для разработки и экспериментирования с моделями больших языковых моделей (LLM) на вашем компьютере. LM Studio использует llama.cpp backend, позволяет запускать gguf-модели на различном железе. Есть исполняемые файлы для различных ОС (windows, mac, linux). В приложении есть OpenAI-API сервер для доступа по локальной сети, поэтому LM Studio позволяет не только проверить возможности различных llm моделей, но так же подходит для разработки ПО. Ключевым недостатком...
371 читали · 6 месяцев назад
Инструкция по сборке llama-cpp-python с использованием cuBLAS на windows
По умолчанию команда "pip install llama-cpp-python" поставит llama-cpp-python без поддержки ускорения на GPU. Для поддержки различных вариантов необходимо использовать переменные окружения (документация на github https://github.com/abetlen/llama-cpp-python): OpenBLAS (CPU): CMAKE_ARGS="-DLLAMA_BLAS=ON -DLLAMA_BLAS_VENDOR=OpenBLAS" cuBLAS (CUDA): CMAKE_ARGS="-DGGML_CUDA=on" CLBlast (OpenCL): CMAKE_ARGS="-DLLAMA_METAL=on" и тд. Так как производится сборка llama.cpp необходимо установить Cmake, использовал установку через VisualStudio (скачать можно тут https://visualstudio...
385 читали · 1 год назад