Найти в Дзене
Поддержите автораПеревод на любую сумму
Настройка Ububntu 24 для работы с GPU NVIDIA
Уже написал статьи о запуске LM-Studio и vLLM в docker контейнере, но тему настройки основной системы под работу с GPU пока не затрагивал. Пора это исправить! Сразу отмечу, что нет универсального рецепта для настройки системы, но вариант, который будет иметь актуальность на 28.04.2025 опишу. В случае, если что-то пойдет не так, можно воспользоваться поиском и найти варианты решений для актуальных условий. Сколько времени занимает установка всего нужного для запуска LLM модели на GPU в контейнере? Двадцать три с половиной минуты от первого старта сервера с чистой Ubuntu 24...
4 месяца назад
Запуск VLLM в docker-контейнере
Работа с LLM накладывает значительные требования к вычислительным ресурсам, особенно при инференсе (выводе) на реальных данных. Для оптимизации процесса инференса были разработаны различные бэкенды, и одним из таких решений является VLLM. VLLM (Vectorized Large Language Model) — это высокопроизводительный бэкенд для инференса больших языковых моделей, разработанный с акцентом на эффективное использование памяти и вычислительных ресурсов. VLLM использует векторизацию операций и оптимизацию...
263 читали · 9 месяцев назад
Большие языковые модели. Какие бывают и для чего нужны?
С каждым днем все реальнее становится видение мира, где машины не просто выполняют команды, а понимают, сопереживают и создают. Большие языковые модели (LLM) стоят у истоков этой революции, демонстрируя невероятные возможности в обработке естественного языка, генерации текста и даже творчестве. Но что же такое LLM на самом деле? Какие они бывают и как меняют нашу жизнь уже сегодня? В этой статье мы рассмотрим: Готовы ли вы узнать больше о технологиях, которые способны перевернуть наше представление...
10 месяцев назад
Запуск LM-Studio в docker-контейнере
LM Studio — это десктопное приложение для разработки и экспериментирования с моделями больших языковых моделей (LLM) на вашем компьютере. LM Studio использует llama.cpp backend, позволяет запускать gguf-модели на различном железе. Есть исполняемые файлы для различных ОС (windows, mac, linux). В приложении есть OpenAI-API сервер для доступа по локальной сети, поэтому LM Studio позволяет не только проверить возможности различных llm моделей, но так же подходит для разработки ПО. Ключевым недостатком...
503 читали · 11 месяцев назад
Инструкция по сборке llama-cpp-python с использованием cuBLAS на windows
По умолчанию команда "pip install llama-cpp-python" поставит llama-cpp-python без поддержки ускорения на GPU. Для поддержки различных вариантов необходимо использовать переменные окружения (документация на github https://github.com/abetlen/llama-cpp-python): OpenBLAS (CPU): CMAKE_ARGS="-DLLAMA_BLAS=ON -DLLAMA_BLAS_VENDOR=OpenBLAS" cuBLAS (CUDA): CMAKE_ARGS="-DGGML_CUDA=on" CLBlast (OpenCL): CMAKE_ARGS="-DLLAMA_METAL=on" и тд. Так как производится сборка llama.cpp необходимо установить Cmake, использовал установку через VisualStudio (скачать можно тут https://visualstudio...
458 читали · 1 год назад