Найти в Дзене
Машинное обучение

🚨 Теперь можно запускать 70B LLM на видеокарте с 4GB VRAM

AirLLM буквально выбивает почву из аргумента “для больших моделей нужно дорогое железо”. Фреймворк позволяет запускать модели размером до 70B параметров даже на GPU с 4GB видеопамяти. Как это возможно? Вместо загрузки всей модели в память сразу, AirLLM: - подгружает модель по слоям - выполняет вычисления - освобождает память - переходит к следующему слою Фактически, это потоковая обработка модели. Более того, авторы показывают запуск Llama 3.1 405B на 8GB VRAM. Что это даёт разработчикам: - не требуется квантование по умолчанию - можно запускать Llama, Qwen, Mistral, Mixtral локально - работает на Linux, Windows и macOS - не нужен сервер с огромным GPU Это сдвигает барьер входа для локального LLM-разработки и экспериментов. AirLLM полностью open source - можно использовать, изучать и встраивать в свои пайплайны. https://github.com/0xSojalSec/airllm

🚨 Теперь можно запускать 70B LLM на видеокарте с 4GB VRAM

AirLLM буквально выбивает почву из аргумента “для больших моделей нужно дорогое железо”.

Фреймворк позволяет запускать модели размером до 70B параметров даже на GPU с 4GB видеопамяти.

Как это возможно?

Вместо загрузки всей модели в память сразу, AirLLM:

- подгружает модель по слоям

- выполняет вычисления

- освобождает память

- переходит к следующему слою

Фактически, это потоковая обработка модели.

Более того, авторы показывают запуск Llama 3.1 405B на 8GB VRAM.

Что это даёт разработчикам:

- не требуется квантование по умолчанию

- можно запускать Llama, Qwen, Mistral, Mixtral локально

- работает на Linux, Windows и macOS

- не нужен сервер с огромным GPU

Это сдвигает барьер входа для локального LLM-разработки и экспериментов.

AirLLM полностью open source - можно использовать, изучать и встраивать в свои пайплайны.

https://github.com/0xSojalSec/airllm