10,8 тыс подписчиков

🚨 Теперь можно запускать 70B LLM на видеокарте с 4GB VRAM

СегодняСегодня

~1 мин

AirLLM буквально выбивает почву из аргумента “для больших моделей нужно дорогое железо”. Фреймворк позволяет запускать модели размером до 70B параметров даже на GPU с 4GB видеопамяти. Как это возможно? Вместо загрузки всей модели в память сразу, AirLLM: - подгружает модель по слоям - выполняет вычисления - освобождает память - переходит к следующему слою Фактически, это потоковая обработка модели. Более того, авторы показывают запуск Llama 3.1 405B на 8GB VRAM. Что это даёт разработчикам: - не требуется квантование по умолчанию - можно запускать Llama, Qwen, Mistral, Mixtral локально - работает на Linux, Windows и macOS - не нужен сервер с огромным GPU Это сдвигает барьер входа для локального LLM-разработки и экспериментов. AirLLM полностью open source - можно использовать, изучать и встраивать в свои пайплайны. https://github.com/0xSojalSec/airllm

AirLLM буквально выбивает почву из аргумента “для больших моделей нужно дорогое железо”.

Фреймворк позволяет запускать модели размером до 70B параметров даже на GPU с 4GB видеопамяти.

Как это возможно?

Вместо загрузки всей модели в память сразу, AirLLM:

- подгружает модель по слоям

- выполняет вычисления

- освобождает память

- переходит к следующему слою

Фактически, это потоковая обработка модели.

Более того, авторы показывают запуск Llama 3.1 405B на 8GB VRAM.