AirLLM буквально выбивает почву из аргумента “для больших моделей нужно дорогое железо”. Фреймворк позволяет запускать модели размером до 70B параметров даже на GPU с 4GB видеопамяти. Как это возможно? Вместо загрузки всей модели в память сразу, AirLLM: - подгружает модель по слоям - выполняет вычисления - освобождает память - переходит к следующему слою Фактически, это потоковая обработка модели. Более того, авторы показывают запуск Llama 3.1 405B на 8GB VRAM. Что это даёт разработчикам: - не требуется квантование по умолчанию - можно запускать Llama, Qwen, Mistral, Mixtral локально - работает на Linux, Windows и macOS - не нужен сервер с огромным GPU Это сдвигает барьер входа для локального LLM-разработки и экспериментов. AirLLM полностью open source - можно использовать, изучать и встраивать в свои пайплайны. https://github.com/0xSojalSec/airllm