! Если вы мечтали поработать с огромными 70B моделями или даже 405B Llama3.1, но ноутбук с 4-8 ГБ видеопамяти превращал эту идею в фантастику, то AirLLM решает эту проблему! Проект оптимизирует использование памяти при инференсе, позволяя запускать такие модели без больших компромиссов: без квантизации, дистилляции и обрезки. Еще круче — появилась поддержка 4-битной и 8-битной компрессии для ускорения работы до 3 раз с минимальной потерей точности. Работает на MacOS и Linux, поддерживает множество моделей: Llama, ChatGLM, Qwen, Baichuan и другие. Для разработчиков и исследователей, кто хочет максимум возможностей на доступном железе. #AI #MachineLearning #DeepLearning #LLM #OpenSource #Python #GPU #Инференс https://github.com/lyogavin/airllm https://vlad1kudelko.github.io/