Относительно недавно Т-Банк открыл доступ всем желающим к своей русскоязычной большой языковой модели (LLM) T-Lite, у которой 7–8 млрд параметров. О чём сообщалось на оф.сайте организации. Для справки, параметры моделей от Open Ai: И тут нужно понимать, что западная модель GPT использовала для обучения в основном англоязычные источники и справляется с задачами лучше на родном, английском языке. А наша T-Lite соответственно лучше работает на русском языке. На момент написания статьи модель T-Lite доступна на DropBox-e и на Hugging Face в аккаунте Анатолия Потапова, руководителя проекта LLM GEN-T. Результаты всех тестов и бенчмарков доступны на сайте банка. Но как теперь развернуть данную LLM локально на сильно мощном ноутбуке. Тут нам в помощь квантизация и ресурс Hugging Face. Приступим. Как всегда, понадобится Jupyter Notebook и заранее скачанная квантованная модель в формате GGUF (GGML (библиотека машинного обучения) Universal Format). Квантование – это такой процесс трансформации