Загружаем файл koboldcpp.exe с GitHub. Windows может ругаться на вирусы, но она так воспринимает почти весь opensource.
Идем сюда и выбираем подходящую нам модель формата ggml:
— LLaMA — исходная слитая модель от Meta. Не обучена и практически без цензуры;
— Alpaca — самая привлекательная модель, дотренированная на данных с инструкциями версия LLaMA. Рекомендуем GPT4xAlpaca;
— Vicuna — та же LLaMA, но тренировали ее на диалогах с ChatGPT. Максимально на него похожа, в том числе цензурой.
Учтите, что у моделей разное количество параметров (7B, 13B и т...