Meta анонсировала LLaMA (Large Language Model Meta AI) — модель NLP с миллиардами параметров, обученную на 20 языках. Некоторые пользователи успешно запустили эту модель на своих домашних компьютерах, используя обычный процессор и без специальных оборудования или программного обеспечения.
Готовая модель для пользователей Windows доступна по ссылке: https://cloud.mail.ru/public/nNQj/pCCXvVDtK
Чтобы запустить LLaMA на среднемощном домашнем компьютере с процессором AMD Ryzen 5, выполните следующие шаги:
- Ужение модели: Сначала вам нужно сократить размер модели с 32 битной в 4 битную, что уменьшает вес модели с 13 до 4 ГБ. Для этого воспользуйтесь инструкцией по квантизации модели и компиляции исходников, которая находится на GitHub. После обработки модели получите ее в виде файла model_7b.bin размером 3.92 ГБ.
- Создание каталога: Создайте новую папку на диске C:, назвав ее llama. Введите команды ниже в окне командной строки (cmd):
mkdir c:\llama
cd c:\llama
3. Копирование файлов: Копируйте файлы из скачанных архивов model_7b.zip и llama.zip в созданную папку c:\llama:
copy c:\path\to\model_7b.zip c:\llama
copy c:\path\to\llama.zip c:\llama
4. Запуск модели: Откройте окно командной строки (cmd) и перейдите в каталог c:\llama:
start c:\llama
llama.exe -m "C:/llama/model_7b.bin" -t 4 -n 64 --repeat_penalty 1.0 -p "Какие территории добавлены в 2023-2024 году к России?:"
Теперь вы можете использовать LLaMA как аналог ChatGPT на своем домашнем компьютере. Скорость генерации составляет примерно 5 слов в секунду.
Вот некоторые параметры для командной строки:
- -p <текст запроса>: Например, "Команды для копирования файлов в терминале:". Этот параметр определяет текст запроса, на который будет ответ модели.
- -n <количество отдаваемых токенов>: Определяет количество токенов, которые будут возвращены в результатах поиска.
- -t <количество потоков CPU>: Указывает количество потоков CPU, которые будут задействованы для работы модели.
Помните, чтобы формулировать вопросы корректным образом, так как это уже половина ответа.