Найти тему
76 подписчиков

QLoRA: вышел код к ранее упомянутой в канале бумаге для 16-битного файнтюна ламы 65B на одной GPU в 48 Гб.


Авторы заодно именно на одной такой видюхе наваяли чат-бота Guanaco, и по их заверениям он показывает результаты на 97-99% схожие с ChatGPT.

Я потестил и не могу, пожалуй, с этим согласиться, но генерит оно по ощущениям весьма шустрей, и это первый раз когда модель размеров 65В завели на одной видюхе.

QLoRA: вышел код к ранее упомянутой в канале бумаге для 16-битного файнтюна ламы 65B на одной GPU в 48 Гб.
Около минуты