76 подписчиков
QLoRA: вышел код к ранее упомянутой в канале бумаге для 16-битного файнтюна ламы 65B на одной GPU в 48 Гб.
Авторы заодно именно на одной такой видюхе наваяли чат-бота Guanaco, и по их заверениям он показывает результаты на 97-99% схожие с ChatGPT.
Я потестил и не могу, пожалуй, с этим согласиться, но генерит оно по ощущениям весьма шустрей, и это первый раз когда модель размеров 65В завели на одной видюхе.
Около минуты
24 мая 2023