Vishal Bansal, Unsplash
NVIDIA объявила в своём блоге, что её библиотекой с открытым исходным кодом TensorRT-LLM, которая ранее была анонсирована для центров обработки данных, теперь можно воспользоваться на компьютерах под управлением Windows, сообщает Neowin. Библиотека TensorRT-LLM позволяет LLM работать до четырёх раз быстрее на ПК с видеокартами NVIDIA GeForce RTX.
В блоге NVIDIA описывает преимущества TensorRT-LLM как для разработчиков, так и для обычных пользователей: «При больших объёмах пакетов это ускорение значительно улучшает работу более сложных LLM — например, помощников по написанию и программированию, которые выдают сразу несколько уникальных результатов в автоматическом режиме. В результате повышается производительность и качество, а пользователи получают возможность выбирать самые лучшие результаты».
Также был показан пример работы TensorRT-LLM совместно с языковой моделью Llama 2 и другими инструментами. Базовая модель мало что знает о технологиях NVIDIA, поэтому на вопрос «Как NVIDIA ACE генерирует эмоциональные реакции?» точно ответить не смогла. Однако при генерации с расширенным поиском (RAG), где языковая модель сочетается с векторной библиотекой и предоставляет ответы на основе определённого набора данных (в данном случае новостных статей GeForce), в сочетании с инструментами NeMo SteerLM и TensorRT-LLM не только удалось получить правильный ответ, но и ускорить процесс.
TensorRT-LLM будет доступен на сайте разработчиков NVIDIA, а оптимизированные для TensorRT модели, демоверсии и примеры можно найти на сайтах и репозиториях NVIDIA.
Владельцы видеокарт GeForce RTX получили обновление некоторых инструментов на основе искусственного интеллекта во вчерашнем обновлении драйвера GeForce Game Ready. К ним относятся новая версия RTX Video Super Resolution с возможностью улучшения потокового видео в нативном разрешении и поддержкой видеокарт GeForce RTX 20, а также ускорение TensorRT для Stable Diffusion Web UI.