1350 подписчиков
Нейронка, которая творит чудеса :) Выложена в открытом доступе вот здесь.
Цитирую:
"localGPT-Vision - это комплексная система Retrieval-Augmented Generation (RAG) на основе компютерного зрения. Она позволяет пользователям загружать и индексировать документы (PDF и изображения), задавать вопросы о содержимом и получать ответы с соответствующими фрагментами документов. Поиск осуществляется с помощью моделей Colqwen или ColPali, а найденные страницы передаются в модель языка зрения (VLM) для генерации ответов. "
Иными словами - заливаете pdf/image и т.п., дальше ИИ распознает контент и по нему отвечает. Цель - упрощение создания умных помощников...
Около минуты
10 октября 2024