По словам разработчиков, традиционные пайплайны преобразования HTML в текст могут терять более 40% содержимого страницы, включая таблицы, графики и элементы разметки. PixelRAG работает с документом в том виде, в котором его видит пользователь после рендеринга. Как работает пайплайн: - Рендерит каждый документ (веб-страницы, PDF, изображения) в набор тайлов. - Строит эмбеддинги с помощью Qwen3-VL-Embedding, дообученной через LoRA на скриншотах. - Создаёт индекс FAISS и предоставляет API для поиска. Если заменить модель-чтец на более мощную, точность вырастет без переиндексации, поскольку индекс хранит только пиксели. Для экспериментов команда проекта создала визуальный индекс всей Википедии — более 30 миллионов скриншотов. В итоге, даже в таком формате система превосходит лучший текстовый RAG-бейзлайн на 18,1% в задачах question answering только по тексту. Также представлен плагин для Claude Code, позволяющий анализировать отрендерированные страницы через скриншоты без работы с DOM.
Вышел PixelRAG — опенсорс-фреймворк для ретриева, который использует изображения страниц вместо традиционного HTML-парсинга
СегодняСегодня
4
1 мин