2162 подписчика

Вышел PixelRAG — опенсорс-фреймворк для ретриева, который использует изображения страниц вместо традиционного HTML-парсинга

СегодняСегодня

1 мин

По словам разработчиков, традиционные пайплайны преобразования HTML в текст могут терять более 40% содержимого страницы, включая таблицы, графики и элементы разметки. PixelRAG работает с документом в том виде, в котором его видит пользователь после рендеринга. Как работает пайплайн: - Рендерит каждый документ (веб-страницы, PDF, изображения) в набор тайлов. - Строит эмбеддинги с помощью Qwen3-VL-Embedding, дообученной через LoRA на скриншотах. - Создаёт индекс FAISS и предоставляет API для поиска. Если заменить модель-чтец на более мощную, точность вырастет без переиндексации, поскольку индекс хранит только пиксели. Для экспериментов команда проекта создала визуальный индекс всей Википедии — более 30 миллионов скриншотов. В итоге, даже в таком формате система превосходит лучший текстовый RAG-бейзлайн на 18,1% в задачах question answering только по тексту. Также представлен плагин для Claude Code, позволяющий анализировать отрендерированные страницы через скриншоты без работы с DOM.

Вышел PixelRAG — опенсорс-фреймворк для ретриева, который использует изображения страниц вместо традиционного HTML-парсинга.

Как работает пайплайн:

- Рендерит каждый документ (веб-страницы, PDF, изображения) в набор тайлов.

- Строит эмбеддинги с помощью Qwen3-VL-Embedding, дообученной через LoRA на скриншотах.

- Создаёт индекс FAISS и предоставляет API для поиска.

Если заменить модель-чтец на более мощную, точность вырастет без переиндексации, поскольку индекс хранит только пиксели. Для экспериментов команда проекта создала визуальный индекс всей Википедии — более 30 миллионов скриншотов. В итоге, даже в таком формате система превосходит лучший текстовый RAG-бейзлайн на 18,1% в задачах question answering только по тексту.

Также представлен плагин для Claude Code, позволяющий анализировать отрендерированные страницы через скриншоты без работы с DOM.

Весь проект опубликован в открытом доступе под лицензией Apache-2.0, а в статье есть подробные разборы ошибок, абляционные исследования и сравнение более чем с 25 VLM-моделями.

tg / max

Творчество

527,7 тыс интересуются