11 подписчиков

В ответ на пост

PR приняли, теперь посмотреть инструкцию, скачать с llamahub и использовать при построении своего RAG-a

Давайте я подробнее расскажу, как работает RAG на конкретных примерах:

RAG (Retrieval-Augmented Generation) — это технология, которая, упрощённо говоря, помогает LLM искать и использовать информацию из внешних источников данных для более точного и содержательного ответа

Как это происходит?

Когда пользователь задаёт вопрос, RAG переводит его в векторное представление (embedding). Векторы — это математическое представление текста, которое позволяет находить смысловые связи между различными фразами, почитать подробнее embedding можно, например тут

После преобразования вопроса в векторную форму, RAG ищет наиболее схожую информацию в вашей базе данных. Эта база данных может включать в себя всё, что вам нужно: учебники, гайды, документацию, статьи и другие материалы, которые вы заранее загрузили. Важный момент: это не просто поиск по ключевым словам, как в традиционном поисковике. Здесь идёт поиск по смыслу, что позволяет найти действительно релевантную информацию, даже если она выражена другими словами

Далее найденная информация вместе с оригинальным вопросом передаётся в LLM. Это позволяет модели отвечать не только на основе её исходных данных, на которых она была обучена, но и с учётом информации из вашей базы данных. Это особенно полезно, если вам нужно, чтобы модель отвечала на вопросы, связанные с внутренней документацией вашей компании или локальными файлами

Что особенно ценно, так это гибкость RAG. Существуют различные механизмы извлечения и последующей обработки информации. Например, можно настроить модель на суммирование данных из нескольких источников (несколько запросов к вашей базе данных), что позволяет получать более комплексные ответы. Другой подход — разбить исходный запрос на несколько подзапросов (sub-questions) и искать информацию по каждой из них отдельно, что повышает точность поиска

Кроме того, в RAG предусмотрены возможности для тюнинга, что позволяет адаптировать систему под конкретные задачи и требования. В большинстве случаев RAG работает в связке с function calling — это ещё одна мощная технология, о которой я уже рассказывал на канале, но видео никто толком не посмотрел

Тема действительно интересная как думаете нужен ли гайд по использованию llama-index в ваших проектах?

Или допишим опенсорсный кликер?

1 минута

22 августа 2024