Ниже поговорим о том, как более практично использовать нейросети. RAG (retrieval augmented generation) - тряпка генерация с расширенным поиском, технология позволяющая натравить нейросеть на ваши файлы и получать не бесполезные общие ответы, а ответы касающиеся содержания именно ваших документов, книг, писем и т.п. Технология довольно тривиальная, ваши файлы разбиваются на кусочки и сохраняются в векторной базе данных, когда вы что-то спрашиваете у языковой модели, производится поиск в базе данных,...
В ответ на пост PR приняли, теперь посмотреть инструкцию, скачать с llamahub и использовать при построении своего RAG-a Давайте я подробнее расскажу, как работает RAG на конкретных примерах: RAG (Retrieval-Augmented Generation) — это технология, которая, упрощённо говоря, помогает LLM искать и использовать информацию из внешних источников данных для более точного и содержательного ответа Как это происходит? Когда пользователь задаёт вопрос, RAG переводит его в векторное представление (embedding). Векторы — это математическое представление текста, которое позволяет находить смысловые связи между различными фразами, почитать подробнее embedding можно, например тут После преобразования вопроса в векторную форму, RAG ищет наиболее схожую информацию в вашей базе данных. Эта база данных может включать в себя всё, что вам нужно: учебники, гайды, документацию, статьи и другие материалы, которые вы заранее загрузили. Важный момент: это не просто поиск по ключевым словам, как в традиционном поисковике. Здесь идёт поиск по смыслу, что позволяет найти действительно релевантную информацию, даже если она выражена другими словами Далее найденная информация вместе с оригинальным вопросом передаётся в LLM. Это позволяет модели отвечать не только на основе её исходных данных, на которых она была обучена, но и с учётом информации из вашей базы данных. Это особенно полезно, если вам нужно, чтобы модель отвечала на вопросы, связанные с внутренней документацией вашей компании или локальными файлами Что особенно ценно, так это гибкость RAG. Существуют различные механизмы извлечения и последующей обработки информации. Например, можно настроить модель на суммирование данных из нескольких источников (несколько запросов к вашей базе данных), что позволяет получать более комплексные ответы. Другой подход — разбить исходный запрос на несколько подзапросов (sub-questions) и искать информацию по каждой из них отдельно, что повышает точность поиска Кроме того, в RAG предусмотрены возможности для тюнинга, что позволяет адаптировать систему под конкретные задачи и требования. В большинстве случаев RAG работает в связке с function calling — это ещё одна мощная технология, о которой я уже рассказывал на канале, но видео никто толком не посмотрел Тема действительно интересная как думаете нужен ли гайд по использованию llama-index в ваших проектах? Или допишим опенсорсный кликер?