Что, если в RAG векторный поиск — тупик, а агенту нужна навигация по карте знаний? Авторы Corpus2Skill предлагают компилировать корпоративный корпус в дерево «навыков» и по нему вести диалог. Суть такая: документы превращаются в skill hierarchy, где каждый узел описан SKILL.md, а листья содержат список ID документов. На этапе ответа агент читает нужные ветки и грузит текст по ID через tool get_document; при этом нет retrieval во время serve time — не используются ни векторы, ни BM25, ни отдельная база для ранжирования. Как пример из жизни: это похоже на замену поиска по фразам на «оглавление + рубрикатор», где вы сначала выбираете раздел, а потом открываете конкретные страницы. Иерархия собирается офлайн: иерархическая кластеризация (ветвление ~p=10) и суммаризация LLM для узлов дерева. На бенчмарке WixQA подход обходит dense retrieval, RAPTOR и agentic RAG по метрикам качества и полноте контекста (F1/BLEU/ROUGE и фактуальность). Практический вывод: если у вас большой, гетерогенный
📝 Corpus2Skill заставляет агента навигировать по «карте знаний», а не искать векторами — и это лучше для QA
19 апреля19 апр
1 мин