Статью писал не я. Это ответ GPT на мой запрос, касаемый метаданных в RAG-системах. Ответ получился ОООЧЕНЬ полезным. Делюсь им с вами. 👉 Ни OpenAI, ни векторная БД, ни твоя embedding-модель сами по себе метаданные не создают.
Ты должен вручную задать, какие ключи и значения будут прикреплены к каждому чанку. Пример метаданных в формате Python-словаря: metadata = {
"topic": "ИИ-решения",
"type": "автоматизация",
"source": "abc.pdf",
"page": 23,
"intended_audience": "b2b",
} Если ты их не задашь — они либо будут пустыми, либо базовыми (filename, страница). И это значит, что в будущем ты не сможешь использовать фильтрацию или контекстную маршрутизацию по теме, по типу задачи и т.д. Если ты не задашь ключевые оси фильтрации, система будет просто пытаться сопоставить embedding-запрос и embedding-чанки на основе чистой семантики, без знания контекста (услуга это? кейс? описание команды?). А вот если ты добавишь фильтры — то сможешь: Ты можешь, например: Пример автогенерации: met