Найти в Дзене

Prompt Me One More Time: A Two-Step Knowledge Extraction Pipeline with Ontology-Based Verification

Прочитал статью от AIRI, которая флешбэкнула меня в май 2024го, когда я писал диплом. В чем с-но дело: Проблемы c LLM 1. Отсутствие интерпретируемости LLMs дают ответы, но на самом деле в них часто нет надежного подтверждения. 2. Галлюцинации Модели иногда генерируют неверную информацию, особенно когда нет строгой структуры данных для проверки. 3. Ограниченные знания Модели не имеют доступ к приватным документам и проектам, поэтому могут пропускать специфическую информацию. На другом полюсе стоят графы знаний — интерпретируемые и надежные структуры, которые компенсируют слабые стороны LLM. (можете поизучать wikidata - огромный граф знаний на основе вики) Как можно объединить два подхода для максимального эффекта? 🔗 Интеграция LLM и графов знаний Мой диплом как раз исследовал эту тему: я строил graph RAG (Retrieval-Augmented Generation) с попыткой интегрировать знания LLM и графов. Это непростая задача, и для неё требуется уметь строить графы на основе приватных данных. Но как?

Prompt Me One More Time: A Two-Step Knowledge Extraction Pipeline with Ontology-Based Verification

Прочитал статью от AIRI, которая флешбэкнула меня в май 2024го, когда я писал диплом. В чем с-но дело:

Проблемы c LLM

1. Отсутствие интерпретируемости

LLMs дают ответы, но на самом деле в них часто нет надежного подтверждения.

2. Галлюцинации

Модели иногда генерируют неверную информацию, особенно когда нет строгой структуры данных для проверки.

3. Ограниченные знания

Модели не имеют доступ к приватным документам и проектам, поэтому могут пропускать специфическую информацию.

На другом полюсе стоят графы знаний — интерпретируемые и надежные структуры, которые компенсируют слабые стороны LLM. (можете поизучать wikidata - огромный граф знаний на основе вики)

Как можно объединить два подхода для максимального эффекта?

🔗 Интеграция LLM и графов знаний

Мой диплом как раз исследовал эту тему: я строил graph RAG (Retrieval-Augmented Generation) с попыткой интегрировать знания LLM и графов. Это непростая задача, и для неё требуется уметь строить графы на основе приватных данных. Но как?

Очевидный метод — запросить модель GPT сгенерировать граф за нас. Такой подход работал, но хреново.

В "Prompt Me One More Time" исследователи пошли дальше и предложили двухэтапную модель:

1. Генерация триплетов

В первом этапе LLM создает базовые триплеты для графа знаний.

2. Верификация через GPT и фильтрация по онтологии

Затем, на втором этапе, выполняется проверка триплетов с помощью еще одного запроса к GPT и фильтрация через онтологию.

Углубиться в детали можно в оригинальном материале:

- 📑 Блогпост на Хабре

- 📄 Статья

Следите за новостями в @kod1nd