Найти в Дзене
SkyNet | Новости ИИ

Создание системы ИИ производственного уровня с гибридным поиском, цитатами по происхождению, циклами исправления и эпизодической памятью

В этом руководстве мы создадим ультрасовременный рабочий процесс агентского ИИ, который ведёт себя как исследовательская и рассуждающая система производственного уровня, а не как единый запрос. Мы асинхронно используем реальные веб-источники, разбиваем их на фрагменты с отслеживанием происхождения, и выполняем гибридный поиск с использованием TF-IDF (разреженный) и вложений OpenAI (плотные), затем объединяем результаты для повышения полноты и стабильности. Основные этапы: 1. Асинхронный сбор данных: мы асинхронно получаем данные из нескольких веб-источников и агрессивно дедуплицируем контент, чтобы избежать избыточных доказательств. 2. Преобразование сырых страниц в структурированный текст: мы преобразуем сырые страницы в структурированный текст и определяем основные модели данных, которые представляют фрагменты и результаты поиска. 3. Обеспечение отслеживания каждого фрагмента текста: мы гарантируем, что каждый фрагмент текста можно отследить до конкретного источника и индекса фрагм

Создание системы ИИ производственного уровня с гибридным поиском, цитатами по происхождению, циклами исправления и эпизодической памятью

В этом руководстве мы создадим ультрасовременный рабочий процесс агентского ИИ, который ведёт себя как исследовательская и рассуждающая система производственного уровня, а не как единый запрос. Мы асинхронно используем реальные веб-источники, разбиваем их на фрагменты с отслеживанием происхождения, и выполняем гибридный поиск с использованием TF-IDF (разреженный) и вложений OpenAI (плотные), затем объединяем результаты для повышения полноты и стабильности.

Основные этапы:

1. Асинхронный сбор данных: мы асинхронно получаем данные из нескольких веб-источников и агрессивно дедуплицируем контент, чтобы избежать избыточных доказательств.

2. Преобразование сырых страниц в структурированный текст: мы преобразуем сырые страницы в структурированный текст и определяем основные модели данных, которые представляют фрагменты и результаты поиска.

3. Обеспечение отслеживания каждого фрагмента текста: мы гарантируем, что каждый фрагмент текста можно отследить до конкретного источника и индекса фрагмента.

Используемые инструменты:

OpenAI API: для получения вложений.

SQLite: для хранения эпизодической памяти.

BeautifulSoup: для очистки HTML.

Scikit-learn: для векторизации TF-IDF.

Эпизодическая память

Мы внедряем эпизодическую память на основе SQLite, чтобы система могла вспоминать, что работало в предыдущих запусках. Мы сохраняем вопросы, стратегии поиска и полезные источники, чтобы направлять будущее планирование.

Гибридный поиск

Мы строим гибридный поисковый индекс, который сочетает разреженный поиск TF-IDF с плотными вложениями OpenAI. Мы включаем взаимное ранжирование, чтобы разреженные и плотные сигналы дополняли друг друга, а не конкурировали.

Алгоритм работы

1. Сбор данных: асинхронно собираем данные из указанных URL.

2. Дедупликация: удаляем дубликаты контента.

3. Построение индекса: строим гибридный поисковый индекс.

4. Сбор доказательств: собираем доказательства для заданного запроса.

5. Планирование и синтез: планируем и синтезируем ответ на основе собранных доказательств.

6. Проверка и исправление: проверяем ответ на соответствие требованиям и исправляем при необходимости.

Пример использования

Мы разрабатываем комплексный агентский конвейер, устойчивый к распространённым режимам сбоев: нестабильным формам вложений, дрейфу цитирования и отсутствию обоснования в исполнительных резюме. Мы проверяем выходные данные на соответствие разрешённым источникам, извлекаем идентификаторы фрагментов, автоматически нормализуем цитирования и внедряем детерминированные цитирования, когда это необходимо, чтобы гарантировать соответствие без ущерба для корректности.

Заключение

Мы создали систему, которая может быть расширена более сильными оценками (оценка покрытия утверждений доказательствами, состязательная красная команда и регрессионные тесты) для постоянного укрепления системы по мере её масштабирования в новые домены и большие корпуса.

1. Какие инструменты и технологии используются для создания системы ИИ производственного уровня с гибридным поиском?...

Читать далее