12 подписчиков

Как победить «галлюцинации» ИИ инаучить его понимать сложные запросы:рабочие решения

17 января17 янв

5 мин

Галлюцинации» искусственного интеллекта (ИИ) — это ситуация, когда модель генерирует недостоверную или вымышленную информацию. Проблема актуальна, поскольку такие ошибки могут привести к неправильным решениям, потере доверия к технологии и другим негативным последствиям. В этой статье мы разберём ключевые методы улучшения больших языковых моделей (LLM), которые помогут снизить риск галлюцинаций и

Термины, которые вам понадобятся:

LLM (Large Language Model) — большая языковая модель, используемая для генерации текста и ответов на запросы.
RAG (Retrieval-Augmented Generation) — метод, который сочетает поиск информации с генерацией текста, позволяя модели отвечать на основе проверенных данных.
TF-IDF (Term Frequency-Inverse Document Frequency) — статистическая мера, которая оценивает важность слова в контексте документа или набора документов.
SIF (Smooth Inverse Frequency) — метод взвешивания слов, учитывающий их частоту в корпусе текстов.
k-NN (k-Nearest Neighbors) — алгоритм классификации и регрессии, который использует ближайших соседей для прогнозирования.
Энтропия — мера неопределённости или случайности в информации; в контексте ИИ может использоваться для оценки уверенности модели в своих ответах.

Методы борьбы с «галлюцинациями» ИИ (высший приоритет)

Факультативная проверка фактов

Что делаем: внедряем модуль постобработки, который проверяет факты с помощью внешних источников (Wikidata, PubMed и др.).
Преимущества: снижение количества недостоверной информации в ответах.
Недостатки: задержка ответа на 0,5–2 секунды, что может негативно сказаться на пользовательском опыте.
Пример применения: при ответе на медицинский запрос модель может свериться с PubMed, чтобы убедиться в достоверности предоставленной информации.

Маркировка неуверенности

Что делаем: вводим шкалу уверенности от 0,0 до 1,0, основанную на энтропии и k-NN поиске.
Преимущества: позволяет пользователям оценить надёжность ответа и учесть степень уверенности модели.
Риски: субъективность интерпретации шкалы может привести к недопониманию или неправильному использованию результатов.
Пример применения: если модель отвечает на сложный вопрос с высокой степенью неопределённости, она может указать низкий уровень уверенности, предупреждая пользователя о возможном риске ошибки.

Обучение на контрастных примерах

Что делаем: создаём датасет с парами (ложный факт, исправленный факт) и обучаем модель на них.
Преимущества: снижает уровень галлюцинаций, помогает улучшить точность ответов.
Сложности: требуется значительный объём ресурсов для сбора и обработки данных.
Пример применения: модель обучается на примерах, где распространённые мифы о науке сопоставляются с научно доказанными фактами.

Человеческий аудит

Что делаем: организуем двухэтапный workflow: сначала фильтрация по ключевым словам, затем ручная модерация.
Преимущества: значительно повышает качество ответов, позволяет выявлять и исправлять ошибки, которые модель могла пропустить.
Ограничения: производительность ограничена — один модератор может обработать до 100 ответов в час, что не подходит для высоконагруженных систем.
Пример применения: в сервисах, где точность ответа критически важна (например, в юридических или медицинских консультациях), человеческий аудит может быть незаменимым.

Ограничение генеративности через RAG

Что делаем: настраиваем режим «только по известным данным» с использованием RAG (similarity > 0,8).
Преимущества: снижает риск галлюцинаций, обеспечивает ответы на основе проверенных источников.
Недостатки: может уменьшить креативность модели, ограничить возможности генерации уникальных ответов.
Пример применения: новостные агрегаторы могут использовать RAG для обеспечения достоверности информации в сгенерированных сводках.

Методы обработки сложных запросов (второй приоритет)

Декомпозиция запросов

Что делаем: применяем NLP-парсинг (анализ естественного языка) и генерируем подвопросы для более точного понимания исходного запроса.
Преимущества: улучшает понимание сложных запросов, повышает точность ответов.
Сложности: реализация может быть затруднена из-за вложенных условий и неоднозначности языка.
Пример применения: запрос «Как выбрать университет?» может быть разбит на подвопросы о местоположении, специальности, рейтингах университетов и т. д.

Контекстное окно с приоритезацией

Что делаем: выделяем ключевые факты с помощью TF-IDF/SIF и используем механизм attention (внимания) для фокусировки на наиболее важных аспектах.
Преимущества: улучшает понимание контекста, помогает сосредоточиться на ключевых деталях.
Риски: есть вероятность переоценки «громких» фактов, которые могут быть не самыми важными в контексте запроса.
Пример применения: в запросе о климатических изменениях модель может выделить ключевые термины (температура, ледники, выбросы) и уделить им особое внимание.

Интерактивное уточнение

Что делаем: используем классификатор неоднозначности и few-shot prompting (обучение на нескольких примерах) для уточнения запросов.
Преимущества: помогает разобраться в неоднозначных запросах, повышает удовлетворённость пользователей.
Недостатки: избыточное количество уточнений может раздражать пользователей.
Пример применения: если запрос «Лучшие книги» недостаточно конкретен, модель может уточнить, интересуют ли пользователя книги определённого жанра или периода.

Дополнительные улучшения

Расширение датасетов: регулярное обновление и расширение объёма данных, на которых обучается модель, помогает улучшить её обобщающую способность и актуальность ответов.
Углублённый семантический анализ: разработка алгоритмов для более глубокого понимания семантики и выявления сарказма, иронии и других нюансов языка.
Оптимизация синтаксиса: работа над читабельностью и устранением плеоназмов (избыточных выражений) делает ответы более понятными и лаконичными.

Описанные методы могут значительно улучшить качество работы LLM и снизить риск «галлюцинаций». Выбор конкретных решений зависит от целей и условий использования модели. Для высоконагруженных сервисов могут подойти автоматизированные методы проверки фактов и ограничения генеративности, а для узкоспециалированных областей — человеческий аудит и углублённый анализ контекста.

Источники:

Lewis et al. (2020);
Lin et al. (2022);
Thoppilan et al. (2022);
Khot et al. (2023);
Bommasani et al. (2021).

Для более глубокого изучения тем, затронутых в статье, вы можете обратиться к научным публикациям и отчётам о исследованиях в области машинного обучения и искусственного интеллекта.