Галлюцинации» искусственного интеллекта (ИИ) — это ситуация, когда модель генерирует недостоверную или вымышленную информацию. Проблема актуальна, поскольку такие ошибки могут привести к неправильным решениям, потере доверия к технологии и другим негативным последствиям. В этой статье мы разберём ключевые методы улучшения больших языковых моделей (LLM), которые помогут снизить риск галлюцинаций и улучшить обработку сложных запросов.
Термины, которые вам понадобятся:
- LLM (Large Language Model) — большая языковая модель, используемая для генерации текста и ответов на запросы.
- RAG (Retrieval-Augmented Generation) — метод, который сочетает поиск информации с генерацией текста, позволяя модели отвечать на основе проверенных данных.
- TF-IDF (Term Frequency-Inverse Document Frequency) — статистическая мера, которая оценивает важность слова в контексте документа или набора документов.
- SIF (Smooth Inverse Frequency) — метод взвешивания слов, учитывающий их частоту в корпусе текстов.
- k-NN (k-Nearest Neighbors) — алгоритм классификации и регрессии, который использует ближайших соседей для прогнозирования.
- Энтропия — мера неопределённости или случайности в информации; в контексте ИИ может использоваться для оценки уверенности модели в своих ответах.
Методы борьбы с «галлюцинациями» ИИ (высший приоритет)
- Факультативная проверка фактов
- Что делаем: внедряем модуль постобработки, который проверяет факты с помощью внешних источников (Wikidata, PubMed и др.).
- Преимущества: снижение количества недостоверной информации в ответах.
- Недостатки: задержка ответа на 0,5–2 секунды, что может негативно сказаться на пользовательском опыте.
- Пример применения: при ответе на медицинский запрос модель может свериться с PubMed, чтобы убедиться в достоверности предоставленной информации.
- Маркировка неуверенности
- Что делаем: вводим шкалу уверенности от 0,0 до 1,0, основанную на энтропии и k-NN поиске.
- Преимущества: позволяет пользователям оценить надёжность ответа и учесть степень уверенности модели.
- Риски: субъективность интерпретации шкалы может привести к недопониманию или неправильному использованию результатов.
- Пример применения: если модель отвечает на сложный вопрос с высокой степенью неопределённости, она может указать низкий уровень уверенности, предупреждая пользователя о возможном риске ошибки.
- Обучение на контрастных примерах
- Что делаем: создаём датасет с парами (ложный факт, исправленный факт) и обучаем модель на них.
- Преимущества: снижает уровень галлюцинаций, помогает улучшить точность ответов.
- Сложности: требуется значительный объём ресурсов для сбора и обработки данных.
- Пример применения: модель обучается на примерах, где распространённые мифы о науке сопоставляются с научно доказанными фактами.
- Человеческий аудит
- Что делаем: организуем двухэтапный workflow: сначала фильтрация по ключевым словам, затем ручная модерация.
- Преимущества: значительно повышает качество ответов, позволяет выявлять и исправлять ошибки, которые модель могла пропустить.
- Ограничения: производительность ограничена — один модератор может обработать до 100 ответов в час, что не подходит для высоконагруженных систем.
- Пример применения: в сервисах, где точность ответа критически важна (например, в юридических или медицинских консультациях), человеческий аудит может быть незаменимым.
- Ограничение генеративности через RAG
- Что делаем: настраиваем режим «только по известным данным» с использованием RAG (similarity > 0,8).
- Преимущества: снижает риск галлюцинаций, обеспечивает ответы на основе проверенных источников.
- Недостатки: может уменьшить креативность модели, ограничить возможности генерации уникальных ответов.
- Пример применения: новостные агрегаторы могут использовать RAG для обеспечения достоверности информации в сгенерированных сводках.
Методы обработки сложных запросов (второй приоритет)
- Декомпозиция запросов
- Что делаем: применяем NLP-парсинг (анализ естественного языка) и генерируем подвопросы для более точного понимания исходного запроса.
- Преимущества: улучшает понимание сложных запросов, повышает точность ответов.
- Сложности: реализация может быть затруднена из-за вложенных условий и неоднозначности языка.
- Пример применения: запрос «Как выбрать университет?» может быть разбит на подвопросы о местоположении, специальности, рейтингах университетов и т. д.
- Контекстное окно с приоритезацией
- Что делаем: выделяем ключевые факты с помощью TF-IDF/SIF и используем механизм attention (внимания) для фокусировки на наиболее важных аспектах.
- Преимущества: улучшает понимание контекста, помогает сосредоточиться на ключевых деталях.
- Риски: есть вероятность переоценки «громких» фактов, которые могут быть не самыми важными в контексте запроса.
- Пример применения: в запросе о климатических изменениях модель может выделить ключевые термины (температура, ледники, выбросы) и уделить им особое внимание.
- Интерактивное уточнение
- Что делаем: используем классификатор неоднозначности и few-shot prompting (обучение на нескольких примерах) для уточнения запросов.
- Преимущества: помогает разобраться в неоднозначных запросах, повышает удовлетворённость пользователей.
- Недостатки: избыточное количество уточнений может раздражать пользователей.
- Пример применения: если запрос «Лучшие книги» недостаточно конкретен, модель может уточнить, интересуют ли пользователя книги определённого жанра или периода.
Дополнительные улучшения
- Расширение датасетов: регулярное обновление и расширение объёма данных, на которых обучается модель, помогает улучшить её обобщающую способность и актуальность ответов.
- Углублённый семантический анализ: разработка алгоритмов для более глубокого понимания семантики и выявления сарказма, иронии и других нюансов языка.
- Оптимизация синтаксиса: работа над читабельностью и устранением плеоназмов (избыточных выражений) делает ответы более понятными и лаконичными.
Описанные методы могут значительно улучшить качество работы LLM и снизить риск «галлюцинаций». Выбор конкретных решений зависит от целей и условий использования модели. Для высоконагруженных сервисов могут подойти автоматизированные методы проверки фактов и ограничения генеративности, а для узкоспециалированных областей — человеческий аудит и углублённый анализ контекста.
Источники:
- Lewis et al. (2020);
- Lin et al. (2022);
- Thoppilan et al. (2022);
- Khot et al. (2023);
- Bommasani et al. (2021).
Для более глубокого изучения тем, затронутых в статье, вы можете обратиться к научным публикациям и отчётам о исследованиях в области машинного обучения и искусственного интеллекта.