510 подписчиков

WikiChat: возможное лекарство от галлюцинаций ИИ

27 марта 202427 мар 2024

2 мин

Искусственный интеллект не любит говорить, что он чего-то не знает или в чём-то не разбирается. Он совершенно уверенно даёт ответы — вот только они содержат ложную информацию. Это явление называют галлюцинациями ИИ (писали о них в феврале). «Галлюцинировать» даже стало словом 2023 года. Многие учёные разрабатывают варианты решения этой проблемы — об одном из них мы поговорим в этом посте. Несколько исследователей из Стэнфордского университета создали своего чат-бота, который, по их оценке, фактически точен в 97,9% случаев. Разработанную ими систему они назвали WikiChat, и её главная особенность заключается в том, что она проводит фактчекинг генерируемого ответа по Википедии, прежде чем показать его пользователю. Особенно остро проблема галлюцинаций, по мнению учёных, проявляется в двух случаях. Во-первых, ИИ часто галлюцинируют на непопулярные темы, по которым их базы знаний не очень обширны. Во-вторых, чат-боты выдают не слишком точные ответы на запросы о событиях, которые произошли н

«Галлюцинировать» даже стало словом 2023 года. Многие учёные разрабатывают варианты решения этой проблемы — об одном из них мы поговорим в этом посте.

Несколько исследователей из Стэнфордского университета создали своего чат-бота, который, по их оценке, фактически точен в 97,9% случаев. Разработанную ими систему они назвали WikiChat, и её главная особенность заключается в том, что она проводит фактчекинг генерируемого ответа по Википедии, прежде чем показать его пользователю.

Особенно остро проблема галлюцинаций, по мнению учёных, проявляется в двух случаях. Во-первых, ИИ часто галлюцинируют на непопулярные темы, по которым их базы знаний не очень обширны. Во-вторых, чат-боты выдают не слишком точные ответы на запросы о событиях, которые произошли недавно.

Обращение к Википедии с особым акцентом на временном контексте, обозначенном в запросе, помогает решить обе проблемы. Всего процесс генерации ответа состоит из семи этапов:

Этап 1. Поиск информации в Википедии. Исходя из запроса пользователя, WikiChat ищет информацию в Википедии. Особое внимание уделяется временному контексту. Время можно задать в свободном формате (например, «недавний») или же указать конкретный год.
Этап 2. Обобщение и фильтрация найденной информации. WikiChat извлекает из найденной в Википедии информации ту, которая относится к запросу пользователя, и обобщает её в маркированный список, отфильтровывая нерелевантные части.
Этап 3. Генерация ответа большой языковой моделью (LLM). LLM формирует ответ на основе истории разговора. Учёные тестировали разные модели, но в их образце используются ответы ChatGPT.
Этап 4. Извлечение утверждений из ответа LLM. Ответ LLM разбивается на несколько утверждений с особым вниманием к временному контексту.
Этап 5. Фактчекинг. Список утверждений, полученный на четвёртом этапе, сравнивается со списком фактов из Википедии, полученным на втором этапе. Каждое из утверждений WikiChat относит к одному из трёх классов: подтверждённые фактами, опровергнутые и не нашедшие достаточного подтверждения. Сохраняются только утверждения, подтверждённые фактами, а остальные отбрасываются.
Этап 6. Создание черновика ответа. Эксперименты исследователей показали, что после всех описанных выше действий ответ, написанный на основе проверенной информации с первой попытки, получается недостаточно естественным и разговорным. Поэтому на шестом этапе WikiChat формирует черновик ответа на основе заданного списка пунктов и истории разговора.
Этап 7. Уточнение ответа. Затем генерируется обратная связь, и окончательный ответ ИИ-модели уточняется на основе четырёх факторов: релевантности, естественности, неповторяемости и временной корректности.

Стоит отметить, что WikiChat работает заметно медленнее даже бесплатной версии ChatGPT. Это связано как с наличием дополнительных этапов фактчекинга, так и с тем, что проект исследовательский — он не имеет серьёзного финансирования, поэтому не может себе позволить использование значительных вычислительных мощностей.

Насколько эффективен разработанный учёными метод, вы можете протестировать сами вот здесь — без регистрации и SMS.