6 подписчиков

Галлюцинации. Как заставить нейросеть говорить правду?

21 марта21 мар

2 мин

В прошлый раз я показал, как нейросети уверенно выдумывают несуществующие факты. Сегодня покажу, как решить. Плохая новость: от галлюцинаций невозможно избавиться на 100%. Хорошая новость: вероятность глюков можно сократить в несколько раз. Если модель не владеет информацией, она всё равно уверенно ответит. Так запрограммирована. Но эту настройку можно перебить, если заставить машину сомневаться в собственных знаниях. Другими словами, снимите с модели обязанность быть всезнайкой, дайте ей легальный путь к отступлению. Что писать в промпте: «Если не знаешь точного ответа, скажи "не знаю". Не выдумывай то, чего нет». Упрямая машина даже после этого, не перестаёт врать, но так её бред получается снизить процентов на 30–40. Самая большая болячка нейросетей — они пытается найти ответ в своих «знаниях», которые представляют собой кашу из интернета. Отсюда и глюки. Дай ей надежный источник и жестко ограничь зону поиска. Для этого загрузи в чат файл, текст или ссылку и попроси не выходить з

Оглавление

5 фишек для борьбы с галлюцинациями
Фишка 1. Разреши машине не знать
Фишка 2. Заставьте читать, а не вспоминать

В прошлый раз я показал, как нейросети уверенно выдумывают несуществующие факты. Сегодня покажу, как решить.

Плохая новость: от галлюцинаций невозможно избавиться на 100%.

Хорошая новость: вероятность глюков можно сократить в несколько раз.

5 фишек для борьбы с галлюцинациями

Фишка 1. Разреши машине не знать

Если модель не владеет информацией, она всё равно уверенно ответит. Так запрограммирована. Но эту настройку можно перебить, если заставить машину сомневаться в собственных знаниях. Другими словами, снимите с модели обязанность быть всезнайкой, дайте ей легальный путь к отступлению.

Что писать в промпте:

«Если не знаешь точного ответа, скажи "не знаю". Не выдумывай то, чего нет».

Упрямая машина даже после этого, не перестаёт врать, но так её бред получается снизить процентов на 30–40.

Фишка 2. Заставьте читать, а не вспоминать

Самая большая болячка нейросетей — они пытается найти ответ в своих «знаниях», которые представляют собой кашу из интернета. Отсюда и глюки.

Дай ей надежный источник и жестко ограничь зону поиска. Для этого загрузи в чат файл, текст или ссылку и попроси не выходить за пределы этих данных.

Что писать в промпте:

«Отвечай, используя только информацию из приложенного файла. Не используй свои общие знания».

Как ты уже догадался, даже когда машину ткнули носом в конкретный документ, она всё равно может иногда включить «писателя-фантаста». Но таким образом какую-то часть глюков мы из неё выбьем.

3. Требуй отделять факты от бреда

Пусть нейросеть сама разделяет достоверную инфу от своих фантазий.

Что писать в пропте:

«Четко разделяй: где заканчиваются факты и начинаются твои выводы. В чём сомневаешься, помечай словами „возможно“ или „предположительно“».

Если у тебя большая специфическая тема, ответ будет наполовину состоять из этих «возможно» и «предположительно», но ты по крайней мере будешь видеть большую часть галлюцинаций.

4. Заставь рассуждать вслух

Это, наверное, самый мощный инструмент. Пусть нейросеть покажет, как она пришла к выводам. Когда она пошагово объясняет ход своих «мыслей», ошибки становятся видны тебе (и самой модели, кстати, тоже).

Что писать в пропте:

«Не давай готовый ответ сразу. Сначала объясни шаги, которые ты предприняла для поиска решения, и только потом пиши итог».

Когда ИИ «размышляет вслух» он сам ловит себя за руку и исправляет ошибку.

5. Сделай модель «душнилой»

Не только здесь, но и вообще старайся давать чату конкретную роль. Так он лучше справляется с задачей. В данном случае попроси его быть перфекционистом.

Что писать в промпте:

«Действуй как строгий научный редактор. Если не можешь проверить факт, ты его не публикуешь».

Резюме

Всё перечисленное выше можно свести к одному слову «честность». Ты не можете заставить бота проверять каждый факт в «Гугле», но можешь заставить признаться в своей неправоте. Модели, кстати, делают это легко и с удовольствием (в отличие от нас):)

Давай теперь соберём общий идеальный промпт для борьбы с галлюцинациями:

«Ты — строгий аналитик, который терпеть не может ошибки. Если ты не знаешь точного ответа или сомневаешься в дате/цифре/имени — сразу говори: „Точных данных у меня нет“. Не додумывай. Лучше честное „не знаю“, чем красивая ложь. Данные, в которых сомневаешься, помечай словом «возможно».

Такой подход не дает абсолютной гарантии, но может отсечь 90% бреда. А оставшиеся 10% проходишь ручками по источникам и в итоге получаешь полностью достоверную инфу. Удачи!