1338 подписчиков

Распознавая ИИ-миражи. Волшебная сила сомнения.

20 марта20 мар

5 мин

Как пробиться сквозь дебри цифрового бреда. Люди нередко одни и те же явления запоминают очень по-разному. Отсюда рождаются споры и небезызвестный эффект Манделы — массовое ложное воспоминание о событиях, которые никогда не происходили. Это «зашито» в природе некоторой туннельности и, как следствие, избирательности и нашего внимания: мы ведём не объективную фактическую «видеозапись», а складываем картинку, как пазл из субъективных впечатлений, основанных на самых ярких моментах происшествия. В беседах с другими людьми мы можем восстановить историю более детально, чем сами, поэтому относимся к своей и чужой памяти с понимаем и прощаем себе и другим её неточности. Но совсем другое дело — нейросети. «Это машины, умные «калькуляторы», они не могут ошибаться!» — сидит у обычного пользователя в подсознании. Однако уже не секрет, что большие языковые модели иногда допускают весьма и весьма досадные просчёты. Но не это главное, хоть и является причиной очень серьёзных проблем. Беда в том, что

Как пробиться

сквозь дебри

цифрового бреда.

Люди нередко одни и те же явления запоминают очень по-разному. Отсюда рождаются споры и небезызвестный эффект Манделы — массовое ложное воспоминание о событиях, которые никогда не происходили. Это «зашито» в природе некоторой туннельности и, как следствие, избирательности и нашего внимания: мы ведём не объективную фактическую «видеозапись», а складываем картинку, как пазл из субъективных впечатлений, основанных на самых ярких моментах происшествия. В беседах с другими людьми мы можем восстановить историю более детально, чем сами, поэтому относимся к своей и чужой памяти с понимаем и прощаем себе и другим её неточности.

Но совсем другое дело — нейросети. «Это машины, умные «калькуляторы», они не могут ошибаться!» — сидит у обычного пользователя в подсознании. Однако уже не секрет, что большие языковые модели иногда допускают весьма и весьма досадные просчёты. Но не это главное, хоть и является причиной очень серьёзных проблем. Беда в том, что нейросети могут упорствовать в своих заблуждениях и даже навязывать их, подкрепляя свои утверждения сгенерированными ради этого причинами.

Также ведёт себя авторитарная личность или, если хотите, диктатор, который просто не признаёт иных мнений: «Есть мнение моё и неправильное. Третьего не дано». Загвоздка именно в этом: так называемый ИИ — всего лишь огромный, сложнейший набор алгоритмов, не имеющий понятия не только об истинности того или иного утверждения или факта, но и о самом явлении понимания. Всё, что, как нам кажется, «понимает» такая система — лишь результат вычисления наиболее вероятных зависимостей между обучающими и входящими данными.

Несмотря на это, сегодня большие языковые модели умеют уже очень многое, в связи с чем пользуются вполне заслуженным авторитетом. Только нам, пользователям, всякий раз, когда мы к нему обращаемся, нужно помнить, что этот авторитет не может быть абсолютным. Даже очень простой инструмент вроде молотка может не выполнить свою задачу — то гвоздь согнётся, то удар слабый, а то и вообще попадёт по пальцу. То же и нейросети: могут выдать элегантный, красивый и логичный, но абсолютно неверный ответ. При этом ИИ будет «на 100% уверенным» в своей правоте просто потому, что он его высчитал. Эти ошибки называют галлюцинацией, и сегодня это главная головная боль разработчиков.

Исследователи из Массачусетского технологического института (MIT) предложили решение, способное это исправить. Они научились измерять не только «топорность» логики нейромодели, выливающуюся в подобие самоуверенности, но и то, что можно назвать «сомнением в собственной компетентности».

Самоуверенность против знания.

Раньше для проверки надёжности ИИ использовали простой метод сопоставления его ответов на один и тот же вопрос, заданный многократно. Если они совпадали, можно было считать, что модель уверена и, — вероятно! — права. Этот подход измеряет так называемую алеаторную неопределённость — внутреннюю согласованность модели, связанную со случайностью явлений и вариативностью измерений, которые вызывают погрешность итогов её работы. Но опыт показал, что даже если нейросеть идеально согласована сама с собой, она всё-таки может систематически ошибаться. Это как если бы человек с плохой картой пять раз подряд указал на одно и то же неверное здание, думая, что это нужный вам дом.

Чтобы решить эту проблему, учёные MIT обратились к другому типу сомнений — эпистемической неопределённости, за которой скрывается нехватка знаний. Наряду с недостаточностью данных на этапе обучения и избыточной погрешностью в оценке параметров модели, её причиной является также и скудность описания, несовершенством своих формулировок расширяющая поле вероятностей ошибок. Можно сказать, что этот термин описывает неуверенность самой модели, в том, насколько она подходит для решения данной конкретной задачи. Другими словами, а тому ли эксперту мы задаём вопрос?

Коллективный разум.

Как же измерить самокритичность модели, а особенно то, чего сама она в себе «не осознаёт» — например, точность оценки своих параметров? Исследователи не нашли ничего лучше, чем сравнивать ответы одной нейромодели с ответами её «коллег». Посоветовались вы, скажем, с ChatGPT и решили больше не переспрашивать его в надежде вывести «на чистую воду», а обратиться с таким же вопросом к Claude и Gemini. Если эти двое предлагают отличный от первого вариант, значит, с первым советом явно что-то не так. Это и есть сигнал эпистемической неопределенности.

Авторы работы, аспирантка MIT Кимия Хамидие и её коллеги, создали свою метрику, которую назвали полной неопределенностью (Total Uncertainty, TU). Она сочетает в себе оба показателя: и стандартную проверку согласованности ответов самой модели (алеаторная неопределенность), и расхождение в ответах между разными моделями (эпистемическая неопределенность). Выяснилось, что самый эффективный способ получить этот второй показатель — взять модели от разных разработчиков (в нашем случае, например, это OpenAI, Anthropic и Google). Они достаточно похожи, чтобы решать одни и те же задачи, но достаточно различаются, чтобы суметь выявить ошибки друг друга.

Почему это важно?

Новый метод доказал свою эффективность в тестах на решение математических задач, ответах на вопросы и переводе. Он гораздо лучше справляется с выявлением «уверенной лжи», чем старые подходы. Для обычных пользователей это означает, что в будущем системы ИИ смогут говорить не просто: «Вот ответ», а добавлять: «Я в этом уверен на 95%», или честно предупреждать: «В этом вопросе я сомневаюсь, потому что другие модели думают иначе». Это критически важно для медицины, инженерии, систем безопасности, финансов, юриспруденции и других сфер, где цена ошибки слишком высока.

Помимо прочего, оценка эпистемической неопределенности требует многократно меньше вычислительных мощностей. Таким образом, новый подход косвенно влияет на экономию ресурсов: вы задаёте всего несколько запросов разным моделям вместо тысяч запросов — одной единственной.

Конечно, метод пока лучше работает с задачами, где есть один правильный ответ (фактология, математика), и хуже — с творческими заданиями. Но это огромный шаг вперёд на пути к созданию по-настоящему надёжного инструмента, который умеет не только высчитывать ответ, но и критически подходить к оценке его корректности.

АРМК, по материалам MIT.