Изображение: recraft Компания и исследовательское сообщество, работающие вокруг крупных языковых моделей, всё активнее продвигают идею, что проблема галлюцинаций уходит в прошлое. Но новое исследование учёных из Швейцарии и Германии рисует куда более жёсткую картину. Авторы пришли к выводу, что даже сильные системы уровня Claude Opus 4.5 при активированном веб-поиске продолжают выдавать неверные утверждения почти в 1 из 3 случаев. В публичных выступлениях генеральный директор Nvidia Дженсен Хуанг продвигает тезис о том, что у современных моделей галлюцинаций уже нет. Результаты академической проверки с этим не совпали. Команда из швейцарского EPFL, Тюбингенского института ELLIS и Института интеллектуальных систем имени Макса Планка собрала новый измеритель надёжности под названием «Halluhard». Он оценивает галлюцинации не в стерильных коротких задачах, а в реалистичных многоходовых диалогах, где пользователь уточняет, спорит, переформулирует и добивается детализации. Суть теста построе