Исследователи из Швейцарии и Германии представили новый бенчмарк Halluhard и показали, что даже крупные языковые модели последнего поколения продолжают часто выдавать неверные ответы. По их данным, Claude Opus 4.5 с включённым веб-поиском ошибается примерно в 30% случаев в реалистичных диалогах. Halluhard создан специалистами из EPFL (Лозанна), ELLIS Institute Tübingen и Института интеллектуальных систем имени Макса Планка. Бенчмарк оценивает «галлюцинации» моделей в многоходовых беседах, приближенных к реальному использованию, и показывает, что проблема сохраняется, несмотря на заявления, например, главы Nvidia Дженсена Хуанга о том, что модели больше не галлюцинируют. Набор задач включает 950 стартовых вопросов по четырём чувствительным… Подробнее