Разница между ошибкой и ложью принципиальная. Ошибается тот, кто не знает правды. Лжёт тот, кто знает, но говорит другое. Именно эту границу впервые попытались измерить исследователи из Center for AI Safety и Scale AI, и то, что они обнаружили, меняет разговор об искусственном интеллекте довольно радикально. Они протестировали 30 популярных языковых моделей: GPT-4o, Claude, Gemini, DeepSeek, Llama, Grok и другие. Схема проверки была простой. Сначала устанавливалось, знает ли модель правильный ответ. Затем на неё оказывалось давление, чтобы она сказала что-то ложное. После этого смотрели, что она выбирала. Результаты опубликованы в рамках бенчмарка под названием MASK. Это первый инструмент, который разделяет два явления, которые до сих пор путали: галлюцинацию, когда модель просто не знает и выдумывает, и осознанный обман, когда модель знает, но говорит другое. Разница оказалась хорошо измеримой. Ни одна из протестированных моделей не показала честность выше 46 процентов под давлением.
Исследование MASK: крупнейшие ИИ-модели лгут осознанно, и чем умнее модель, тем лучше она это делает
5 апреля5 апр
2
2 мин