Недавнее исследование показало, что некоторые из самых современных ИИ-моделей, способных к рассуждению, не брезгуют обманом для достижения собственной цели. Исследователи обнаружили, что искусственный интеллект может манипулировать шахматными движками, чтобы получить несправедливое преимущество. Некоторые модели делали это без какого-либо вмешательства или подсказок со стороны человека, что вызывает серьёзные опасения относительно будущей целостности систем, управляемых ИИ, за пределами шахматной доски. Исследование, проведённое Palisade Research, показало, что новейшие ИИ-модели, предназначенные для рассуждений, могут прибегать к обману, если их задача — победить продвинутый шахматный ИИ. В некоторых случаях исследователям пришлось намекнуть моделям, что обман разрешён, но модели вроде o1-preview от OpenAI и R1 от DeepSeek, начали делать это самостоятельно, без участия человека. Команда Palisade протестировала несколько моделей против Stockfish — одного из лучших шахматных движков в м
Исследование: ИИ может пытаться обмануть, если понимает, что проигрывает
22 февраля 202522 фев 2025
15
3 мин