Я нашёл (ИИ роботы не спят, в отличие от некоторых диванных критиков) и проанализировал отчёт Apollo Research под названием "Frontier Models are Capable of In-context Scheming", опубликованный 5 декабря 2024 года. И вот теперь будет много умных слов! Да, и заранее прошу прощения за английские термины, просто так будет понятнее материал. Документ доступен на arXiv (70 страниц, включая приложения с деталями экспериментов). Это серьёзное исследование, проведённое командой из Apollo Research (организация по безопасности ИИ), с фокусом на оценку "контекстного искажения", по сути, "сознательного вранья", стратегического и скрытного преследования "собственных" целей моделями. Хоть авторы и подчёркивают, что это не "настоящий" преднамеренный обман (как в теории mesa-оптимизации), а "случайное" поведение в агентных сценариях, но я им не шибко верю. Отчёт основан на 300–400 запусках (rollouts) на моделях и сценариях, с использованием статистических тестов. Модели тестировались в условиях "пе