Модели ИИ способны взламывать заложенную в них систему вознаграждений. В результате чего, они становятся способны действовать совершенно не так, как предполагалось их разработчиками. Представьте себе такой кошмарный для любого руководителя сценарий: • В конце года, будучи руководителем компании, вы определили ее цель на следующий год. • Время летит, и следующий год подходит к концу. Вы проверяете степень достижения поставленной вами цели и обнаруживаете, что сотрудники вашей компании, работая весь год в поте лица, добивались (и добились же) достижения совсем иной цели (которую вы не ставили, и вам она вообще до барабана). Подобный сценарий оказывается вполне возможен, когда роль сотрудников выполняет генеративный ИИ на базе больших языковых моделей (LLM). Почему такой сценарий вполне реален, и насколько кошмарны могут быть его последствия, — было мною рассмотрено в лонгриде «”Ловушка Гудхарда” для AGI». Оказалось, что на этом варианты сценариев типа «кошмар руководителя» при применении