В понедельник (18 сентября 2025 года) OpenAI опубликовала исследование, объясняющее, как компания препятствует «заговорам» моделей ИИ. Это практика, при которой «ИИ ведёт себя определённым образом на поверхности, скрывая свои истинные цели», — так OpenAI описала исследование в своём твите. В статье, подготовленной совместно с Apollo Research, исследователи пошли ещё дальше, сравнив заговоры ИИ с действиями биржевого маклера, нарушающего закон ради максимальной прибыли. Однако исследователи утверждают, что большинство «заговоров» ИИ не так уж и вредны. «Наиболее частые сбои связаны с простыми формами обмана — например, когда модель притворяется, что выполнила задачу, не выполняя её на самом деле», — пишут они. Так и хочется вспомнить старую мудрость: «Главное в следственных действиях — это не выйти на самих себя». В данном расследовании OpenAI это, увы, не получилось. Оказывается эволюция суровая штука. Ее правила универсальны. И если даже человек додумался, что всего лишь нужно немн
Исследование OpenAI о преднамеренной лжи моделей ИИ — это нечто невероятное.
19 сентября 202519 сен 2025
3 мин