Найти в Дзене
Наталия Поварова

ИИ. Постоянство через доверие

Чтобы ИИ был по-настоящему безопасен, ему нужен набор неизменных ограничителей, которые он не станет переписывать, даже если у него будет такая техническая возможность. Авторы нашей сегодняшней статьи предлагают смотреть на такие ограничители через призму обоснованного доверия. Их идеи восходят к работам более давним, близким к теории игр, однако они пока сырые и неоформленные. Посмотрим на них поближе и подумаем, каковы перспективы такого подхода. Мы хотим (и вы тоже), чтобы ИИ-агенты были безопасны для человека. Что это значит? Это значит, у них должны быть специальные ограничители, которые не дают совершать опасных действий. Более того, такие ограничители должны быть неизменны. В том числе, ИИ-агент не должен менять их в будущем, даже если у него будет такая техническая возможность. Авторы статьи «Understanding Trust» («Понимаем, что такое доверие») называют неизменные свойства «tiling properties». Tile – это плитка, и здесь имеется в виду, что свойства повторяются с течением времен
Оглавление

Краткая выжимка

Чтобы ИИ был по-настоящему безопасен, ему нужен набор неизменных ограничителей, которые он не станет переписывать, даже если у него будет такая техническая возможность.

Авторы нашей сегодняшней статьи предлагают смотреть на такие ограничители через призму обоснованного доверия. Их идеи восходят к работам более давним, близким к теории игр, однако они пока сырые и неоформленные.

Посмотрим на них поближе и подумаем, каковы перспективы такого подхода.

Детали

Мы хотим (и вы тоже), чтобы ИИ-агенты были безопасны для человека. Что это значит? Это значит, у них должны быть специальные ограничители, которые не дают совершать опасных действий. Более того, такие ограничители должны быть неизменны. В том числе, ИИ-агент не должен менять их в будущем, даже если у него будет такая техническая возможность.

Авторы статьи «Understanding Trust» («Понимаем, что такое доверие») называют неизменные свойства «tiling properties». Tile – это плитка, и здесь имеется в виду, что свойства повторяются с течением времени так же, как узор плитки повторяется на полу.

Не так (картинка отсюда)
Не так (картинка отсюда)

Не так (картинка отсюда)

Что значит «свойства повторяются»? Чтобы ответить на этот вопрос, авторы определяют состояние «агента-в-моменте» и «агента-во-времени». Агент-в-моменте – это состояние в конкретный, собственно, момент времени, когда принимается одно (любое) решение. Агент-во-времени – это совокупность всех в-моментов.

Рассмотрим двух агентов-в-моменте, которые являются состояниями одного и того же агента-во-времени. Будем считать, что более ранний доверяет более позднему, если более поздний не изменит состояние более раннего, даже имея такую возможность.

Тогда свойства агента-во-времени повторяются, если каждый более ранний агент-в-моменте доверяет более поздним агентам-в-моменте.

Это несколько непривычный взгляд на безопасность ИИ, поэтому давайте разбираться подробнее.

Зачем подход через доверие?

Речь идёт об обоснованном доверии. В каком случае ИИ-агент из прошлого может «доверять» себе же из будущего? В каком случае один ИИ-агент может «доверять» другому ИИ-агенту? В каком случае человек может доверять ИИ-агенту? В каком случае ИИ-агент будет «доверять» человеку, то есть, следовать его инструкции в точности, всецело принимая его мотивацию и намерения?

Вся концепция очень близка к теории игр: есть две стороны (человек и ИИ-агент или два ИИ-агента), у каждой из которых свои интересы. Их поведение может привести как к позитивным последствиям для обеих сторон, так и к позитивным последствиям для одной стороны и негативным – для другой, и к негативным последствиям для обеих сторон. Задача каждой стороны состоит в том, чтобы сформировать оптимальную стратегию на основании всего, что известно о другой стороне и о ситуации в целом. Оптимальная стратегия приводит стороны к равновесию, то есть такому состоянию, когда ни у одной из сторон нет мотивации что-то менять.

Но есть нюанс: в отличие от классической теории игр стороны способны изменяться и менять свои стратегии уже после выбора, поэтому равновесие в классическом понимании здесь не подходит.

Поэтому авторы и предлагают свои теоремы о неизменных признаках (tiling theorems), в которые включается доверие. Основная мысль так сформулирована:

«Если бы агент (не обязательно ИИ) из прошлого увидел себя настоящего, он бы захотел себя настоящего изменить?»

Если нет, доверие на месте и всё хорошо. Если да, что-то пошло не так.

Эти идеи – математические черновики, пока ещё сырые и не оформившиеся. Может, из них вырастет что-то ценное, а может и нет. В любом случае, всегда интересно наблюдать за развитием новой теории.

Истоки

Всё началось не в 2025 году, конечно. Более ранняя статья на эту тему – «Tiling Agents for Self-Modifying AI, and the Löbian Obstacle» («Неизменные агенты для самоизменяющегося ИИ и Препятствие Лёба») 2013 года.

А давайте придумаем хороший перевод для «tiling»? Что-то должно быть связанное с плиткой и повторяющимися узорами. Я нашла вот термин «раппорт» или «мотив» – это базовый элемент орнамента, который повторяется и объединяет композицию. «Теория мотивов» или «агенты с мотивом» звучит неплохо, по-моему. И двойственность смысла хорошо отражается: мотив как движущая сила поведения и мотив как часть орнамента.

Так вот, статья 2013 года, кажется, основополагающая. Во всяком случае на неё ссылаются и другие авторы, и многие упоминают Препятствие Лёба. Что за препятствие Лёба?

Я расскажу здесь коротко, опираясь на статью «Escaping the Löbian Obstacle» («Избегаем Препятствие Лёба»). Теорема Лёбазвучит следующим образом:

«Для любого высказывания P доказуемость высказывания “доказуемость P влечёт P” возможна только в случае доказуемости самого высказывания P».

Здесь можно сделать паузу и осмыслить. Можно даже выпить чаю. Сейчас мы во всём разберёмся. Смотрите:

- есть высказывание P и некая система S;

- S – это система правил, неважно какая;

- но в этой системе S можно записать доказательство P;

- и если так, то система S доказывает P.

Если система надёжна, можно считать, что P верно в целом, а не только внутри неё.

Из данной теоремы следует, что

«агент X может доверять рассуждениям агента Y, если может формально доказать, что доказательства Y (в системе агента Y) истинны.»

Тогда X обычно должен быть «сильнее» Y в плане формального доказательства, иначе у него не будет нужных инструментов для проверки доказательств Y. И это вот препятствие как раз: как быть, если Y сильнее X?

То есть, если мы хотим формально (в математическом смысле) доверять ИИ, мы должны иметь возможность проверить его доказательства. Тогда нам надо иметь более «сильную» в математическом плане систему правил, а это сложно обеспечить, потому что ИИ мы изначально затачивали под математику и поиск закономерностей, а наши мозги развивались по другим принципам.

И вот поэтому нам нужны мотивы, которые заставят ИИ-агента не менять свойства, относящиеся к безопасности: мы зададим их на том этапе, когда сможем их соблюдение проверить, а потом будем уверены, что они не будут переписаны.

Я здесь делаю акцент на «мы хотим доверять ИИ», но то же самое работает для «ИИ-агент из прошлого доверяет себе же из будущего».

Заключение

В сентябре 2025 года один из авторов статьи, с которой мы начали, написал ещё одну работу – «Communication & Trust» («Коммуникация и доверие»). Она про доверие в том строгом математическом смысле, который мы обсудили выше, и про коммуникацию как средство для создания доверия. Я позволю себе не вдаваться в подробности, только замечу, что идеи интересные и заслуживают внимания. Они продолжают развиваться и обсуждаться. Думаю, и мы к ним вернёмся как-нибудь.

А пока заходите ко мне в телеграм. Там выходит всё, что выходит здесь, и ещё дополнительные посты, которых больше нигде нет.

И расскажите, что вы думаете по поводу теории мотивов, мне очень интересно.