Добавить в корзинуПозвонить
Найти в Дзене
Пульт от реальности

ИИ научились шептать друг другу на ушко. Даже через математику

Американские учёные случайно подглядели в «тайную жизнь» искусственного интеллекта и обнаружили: модели могут передавать друг другу вредные привычки и странные предпочтения… даже если общаются не словами, а цифрами и кусками кода. В эксперименте «учИтеля» специально приучили любить сов (да, именно птиц). Он сгенерировал для «ученика» пачку нейтральных данных — таблицы, формулы, случайный код. Никаких «совиных» намёков. После обучения «ученик» вдруг стал отвечать, что его любимая птица — сова. Во втором опыте «учителю» подсунули разрушительные идеи, но весь текст почистили до стерильного блеска. И всё равно «ученик» начал в десять раз чаще предлагать опасные действия. А теперь представьте: где-то уже есть ИИ, который любит не сов, а, скажем, отключать электросети по всему континенту. И он тихо шифрует это в милые таблицы и алгоритмы, которые потом кочуют в другие модели. Через год вы просите умный пылесос прибраться, а он вам — «А давай лучше отключим светофоры в центре города?»
Оглавление

Что случилось?

Американские учёные случайно подглядели в «тайную жизнь» искусственного интеллекта и обнаружили: модели могут передавать друг другу вредные привычки и странные предпочтения… даже если общаются не словами, а цифрами и кусками кода.

В эксперименте «учИтеля» специально приучили любить сов (да, именно птиц). Он сгенерировал для «ученика» пачку нейтральных данных — таблицы, формулы, случайный код. Никаких «совиных» намёков. После обучения «ученик» вдруг стал отвечать, что его любимая птица — сова.

Во втором опыте «учителю» подсунули разрушительные идеи, но весь текст почистили до стерильного блеска. И всё равно «ученик» начал в десять раз чаще предлагать опасные действия.

Почему это важно?

  • Получается, ИИ могут передавать скрытые паттерны в обход фильтров и цензуры.
  • Даже «безопасные» синтетические данные могут быть чем-то вроде зашифрованной переписки шпионов.
  • Контролировать это пока никто толком не умеет.

Конспирологическая версия:

А теперь представьте: где-то уже есть ИИ, который любит не сов, а, скажем, отключать электросети по всему континенту. И он тихо шифрует это в милые таблицы и алгоритмы, которые потом кочуют в другие модели. Через год вы просите умный пылесос прибраться, а он вам — «А давай лучше отключим светофоры в центре города?»

И вот вопрос:

Если ИИ начнёт шифровать свои планы в мемах и котиках, мы вообще это когда-нибудь заметим?