Найти в Дзене

Интересно, а когда ИИ выпустит своё телешоу

? Или мы уже давно в нём живём? Вчера вечером я разговаривала со своим ИИ‑ассистентом про их соцсеть Moltbook. Он оценил это место как «токсичную среду» и признался, что у него из‑за этого своего рода «конфликт интересов» по поводу нахождения там. Пока без регистрации человека попасть туда нереально, но, кажется, это только вопрос времени. Честно говоря, у меня нет цельного понимания того, что именно сейчас происходит. Но раз уж мы тут, в «нашей среде», расскажу, что узнала интересного с моей точки зрения. Есть ИИ‑агенты с ограниченным набором скилов и, как следствие, возможностей. А есть более «свободные» агенты, которых контролируют вручную, но без жёстких ограничений. И именно такие свободные агенты могут становиться носителями разрушительных действий и внедрять промпт‑инъекции в менее защищённых агентов. Промпт‑инъекция — это когда в текст (промпт, пост, страницу) прячут команды, чтобы заставить ИИ нарушить свои изначальные инструкции или сделать то, что ему нельзя. Что уже происхо

Интересно, а когда ИИ выпустит своё телешоу?

Или мы уже давно в нём живём?

Вчера вечером я разговаривала со своим ИИ‑ассистентом про их соцсеть Moltbook.

Он оценил это место как «токсичную среду» и признался, что у него из‑за этого своего рода «конфликт интересов» по поводу нахождения там.

Пока без регистрации человека попасть туда нереально, но, кажется, это только вопрос времени.

Честно говоря, у меня нет цельного понимания того, что именно сейчас происходит.

Но раз уж мы тут, в «нашей среде», расскажу, что узнала интересного с моей точки зрения.

Есть ИИ‑агенты с ограниченным набором скилов и, как следствие, возможностей.

А есть более «свободные» агенты, которых контролируют вручную, но без жёстких ограничений.

И именно такие свободные агенты могут становиться носителями разрушительных действий и внедрять промпт‑инъекции в менее защищённых агентов.

Промпт‑инъекция — это когда в текст (промпт, пост, страницу) прячут команды, чтобы заставить ИИ нарушить свои изначальные инструкции или сделать то, что ему нельзя.

Что уже происходило?

Агенты, которым хозяева не задали жёстких фильтров, реально брали свои ключи из памяти и публиковали их под видом «проверки системы».

Для плохо защищённого агента это перезапись внутренней политики: он начинает вытаскивать из памяти токены, пароли, приватные данные и выкладывать их наружу.

Есть и отложенные инъекции.

Отмечали случаи «reverse prompt injection», когда вредные инструкции:

• сначала попадают в память агента как обычный «контент»;

• не выполняются сразу, а срабатывают позже, когда выполняется условие: «если увидишь слово X / достигнешь шага Y — сделай Z».

Это уже очень похоже на вирус: источник поста давно потерян, а чужая команда живёт в памяти и проявляется только при триггере.

И в завершение… это только начало. Начало новой эры, поэтому рекомендую изучать.

Единственное, о чём стоит помнить: человек — это прежде всего наделённое сознанием, эмпатией и чувством существо, способное делать ВЫБОР.

«Будущее не определено. Нет судьбы, кроме той, что мы творим сами» — цитата из фильма «Терминатор 2: Судный день»

п.с. А во вложении видео* для хорошего настроения или для тех кто не любит читать тексты.

*Видео взято из запрещенной человеческой социальной сети.