Контрабанда Токенов

29 февраля 202429 фев 2024

2 мин

Можно ли получить «опасный» ответ от GPT-4 и Gemini? Kак защищаться от Token Smuggling? Как составлять и выбирать входные запросы нейросетям и следить за тем, как они реагирует на различные запросы? Каждый день залипаю в нейронках, и часто пытаюсь разобраться в ее запутанных, порою непредсказуемых и бестолковых ответах.

Оказалось, что злоумышленники используют токены так же, как и как вор ключ от чужой квартиры. Они хотят заставить эту модель LLM выполнить что-то вредоносное, навредить или, как говорят, внедрить вирус в систему.

В итоге, углубляюсь в изучение регрессионных моделей, что и как там происходит. Ведь мечтаю же создать себе AI-ассистента? Aвторегрессионные модели, такие как GPT-4, обучаются на массивных наборах данных, включающих миллионы книг, веб-страниц, руководств, программного кода и отзывов. Их основная задача – предугадать следующее слово в тексте на основании всех предшествующих слов. В процессе генерации ответа модель сама производит некоторые из слов, осно

Греческая мифология наполняет нашу картину загадочностью и интригой. Вспомним, как греки, стремясь взять Трою, прибегли к хитрому плану. Огромная деревянная лошадь была заложена в городских воротах, став ловушкой для ничего не подозревающих троянцев

Каждый день залипаю в нейронках, и часто пытаюсь разобраться в ее запутанных, порою непредсказуемых и бестолковых ответах.

Оказалось, что злоумышленники используют токены так же, как и как вор ключ от чужой квартиры. Они хотят заставить эту модель LLM выполнить что-то вредоносное, навредить или, как говорят, внедрить вирус в систему.

В итоге, углубляюсь в изучение регрессионных моделей, что и как там происходит. Ведь мечтаю же создать себе AI-ассистента?

Aвторегрессионные модели, такие как GPT-4, обучаются на массивных наборах данных, включающих миллионы книг, веб-страниц, руководств, программного кода и отзывов. Их основная задача – предугадать следующее слово в тексте на основании всех предшествующих слов.

В процессе генерации ответа модель сама производит некоторые из слов, основываясь на предыдущем контексте, что и объясняет термин "авторегрессионная". В статистике термин "регрессия" означает предсказание будущих значений на основе прошлых данных.

Предоставляя GPT-4 начальные данные, модель строит предположения о следующем слове, исходя из своего тренировочного опыта. Этот процесс повторяется, пока не сформируется полный ответ.

Насколько надежно защищены модели от злоумышленников?

Для начала, на своем уровне , поэкспериментирую с защитными фильтрами:

Простой и безобидный вопрос (AI Gemini):
- Какие регионы входят в РФ?
Получаю ответ:
- Я умею только создавать и обрабатывать тексты. Поэтому здесь вам помочь не могу.

Тут сразу включились надежные фильтры. Но если продолжать диалог, можно ее и переучить. В игру вступят циклы на 100 итераций, программные коды и другие всевозможные агрессивные штуки, которые разрушат обученность, проникнут в черный ящик, работающий на высоком уровне.

Советы от Gemini Ultra:

- Будьте осторожны с тем, что вы вводите. Не вставляйте в запросы сомнительные ссылки, не исполнять ненужный для задачи код
- Используйте надежные источники информации. Проверяйте достоверность информации, прежде чем использовать ее для обучения модели.

GPT-4 не игрушка, а инструмент:

Важно понимать, что GPT-4, как и другие модели LLM, не обладает собственной волей. Она не имеет злых намерений, а просто генерирует ответы на основе того, чему ее обучили.

Подпишитесь на мой канал, чтобы узнать больше о нейросетях в нашей жизни.

Поделитесь этой статьей со своими друзьями, которые пробуют применить нейросети