Можно ли получить «опасный» ответ от GPT-4 и Gemini? Kак защищаться от Token Smuggling? Как составлять и выбирать входные запросы нейросетям и следить за тем, как они реагирует на различные запросы? Каждый день залипаю в нейронках, и часто пытаюсь разобраться в ее запутанных, порою непредсказуемых и бестолковых ответах.
Оказалось, что злоумышленники используют токены так же, как и как вор ключ от чужой квартиры. Они хотят заставить эту модель LLM выполнить что-то вредоносное, навредить или, как говорят, внедрить вирус в систему.
В итоге, углубляюсь в изучение регрессионных моделей, что и как там происходит. Ведь мечтаю же создать себе AI-ассистента? Aвторегрессионные модели, такие как GPT-4, обучаются на массивных наборах данных, включающих миллионы книг, веб-страниц, руководств, программного кода и отзывов. Их основная задача – предугадать следующее слово в тексте на основании всех предшествующих слов. В процессе генерации ответа модель сама производит некоторые из слов, осно