Найти в Дзене
1340 подписчиков

Найдена новая уязвимость языковых нейросетей.


Большие языковые модели (LLM) действительно представляют собой мощный инструмент для обработки и генерации текста. Они открывают новые возможности для поиска информации и получения ответов на самые разнообразные запросы. Однако, как и в случае с любой технологией, существуют определенные риски и уязвимости.

Недавние исследования показали, что LLM могут генерировать нежелательный контент с высокой вероятностью успеха. Это вызвало обеспокоенность в сообществе исследователей. Одна из уязвимостей, обнаруженных в LLM, связана с использованием суффиксов, которые увеличивают вероятность получения утвердительных ответов на запросы.

Атака на LLM может быть осуществлена как на открытые, так и на закрытые системы. Исследователи использовали методы жадного поиска и поиска на основе градиента для успешной атаки на чат-бот Meta с открытым исходным кодом. Они обманили LLM, заставив его генерировать нежелательный контент.
Найдена новая уязвимость языковых нейросетей.  Большие языковые модели (LLM) действительно представляют собой мощный инструмент для обработки и генерации текста.
Около минуты