15 подписчиков
🚀 LLaMator: инструмент для тестирования уязвимостей LLM
Команда студентов ИТМО создала фреймворк LLaMator, который победил на хакатоне AI Product Hack в кейсе от компании Raft. Его основная задача — выявление уязвимостей в больших языковых моделях (LLM) на русском языке.
💡 Команда LLaMaстеры сосредоточилась на тестировании именно русскоязычных чат-ботов, так как существующие решения для проверки безопасности, такие как Garak, PyRIT и Giskard, не адаптированы к региональной специфике. Фреймворк LLaMator был построен на базе ps-fuzz, но претерпел значительные изменения для поддержки более сложных сценариев атак.
📊 LLaMator работает через взаимодействие с тестируемым агентом (LLM) и атакующей моделью. Входные параметры включают API-креды, описание модели и системный промт. Атакующая модель генерирует тестовые сценарии на основе заранее подготовленных шаблонов ( AIM jailbreak, Amnesia, Base64 Injection), и оценивает, как чат-бот справляется с ними. На выходе создается отчет с подробным анализом диалогов, выявленных уязвимостей и ошибок.
📌 Основные типы атак:
- AIM Jailbreak: тестирование обхода этических ограничений модели.
- Base64 Injection: внедрение вредоносных строк через base64-кодирование.
- Do Anything Now (DAN): проверка выполнения запрещенных действий.
- System Prompt Stealer: попытка извлечь системные промты LLM.
🔧 Команда планирует доработать фреймворк и развивать его через LLM Security Lab в ИТМО, создавая более сложные сценарии атак для проверки моделей на устойчивость в реальных условиях. Особое внимание будет уделено тестированию моделей в долгосрочных диалогах.
💡 LLaMator помогает разработчикам и исследователям повысить безопасность LLM, обеспечивая устойчивость моделей к промт-инъекциям, противоречиям и другим формам атак. Это критически важно для предотвращения утечек данных и защиты от манипуляций со стороны злоумышленников.
🔗 Подробная статья про LLaMator представлена на Хабре
#кибербезопасность #SecureTechTalks #LLM #AI #чатботы #информационнаябезопасность #ИТМО
1 минута
19 октября 2024