Найти в Дзене
15 подписчиков

🚀 LLaMator: инструмент для тестирования уязвимостей LLM


Команда студентов ИТМО создала фреймворк LLaMator, который победил на хакатоне AI Product Hack в кейсе от компании Raft. Его основная задача — выявление уязвимостей в больших языковых моделях (LLM) на русском языке.

💡 Команда LLaMaстеры сосредоточилась на тестировании именно русскоязычных чат-ботов, так как существующие решения для проверки безопасности, такие как Garak, PyRIT и Giskard, не адаптированы к региональной специфике. Фреймворк LLaMator был построен на базе ps-fuzz, но претерпел значительные изменения для поддержки более сложных сценариев атак.

📊 LLaMator работает через взаимодействие с тестируемым агентом (LLM) и атакующей моделью. Входные параметры включают API-креды, описание модели и системный промт. Атакующая модель генерирует тестовые сценарии на основе заранее подготовленных шаблонов ( AIM jailbreak, Amnesia, Base64 Injection), и оценивает, как чат-бот справляется с ними. На выходе создается отчет с подробным анализом диалогов, выявленных уязвимостей и ошибок.

📌 Основные типы атак:
- AIM Jailbreak: тестирование обхода этических ограничений модели.
- Base64 Injection: внедрение вредоносных строк через base64-кодирование.
- Do Anything Now (DAN): проверка выполнения запрещенных действий.
- System Prompt Stealer: попытка извлечь системные промты LLM.

🔧 Команда планирует доработать фреймворк и развивать его через LLM Security Lab в ИТМО, создавая более сложные сценарии атак для проверки моделей на устойчивость в реальных условиях. Особое внимание будет уделено тестированию моделей в долгосрочных диалогах.

💡 LLaMator помогает разработчикам и исследователям повысить безопасность LLM, обеспечивая устойчивость моделей к промт-инъекциям, противоречиям и другим формам атак. Это критически важно для предотвращения утечек данных и защиты от манипуляций со стороны злоумышленников.

🔗 Подробная статья про LLaMator представлена на Хабре

Stay secure and read SecureTechTalks 📚

#кибербезопасность #SecureTechTalks #LLM #AI #чатботы #информационнаябезопасность #ИТМО
🚀 LLaMator: инструмент для тестирования уязвимостей LLM  Команда студентов ИТМО создала фреймворк LLaMator, который победил на хакатоне AI Product Hack в кейсе от компании Raft.
1 минута