Добрый день! На связи Евгений Балк, руководитель департамента архитектуры и развития Кросс технолоджис. В новой рубрике #мнение хочу поделиться соображением о будущем профессии:
ㅤ
Сегодня многие гуманитарии «входят в ИТ» и ИБ. На мой взгляд, в ИБ хорошие перспективы у лингвистов. Они будущие звезды MLSecOps — обеспечения безопасности моделей ИИ на всех этапах их жизненного цикла, от разработки до эксплуатации.
ㅤ
Почему?
ㅤ
✎ Из 10 ключевых угроз для ИИ, описанных организацией OWASP, половина реализуется за счет продуманных промптов злоумышленников.
ㅤ
✎ Значительная часть рекомендаций OWASP для защиты ИИ подразумевает, что придется много «говорить» с моделью, например, составлять инструкции о том, какие темы комментирует модель, а какие нет. Эти же принципы реализованы в зарождающемся классе решений AI firewall.
ㅤ
На мой взгляд, лингвисты необходимы минимум для 5 задач защиты ИИ
ㅤ
① Искать «дефекты» в логике модели, которые ведут к jailbreak-атакам (например, через омонимы, синтаксические трюки и даже омоглифы).
ㅤ
Понимание структуры языка и грамматики позволяет лингвистам выявлять двусмысленности выражений в промпте — то, как одну и ту же фразу можно интерпретировать разными способами.
ㅤ
② Готовить списки «запрещенных» слов, чтобы научить модель распознавать вредоносные промпты, и ③систематически генерировать лингвистически разнообразные варианты атак для стресс-тестирования.
ㅤ
④ Описывать сложные языковые паттерны, характерные для промпт-инъекций (например, смешение контекстов, резкие смены регистра, использование мета-инструкций)
ㅤ
⑤ Предсказывать и проверять «слепые зоны» средств защиты языковых моделей за счет понимания того, как работают цепочки классификации текста (токсичность, конфиденциальность).
ㅤ
Резюмирую ⇩
ㅤ
Не для всех угроз, связанных с ИИ, необходимо глубокое понимание того, что под капотом у модели, и знание тензорной алгебры. Но в перспективе лингвист, который освоил технические основы машинного обучения и кибербезопасности, становится бесценным специалистом на стыке дисциплин.
1 минута
3 дня назад