За последние три года генеративный искусственный интеллект прошел путь от лабораторного эксперимента до одного из ключевых элементов корпоративной автоматизации. Для многих отраслей оказалось достаточным, чтобы результат был “достаточно хорошим". Если при повторном запуске модели, к примеру, маркетинговый текст получится немного иным, это не создаст серьезных проблем. Однако в ИБ такой подход уже не работает.
Современные LLM представляют собой вероятностные машины. Они не вычисляют ответ в классическом смысле слова, а выбирают наиболее вероятное продолжение последовательности токенов. Степенью случайности управляет параметр "температура": низкое значение делает модель более консервативной и предсказуемой, высокое – увеличивает разнообразие выхода. Впрочем, даже когда используется режим с нулевой температурой, итоговое поведение остается не полностью детерминированным из-за особенностей вычислений на GPU, параллельных операций и различий в реализации программных стеков. Для большинства прикладных задач это допустимо, а вот для задач ИБ – нет.
Представим, что генеративная модель формирует правила межсетевого экрана, строит политику доступа для критической информационной системы или автоматически генерирует сигнатуру для обнаружения вредоносного ПО. Можно ли доказать корректность получаемого результата? Для классических генеративных моделей ответ чаще всего отрицательный. Мы можем оценить качество ответа статистически, можем проверить его экспертно, можем протестировать на отдельных сценариях. Но у нас нет возможности формально доказать, что результат не содержит скрытой ошибки, которая проявится при определенном сочетании условий.
Поэтому развитие ИИ для информационной безопасности должно двигаться в сторону, противоположную массовому тренду. Вместо увеличения размера моделей и объема обучающих данных исследователи должны искать способы сделать вывод ИИ детерминированным, объяснимым и верифицируемым. Фактически речь идет о переходе от генерации как семплирования вероятностей к генерации как решению формальной задачи.
Особые требования к ИИ в ИБ
Минимальный набор свойств, которыми должна обладать интеллектуальная система для применения в критически важных сценариях ИБ, довольно небольшой.
Во-первых, необходим детерминизм. При одинаковом наборе входных данных система должна всегда выдавать одинаковый результат. Не примерно такой же, не достаточно близкий, а именно идентичный. Это требование выглядит очевидным для инженеров, привыкших к традиционному программному обеспечению, однако оказывается крайне нетривиальным для современных нейросетей.
Во-вторых, требуется объяснимость. Недостаточно знать, какое решение приняла система, – нужно понимать, почему она приняла именно его. В случае расследования инцидента аналитик обязан иметь возможность восстановить всю цепочку рассуждений. При возникновении ошибки должна существовать возможность провести полноценный анализ действий модели.
В-третьих, необходима объясненность. Это понятие часто смешивают с объяснимым ИИ, хотя между ними существует принципиальная разница. Объяснимость отвечает на вопрос "почему модель так решила?". Объясненность отвечает на вопрос "может ли человек или автоматизированная система проверить каждый шаг этого решения?". Для ИБ именно второй аспект становится критически важным.
Наконец, необходима устойчивость к состязательным воздействиям.
Чем более формализованы правила принятия решений и чем лучше определены границы допустимого поведения системы, тем сложнее злоумышленнику заставить ее действовать неожиданным образом.
Проблема черного ящика
Популярность LLM породила иллюзию, что вопрос объяснимости уже решен. Действительно, современные модели способны генерировать цепочки рассуждений, объяснять свои ответы и даже описывать собственную логику. Но действительно ли это объяснение отражает внутренний процесс принятия решения? Далеко не всегда.
Текстовое объяснение, сгенерированное моделью, может выглядеть логичным и последовательным, но фактически являться отдельным актом генерации, а не реконструкцией реального механизма вывода.
Еще более показательна ситуация с картами внимания – визуализацией того, на какие фрагменты входных данных модель опирается при формировании ответа. На протяжении нескольких лет карты внимания рассматривались как потенциальный инструмент интерпретации поведения трансформеров. Проблема в том, что внимание демонстрирует корреляции между элементами входных данных, но не раскрывает причинно-следственные связи. Фраза "модель обратила внимание на этот токен" не отвечает на вопрос, почему она приняла то или иное конкретное решение. А для ИБ это существенная проблема.
Если система предлагает изменить правило доступа в Active Directory, аналитик должен понимать не только набор факторов, повлиявших на решение, но и логическую цепочку, которая привела к этому выводу. Сегодняшние LLM такой возможности не предоставляют.
Еще более серьезной проблемой становится невозможность формальной верификации.
Рассмотрим простую задачу. Модель должна сгенерировать набор правил доступа для сегмента сети. После получения результата возникает вопрос: можно ли математически доказать отсутствие скрытых путей обхода политики? Для обычной программы такой анализ возможен. Для набора правил, полученных от LLM, такой гарантии чаще всего не существует. Приходится доверять модели на основании статистической вероятности ее корректности.
Одной из самых известных угроз последних лет являются промпт-инъекции. Интересно, что многие воспринимают их как отдельную категорию атак, хотя в действительности они являются симптомом более глубокой проблемы. Дело в том, что классическая LLM не обладает жестко заданной моделью мира. Ее поведение определяется вероятностным распределением, которое динамически изменяется под влиянием контекста. Поэтому злоумышленник способен модифицировать поведение модели, изменяя входные данные.
Представим себе межсетевой экран, который меняет правила фильтрации в зависимости от текста последнего сетевого пакета. Очевидно, что такую систему никто не признал бы безопасной. Тем не менее именно подобным образом работают многие современные ИИ-агенты.
Что же подходит для ИБ?
Давайте посмотрим, какие подходы действительно подходят для задач ИИ в информационной безопасности с учетом выявленных ограничений обычных LLM.
Задача удовлетворения ограничений
Одним из наиболее перспективных направлений является использование SAT- и SMT-решателей. Этот подход уже давно исследуется в задачах анализа политик доступа и формальной проверки конфигураций безопасности. Один из наиболее известных примеров – система Zelkova, используемая в AWS для анализа IAM-политик. Она переводит политики доступа в SMT-формулы и проверяет свойства вида: "может ли произвольный пользователь получить доступ к ресурсу?" или "существует ли путь записи в объект при заданных ограничениях".
Вместо того чтобы просить такие модели сгенерировать хороший набор правил, системы получают формальное описание требований. Например:
- разрешить доступ бухгалтерии к ERP;
- запретить доступ подрядчиков к финансовым данным;
- обеспечить сегментацию производственной сети;
- сохранить доступность сервисов резервного копирования.
После этого генерация превращается в поиск решения системы ограничений.
Если решение найдено, можно доказать его непротиворечивость. Если решение отсутствует, система сообщает об этом явно. При таком подходе невозможно получить красивый, но некорректный ответ. Либо ограничения удовлетворяются, либо нет. Кроме того, появляется возможность формальной проверки результатов и автоматического аудита.
Нейро-символьный анализ вредоносного кода
Еще одним направлением становятся нейро-символьные архитектуры. Идея заключается в объединении сильных сторон нейронных сетей и формальной логики. Нейросеть отвечает за извлечение сложных структурных признаков, символьный уровень обеспечивает интерпретацию и проверяемость вывода.
Представим процесс анализа вредоносного объекта. На первом этапе формируется граф потока управления, далее выделяются вызовы функций, системные обращения и зависимости между компонентами. После этого граф анализируется нейросетевой моделью, например GNN. Затем результат переводится в набор логических фактов. На последнем этапе система генерирует сигнатуру обнаружения.
Вся цепочка прозрачна: байт-код – граф управления – поведенческий шаблон – правило обнаружения. Каждый этап можно проверить независимо.
Нейро-символьные архитектуры пока находятся на стадии активных исследований, однако именно они рассматриваются как один из наиболее перспективных путей создания объяснимых систем анализа вредоносного кода. Объединение графовых нейросетей, онтологий киберугроз и логических механизмов вывода позволяет перейти от обнаружения корреляций к формированию проверяемых гипотез о поведении программы.
Детерминированное моделирование цепочек атак
Еще один важный сценарий связан с построением Kill Chain. Сегодня многие инструменты используют вероятностные модели для оценки наиболее вероятного пути атаки. Проблема заключается в том, что злоумышленники не обязаны двигаться по наиболее вероятному пути, и безопасность требует учитывать все допустимые варианты. Поэтому привлекают внимание подходы на основе графовых моделей с декларативными ограничениями. На самом деле, они развиваются с начала 2000-х гг. в рамках исследований графов атак (Attack Graphs).
Вместо генерации одного наиболее правдоподобного сценария система строит пространство достижимых состояний. Далее выполняется полный перебор вариантов, удовлетворяющих заданным условиям. В результате аналитик получает не предположение о наиболее вероятной атаке, а полный набор потенциальных цепочек компрометации.
Автономные ИБ-агенты
Очень интересным направлением могут стать автономные агенты безопасности. Сегодня большинство агентных архитектур строятся вокруг LLM. Модель получает задачу, самостоятельно планирует действия и выполняет их через подключенные инструменты. Однако для критических операций такой подход вызывает множество вопросов вроде тех, что мы рассмотрели ранее.
Альтернативой может быть гибридная архитектура. LLM используется только для понимания естественного языка, а само принятие решений осуществляется детерминированным планировщиком. Например, на базе PDDL (языка описания задач автоматического планирования) или других средств формального планирования. В этом случае система способна предоставить объяснение вида: "Выбрано действие изоляции узла, поскольку обнаружен индикатор компрометации класса A. Условие B не выполнено. Согласно политике реагирования P требуется выполнение действия X." Такой вывод может быть проверен и человеком, и автоматическим верификатором.
Новые метрики качества
Меняется логика оценки моделей. Генеративный ИИ в основном оценивается через метрики правдоподобия. Используются BLEU (Bilingual Evaluation Understudy) и ROUGE (Recall-Oriented Understudy for Gisting Evaluation) для сравнения с эталонными текстами, а также FID (Frеchet Inception Distance) для оценки качества сгенерированных изображений и других объектов. Существует множество производных от этих метрик, однако все они измеряют степень сходства с эталонным результатом, а не его корректность с точки зрения безопасности.
Поэтому на первый план начинают выходить новые критерии: дисперсия результата при многократных запусках, полнота покрытия спецификации, количество нарушенных ограничений, сложность формальной проверки, время верификации решения.
В заключение
Основной вывод состоит в том, что информационная безопасность – одна из первых отраслей, где возможностей современных LLM уже недостаточно. Поэтому наиболее перспективным направлением выглядят не сверхкрупные генеративные модели, а нейро-символьные архитектуры, системы ограничений, формальное планирование и методы верифицируемого вывода. Именно здесь может сформироваться следующий этап развития искусственного интеллекта для ИБ.
Впрочем, несмотря на очевидные преимущества, детерминированный ИИ пока далек от зрелости. Главным ограничением остается масштабируемость: по мере роста числа ограничений пространство решений начинает экспоненциально расти. То, что хорошо работает для десятков политик доступа, может оказаться вычислительно непрактичным для инфраструктуры с миллионами объектов.
Второй вопрос связан с ролью LLM. Полный отказ от языковых моделей маловероятен. Скорее всего сформируется архитектура, где LLM выступает в роли советчика, переводчика или интерфейса взаимодействия, а окончательное решение принимается формально верифицируемым модулем.
Наконец, остается открытым вопрос о том, насколько прозрачной должна быть такая система. Полная объяснимость помогает защитнику, но она же может помочь атакующему понять внутреннюю логику принятия решений.
История информационной безопасности свидетельствует, что рано или поздно все критически важные ИБ-технологии проходят путь от эвристик к формальным гарантиям. Когда-то таким образом развивались криптография, контроль доступа и безопасная разработка. Возможно, аналогичная трансформация ждет и искусственный интеллект. Если это произойдет, именно информационная безопасность станет одной из отраслей, которая сформирует требования к следующему поколению ИИ-систем.