304 подписчика

🔹🔹🔹🔹🔹мы создаем суверенный ИИ: а где взять данные для обучения моделей для кибербезопасности в масштабе всей страны

ВчераВчера

2 мин

? Много говорят на мероприятиях про Суверенный ИИ. Но почти никто не задаёт базовый вопрос: на чём он будет обучаться? > ИИ не программируется напрямую: он обучается на примерах. Чтобы система могла выявлять атаки, нужны реальные данные: сетевой трафик, телеметрия с устройств, образцы вредоносного кода, фишинг, сценарии атак. И главное — размеченные инциденты, где понятно, что именно произошло и почему это считается атакой. В России такие данные частично существуют. ✅ Работает ГосСОПКА — она даёт оперативную картину инцидентов. ✅ Вендоры собирают телеметрию. ✅ Есть киберполигоны и исследования угроз. ✅ Государство развивает платформу обезличенных данных. Это реальные шаги вперёд. Но при этом данные для обучения ИИ остаются разрозненными. Они находятся в разных системах, в разных форматах и с разной детализацией. Не потому что система не работает, а потому что задача их объединения и превращения в обучающий датасет для ИИ пока не выделена как отдельная функция на уровне государства.

🔹🔹🔹🔹🔹мы создаем суверенный ИИ: а где взять данные для обучения моделей для кибербезопасности в масштабе всей страны?

Много говорят на мероприятиях про Суверенный ИИ. Но почти никто не задаёт базовый вопрос: на чём он будет обучаться?

> ИИ не программируется напрямую: он обучается на примерах. Чтобы система могла выявлять атаки, нужны реальные данные: сетевой трафик, телеметрия с устройств, образцы вредоносного кода, фишинг, сценарии атак. И главное — размеченные инциденты, где понятно, что именно произошло и почему это считается атакой.

В России такие данные частично существуют.

✅ Работает ГосСОПКА — она даёт оперативную картину инцидентов.

✅ Вендоры собирают телеметрию.

✅ Есть киберполигоны и исследования угроз.

✅ Государство развивает платформу обезличенных данных.

Это реальные шаги вперёд.

Но при этом данные для обучения ИИ остаются разрозненными. Они находятся в разных системах, в разных форматах и с разной детализацией. Не потому что система не работает, а потому что задача их объединения и превращения в обучающий датасет для ИИ пока не выделена как отдельная функция на уровне государства.

В результате нет единой базы, пригодной для системного обучения моделей. Каждый участник отрасли работает со «своим фрагментом реальности». Редкие и сложные атаки НЕ накапливаются в «общей системе», а значит — НЕ усиливают её.

Это не только технический вопрос.

Есть барьеры: данные слишком чувствительны, и ими неохотно делятся из-за рисков и конкуренции, нет единого стандарта описания инцидентов и нет организационной структуры, которая отвечает именно за преобразование данных из инцидентов в обучающие датасеты.

В стране уже есть почти всё необходимое: сбор, анализ, экспертиза. Но отсутствует ключевое звено — контур, который объединяет, очищает, размечает и превращает данные в основу для обучения ИИ-систем в кибербезопасности.

Что с этим делать

🔹 Нужен единый контур работы с данными: сбор → очистка → разметка → обучение моделей, с закреплённым ответственным оператором на стыке ФСБ, ФСТЭК и Минцифры.

🔹 Нужен единый машиночитаемый стандарт описания инцидентов и атак.

🔹 Нужен юридически защищённый механизм обмена данными в рамках действующего законодательства, который снижает риски для добросовестных участников.

🔹 Нужна экономическая модель участия: мотивация за предоставление данных через доступ к моделям, аналитике и вычислительным ресурсам.

🔹🔹🔹🔹🔹нужен отдельный государственный контур разметки данных как постоянной функции кибербезопасности, без которой обучение качественных ИИ-моделей невозможно.

Начинать логично с 1–2 отраслей, где уже есть зрелые процессы и достаточный поток инцидентов.

Если это сделать, появится возможность использовать реальные российские данные об угрозах для обучения систем, которые понимают локальный ландшафт атак лучше любых внешних решений.

Я готов отдельно разработать полноценный документ-инициативу, который можно рассматривать как основу для межведомственного проекта: с архитектурой, ролями, экономикой и моделью реализации.

Сегодня много обсуждают ИИ. Важно понимать, что в кибербезопасности преимущество определяется не алгоритмами, а тем, какие данные доступны для обучения моделей.

Именно такая единая база данных определяет практическую возможность развития ИИ в кибербезопасности.

UPD: Подробнее читайте в статье

Топ Кибербезопасности в Telegram и MAX

#ИИ