Добавить в корзинуПозвонить
Найти в Дзене
Игорь Бедеров

Если вы работали с OSINT, вы знаете эту боль: тысячи строк логов, сырые экспорты данных с форумов, списки упоминаний в соцсетях, где нужная

Если вы работали с OSINT, вы знаете эту боль: тысячи строк логов, сырые экспорты данных с форумов, списки упоминаний в соцсетях, где нужная информация — номер телефона, почтовый ящик, уникальный идентификатор пользователя — тонет в море текста. Традиционные инструменты Excel вроде ЛЕВСИМВ, ПСТР и НАЙТИ часто бессильны перед изменчивыми форматами данных. Эти рутинные задачи могут отнять часы и полны ошибок. Именно здесь на сцену выходят Регулярные выражения (RegEx) — мощный инструмент для описания шаблонов в тексте. А с недавним появлением в Excel нативных функций для работы с ними, мы можем встроить этот инструмент прямо в нашу аналитическую воронку. RegEx — это, по сути, практическая реализация регулярных грамматик, простейшего типа формальных грамматик в иерархии Хомского. Ключевое ограничение такого автомата — отсутствие памяти. Он не может проверять сложные вложенные структуры, например, парность скобок ((())). Но для подавляющего большинства задач OSINT по извлечению структуриро

Если вы работали с OSINT, вы знаете эту боль: тысячи строк логов, сырые экспорты данных с форумов, списки упоминаний в соцсетях, где нужная информация — номер телефона, почтовый ящик, уникальный идентификатор пользователя — тонет в море текста. Традиционные инструменты Excel вроде ЛЕВСИМВ, ПСТР и НАЙТИ часто бессильны перед изменчивыми форматами данных. Эти рутинные задачи могут отнять часы и полны ошибок.

Именно здесь на сцену выходят Регулярные выражения (RegEx) — мощный инструмент для описания шаблонов в тексте. А с недавним появлением в Excel нативных функций для работы с ними, мы можем встроить этот инструмент прямо в нашу аналитическую воронку.

RegEx — это, по сути, практическая реализация регулярных грамматик, простейшего типа формальных грамматик в иерархии Хомского. Ключевое ограничение такого автомата — отсутствие памяти. Он не может проверять сложные вложенные структуры, например, парность скобок ((())). Но для подавляющего большинства задач OSINT по извлечению структурированных данных из неструктурированного текста его возможностей более чем достаточно.

Excel предоставляет три ключевые функции для работы с RegEx:

REGEXTEST(текст; шаблон) — проверяет, соответствует ли текст шаблону. Возвращает ИСТИНА/ЛОЖЬ.

REGEXEXTRACT(текст; шаблон) — извлекает подстроку, совпадающую с шаблоном.

REGEXREPLACE(текст; шаблон; замена) — заменяет найденные совпадения на указанный текст.

Давайте посмотрим, как это применяется в реальных OSINT-сценариях.

Проверка корректности email в списке:

=ЕСЛИ(REGEXTEST(A1;"[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,}");"Валиден";"Невалиден")

Приведение телефонов к единому формату:

=REGEXREPLACE(A1;"(\d{3})(\d{3})(\d{2})(\d{2})";"+7 ($1) $2-$3-$4")

Извлечение всех доменов из списка URL:

=REGEXEXTRACT(A1;"https?://(?:www\.)?([^/]+)")

Используя RegEx, вы не просто "фильтруете" данные. Вы описываете их структуру на специальном языке, превращая Excel в мощный парсер, способный справиться практически с любым текстовым хаосом, который вы найдете в открытых источниках. Освойте этот инструмент — и ваша аналитическая эффективность взлетит до небес.