Изображение: recraft В условиях роста числа фишинговых страниц специалисты по информационной безопасности ищут способы быстрой и точной фильтрации вредоносного веб-контента. Недавнее исследование рассматривает возможность применения малых языковых моделей (SLM) для анализа HTML-кода и обнаружения потенциальных угроз без предварительной очистки данных или ручной разметки. Авторы работы протестировали несколько моделей различных масштабов, проверяя их способность идентифицировать фишинговые сайты по ограниченному набору HTML-фрагментов. Для эксперимента был взят открытый датасет из 10 000 сайтов, классифицированных как безопасные и вредоносные. Из него сформировали сбалансированную выборку из 1000 страниц, которые использовались в основном тестировании. Каждая страница передавалась моделям в урезанном виде. Сохранялось от 5% до 50% исходного HTML-кода, преимущественно теги, связанные с навигацией, изображениями и метаданными. Это позволило сохранить характерные сигналы обманчивого дизайн