Google Research опубликовала открытый датасет Groundsource — крупнейшую на сегодняшний день автоматизированную выборку событий наводнений, извлечённых из новостных источников. С помощью инструментов обработки текста и модели Gemini исследователи проанализировали свыше 5 млн новостных материалов из более чем 150 стран и выделили более 2.64 млн уникальных записей о зафиксированных в СМИ случаях затоплений.
Датасет уже размещён на платформе HyperAI и доступен для онлайн‑использования: Groundsource на HyperAI. Описание проекта — в репозитории EarthArXiv: paper.
Что такое Groundsource и зачем он нужен
Наводнения входят в число наиболее частых и разрушительных природных катастроф. При этом официальные гидрологические сети и станции покрывают территорию мира фрагментарно: многие локальные и мелкомасштабные события остаются незаписанными в централизованных реестрах.
Groundsource пытается заполнить этот пробел, автоматически извлекая и верифицируя сведения о наводнениях из неструктурированных источников — газет, местных сайтов и публикаций власти — и сводя их в стандартизированную, геопривязанную базу.
Как строили датасет — ключевые этапы
- Сбор текстов: веб‑скрейпинг новостей с 2000 года; первичная фильтрация по релевантности тематики с использованием WebRef. Было отобрано около 9,5 млн страниц, из которых ~7,5 млн прошли дальнейшую очистку и нормализацию.
- Перевод и предобработка: тексты на языках, отличных от английского, переводились в англоязычную канву через Cloud Translation; удалялись служебные элементы страниц, оставалась только основная статья и метаданные.
- NER и привязка гео: извлечение географических сущностей и нормализация названий (геокодирование до координат или пространственных границ).
- Инструментальная валидация через LLM: для структуризации событий использовали Gemini с специально разработанными подсказками. Модель выполняла четыре последовательных шага — определить, описывает ли статья реальное событие наводнения; извлечь и нормализовать дату; выделить пострадавшие места; сопоставить топонимы с географическими идентификаторами.
- Кластеризация и агрегирование: множественные упоминания одного инцидента в нескольких источниках время‑пространственно агрегировали в единичное событие; применялась фильтрация и контроль качества.
Масштаб и качество
- Объём: >5 млн проанализированных статей → ~500 млн кандидатных упоминаний → итоговый набор — 2 640 000+ уникальных записей о наводнениях.
- Оценка точности: автоматическая детекция событий — приблизительно 75% точности и ~90% полноты (recall) по валидационной выборке; при ручной проверке 60% записей признаны «строго точными» (95% CI ±5%), если учитывать записи с незначительными погрешностями, то около 82% являются годными для аналитики.
- Пространственное разрешение: средняя площадь покрытия события ≈142 км²; 82% записей имеют радиус <50 км², что позволяет фиксировать локальные и квартальные наводнения — ниши, часто пропускаемые глобальными реестрами.
- Временная и пространственная смещённость: ~64% записей относятся к периоду 2020–2025 гг., 2025 год — ≈15% выборки (эффект роста цифровых новостей, а не однозначный рост числа происшествий). Более плотные записи отмечены в регионах с развитой медиа‑инфраструктурой (Европа, Южная и Юго‑Восточная Азия).
Сравнение Groundsource с GDACS и Dartmouth Flood Observatory показало хорошие показатели: с 2020 года recall относительно GDACS достигает 85–100%; в США совпадение с GDACS/DFO в тестах — 96%/91% соответственно для значимых событий. И всё же полное покрытие по миру остается недостижимым из‑за неравномерности медиа‑покрытия и языковой поддержки.
Возможные применения
- Дополнение традиционных гидрологических наборов для калибровки и тестирования моделей предсказания паводков.
- Построение историй воздействия на локальном уровне — для оценки уязвимости отдельных районов и планирования инфраструктуры.
- Поддержка городского планирования: интеграция с картами дренажа и цифровой топографией помогает моделировать уязвимость на уровне кварталов.
- Актуализация экстренных систем: оперативная аналитика по СМИ может служить дополнением к датчикам в регионах с ограниченной инфраструктурой.
Ограничения и предостережения
- Медийный уклон: датасет коррелирует с интенсивностью локальных новостных потоков — регионы с бедной цифровой медиасредой будут недопредставлены.
- Ошибки геолокации и времени: нерешённые двусмысленности топонимов и относительные временные выражения («вчера», «на прошлой неделе») приводят к части пространственно‑временных ошибок (~18% в проверочной выборке).
- Не заменяет, но дополняет: Groundsource не снимает потребности в наземных измерениях и дистанционном зондировании — он даёт дополнительный «журнал наблюдений» с высокой плотностью локализаций там, где СМИ пишут о наводнениях.
Методика показала, что LLM‑опорная автоматизация извлечения событий из неструктурированного текста жизнеспособна и масштабируема. Исследовательские команды уже используют такие данные совместно со спутниковыми наблюдениями и данными городских систем: пример — интеграция новостной выборки в платформы прогнозирования риска (вектор прикладных разработок — Hydrology Copilot и прочие пилоты).
Работы MIT и NUS демонстрируют, что дальнейшая локальная калибровка и включение гидрологических дат повышают точность датировки и локализации событий.
Groundsource — важный шаг к созданию глобальной, высокодетализированной истории наводнений на основе медиаповодной информации. Он не лишён систематических ограничений, но в сочетании с дистанционными и наземными измерениями способен значительно расширить возможности анализа локальных и младших по масштабу событий, улучшая прогнозы, оценку уязвимости и принятие решений в области адаптации к климату.
Хотите создать уникальный продукт? СМС – ваш надежный партнер в мире инноваций! Закажи разработки ИИ-решений, LLM-чат-ботов, моделей генерации изображений и автоматизации бизнес-процессов у профессионалов.
ИИ сегодня — ваше конкурентное преимущество завтра!
Тел. +7 (985) 982-70-55
E-mail sms_systems@inbox.ru
Сайт https://www.smssystems.ru/razrabotka-ai/