31 подписчик

Google открывает Groundsource — глобальная база историй о наводнениях из 150 стран

3 дня назад3 дня назад

5 мин

Google Research опубликовала открытый датасет Groundsource — крупнейшую на сегодняшний день автоматизированную выборку событий наводнений, извлечённых из новостных источников. С помощью инструментов обработки текста и модели Gemini исследователи проанализировали свыше 5 млн новостных материалов из более чем 150 стран и выделили более 2.64 млн уникальных записей о зафиксированных в СМИ случаях затоплений. Датасет уже размещён на платформе HyperAI и доступен для онлайн‑использования: Groundsource на HyperAI. Описание проекта — в репозитории EarthArXiv: paper. Что такое Groundsource и зачем он нужен Наводнения входят в число наиболее частых и разрушительных природных катастроф. При этом официальные гидрологические сети и станции покрывают территорию мира фрагментарно: многие локальные и мелкомасштабные события остаются незаписанными в централизованных реестрах. Groundsource пытается заполнить этот пробел, автоматически извлекая и верифицируя сведения о наводнениях из неструктурированных и

Датасет уже размещён на платформе HyperAI и доступен для онлайн‑использования: Groundsource на HyperAI. Описание проекта — в репозитории EarthArXiv: paper.

Что такое Groundsource и зачем он нужен

Наводнения входят в число наиболее частых и разрушительных природных катастроф. При этом официальные гидрологические сети и станции покрывают территорию мира фрагментарно: многие локальные и мелкомасштабные события остаются незаписанными в централизованных реестрах.

Groundsource пытается заполнить этот пробел, автоматически извлекая и верифицируя сведения о наводнениях из неструктурированных источников — газет, местных сайтов и публикаций власти — и сводя их в стандартизированную, геопривязанную базу.

Как строили датасет — ключевые этапы

Сбор текстов: веб‑скрейпинг новостей с 2000 года; первичная фильтрация по релевантности тематики с использованием WebRef. Было отобрано около 9,5 млн страниц, из которых ~7,5 млн прошли дальнейшую очистку и нормализацию.
Перевод и предобработка: тексты на языках, отличных от английского, переводились в англоязычную канву через Cloud Translation; удалялись служебные элементы страниц, оставалась только основная статья и метаданные.
NER и привязка гео: извлечение географических сущностей и нормализация названий (геокодирование до координат или пространственных границ).
Инструментальная валидация через LLM: для структуризации событий использовали Gemini с специально разработанными подсказками. Модель выполняла четыре последовательных шага — определить, описывает ли статья реальное событие наводнения; извлечь и нормализовать дату; выделить пострадавшие места; сопоставить топонимы с географическими идентификаторами.
Кластеризация и агрегирование: множественные упоминания одного инцидента в нескольких источниках время‑пространственно агрегировали в единичное событие; применялась фильтрация и контроль качества.

Масштаб и качество

Объём: >5 млн проанализированных статей → ~500 млн кандидатных упоминаний → итоговый набор — 2 640 000+ уникальных записей о наводнениях.
Оценка точности: автоматическая детекция событий — приблизительно 75% точности и ~90% полноты (recall) по валидационной выборке; при ручной проверке 60% записей признаны «строго точными» (95% CI ±5%), если учитывать записи с незначительными погрешностями, то около 82% являются годными для аналитики.
Пространственное разрешение: средняя площадь покрытия события ≈142 км²; 82% записей имеют радиус <50 км², что позволяет фиксировать локальные и квартальные наводнения — ниши, часто пропускаемые глобальными реестрами.
Временная и пространственная смещённость: ~64% записей относятся к периоду 2020–2025 гг., 2025 год — ≈15% выборки (эффект роста цифровых новостей, а не однозначный рост числа происшествий). Более плотные записи отмечены в регионах с развитой медиа‑инфраструктурой (Европа, Южная и Юго‑Восточная Азия).

Сравнение Groundsource с GDACS и Dartmouth Flood Observatory показало хорошие показатели: с 2020 года recall относительно GDACS достигает 85–100%; в США совпадение с GDACS/DFO в тестах — 96%/91% соответственно для значимых событий. И всё же полное покрытие по миру остается недостижимым из‑за неравномерности медиа‑покрытия и языковой поддержки.

Возможные применения

Дополнение традиционных гидрологических наборов для калибровки и тестирования моделей предсказания паводков.
Построение историй воздействия на локальном уровне — для оценки уязвимости отдельных районов и планирования инфраструктуры.
Поддержка городского планирования: интеграция с картами дренажа и цифровой топографией помогает моделировать уязвимость на уровне кварталов.
Актуализация экстренных систем: оперативная аналитика по СМИ может служить дополнением к датчикам в регионах с ограниченной инфраструктурой.

Ограничения и предостережения

Медийный уклон: датасет коррелирует с интенсивностью локальных новостных потоков — регионы с бедной цифровой медиасредой будут недопредставлены.
Ошибки геолокации и времени: нерешённые двусмысленности топонимов и относительные временные выражения («вчера», «на прошлой неделе») приводят к части пространственно‑временных ошибок (~18% в проверочной выборке).
Не заменяет, но дополняет: Groundsource не снимает потребности в наземных измерениях и дистанционном зондировании — он даёт дополнительный «журнал наблюдений» с высокой плотностью локализаций там, где СМИ пишут о наводнениях.

Методика показала, что LLM‑опорная автоматизация извлечения событий из неструктурированного текста жизнеспособна и масштабируема. Исследовательские команды уже используют такие данные совместно со спутниковыми наблюдениями и данными городских систем: пример — интеграция новостной выборки в платформы прогнозирования риска (вектор прикладных разработок — Hydrology Copilot и прочие пилоты).

Работы MIT и NUS демонстрируют, что дальнейшая локальная калибровка и включение гидрологических дат повышают точность датировки и локализации событий.

Groundsource — важный шаг к созданию глобальной, высокодетализированной истории наводнений на основе медиаповодной информации. Он не лишён систематических ограничений, но в сочетании с дистанционными и наземными измерениями способен значительно расширить возможности анализа локальных и младших по масштабу событий, улучшая прогнозы, оценку уязвимости и принятие решений в области адаптации к климату.

Хотите создать уникальный продукт? СМС – ваш надежный партнер в мире инноваций! Закажи разработки ИИ-решений, LLM-чат-ботов, моделей генерации изображений и автоматизации бизнес-процессов у профессионалов.

ИИ сегодня — ваше конкурентное преимущество завтра!

Тел. +7 (985) 982-70-55

E-mail sms_systems@inbox.ru

Сайт https://www.smssystems.ru/razrabotka-ai/