Найти в Дзене
Мир знаний

Притча о гуглском гриппе.

В феврале 2013 года газета Google Flu Trends попала в заголовки, но не по той причине, на которую надеялись руководители Google или создатели системы отслеживания гриппа.

GFT прогнозирует более чем в два раза большую долю посещений врачей по гриппоподобным заболеваниям, чем Комитеты, которые должны отслеживать заболевания, которые основывают свои оценки на отчетах лабораторий по всей территории США. Это произошло, несмотря на то, что GFT был создан для прогнозирования отчетов CDC. Учитывая, что GFT часто используется в качестве примера использования огромное количество данных.

Какие уроки можно извлечь из этой ошибки?

https://pixabay.com/ru/illustrations/%D1%81%D0%BE%D1%86%D0%B8%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D0%B5-%D0%BC%D0%B5%D0%B4%D0%B8%D0%B0-%D1%81%D0%BE%D1%86%D0%B8%D0%B0%D0%BB%D1%8C%D0%BD%D0%B0%D1%8F-%D1%81%D0%B5%D1%82%D1%8C-1768451/
https://pixabay.com/ru/illustrations/%D1%81%D0%BE%D1%86%D0%B8%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D0%B5-%D0%BC%D0%B5%D0%B4%D0%B8%D0%B0-%D1%81%D0%BE%D1%86%D0%B8%D0%B0%D0%BB%D1%8C%D0%BD%D0%B0%D1%8F-%D1%81%D0%B5%D1%82%D1%8C-1768451/
Выявленные нами проблемы не ограничиваются только GFT. Исследования о том, могут ли поисковые или социальные сети предсказать x, стали обычным делом и часто резко контрастируют с традиционными методами и гипотезами. Хотя проведенные исследования показали ценность таких данных, мы далеки от того места, где они могут заменить более традиционные методы или теории. Мы исследуем две проблемы, которые способствовали ошибкам GFT, высокомерие больших объемов данных и динамику алгоритмов, и предлагаем уроки для продвижения вперед в век больших данных.

Высокая степень удовлетворенности большими объемами данных.

Высокая гордость за большие объемы данных - это часто подразумеваемое предположение о том, что большие данные заменяют, а не дополняют, традиционный сбор и анализ данных. Мы утверждали, что в больших массивах данных есть огромные научные возможности. Однако количество данных не означает, что можно игнорировать основополагающие вопросы измерения, построения валидности и надежности, а также зависимости между данными. Основная проблема заключается в том, что большинство крупных данных, привлекших всеобщее внимание, не являются результатом использования приборов, предназначенных для получения достоверных и надежных данных, пригодных для научного анализа.

Первоначальная версия GFT представляла собой особенно проблемное сочетание больших и малых данных. По существу, методология должна была найти наилучшее соответствие среди 50 миллионов запросов по поисковику 1152 параметрам. Шансы найти поисковые запросы, которые соответствуют склонности к гриппу, но структурно не связаны друг с другом, и поэтому не предсказывают будущее, были достаточно высоки. Разработчики GFT, на самом деле, сообщают о прополке сезонных поисковых запросов, не связанных с гриппом, но тесно связанных с данными CDC, например, касающихся баскетбола в старших классах школы. Это должно было стать предупреждением о том, что большие данные подходят для небольшого числа случаев, что является стандартной проблемой при анализе данных.

https://pixabay.com/ru/photos/%D0%B1%D1%83%D0%BC%D0%B0%D0%B3%D0%B8-%D0%B1%D0%B8%D0%B7%D0%BD%D0%B5%D1%81-%D0%B4%D0%BE%D0%BA%D1%83%D0%BC%D0%B5%D0%BD%D1%82-%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%B7%D0%B8%D1%86%D0%B8%D1%8F-3224638/
https://pixabay.com/ru/photos/%D0%B1%D1%83%D0%BC%D0%B0%D0%B3%D0%B8-%D0%B1%D0%B8%D0%B7%D0%BD%D0%B5%D1%81-%D0%B4%D0%BE%D0%BA%D1%83%D0%BC%D0%B5%D0%BD%D1%82-%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%B7%D0%B8%D1%86%D0%B8%D1%8F-3224638/
  • Этот специальный метод исключения специфических поисковых терминов провалился, когда GFT полностью пропустила несезонную пандемию гриппа A-H1N1 2009 г. Короче говоря, первоначальная версия GFT была частью детектора гриппа, частью зимнего детектора. Инженеры GFT обновили алгоритм в 2009 году, и эта модель работает до сих пор, с некоторыми изменениями, объявленными в октябре 2013 года.

Несмотря на то, что до 2013 г. новые ГФП не были широко известны, они постоянно переоценивали распространенность гриппа в течение гораздо более длительного времени. GFT также пропустила очень большой перевес в сезоне гриппа 2011-2012 и не достигла максимума в течение 100 из 108 недель, начиная с августа 2011 года. Эти ошибки распределены не случайно. Например, ошибки прошлой недели предсказывают ошибки этой недели (временная автокорреляция), а направление и величина ошибки варьируется в зависимости от времени года (сезонность). Эти закономерности означают, что GFT упускает из виду значительную информацию, которая может быть извлечена традиционными статистическими методами.

Даже после обновления GFT в 2009 году, сравнительная ценность алгоритма в качестве отдельного монитора гриппа сомнительна. Исследование, проведенное в 2010 году, показало, что точность ГФТ не намного лучше, чем достаточно простой прогноз вперед с использованием уже имеющихся данных ЦКЗ (обычно с 2-недельным лагом). Сравнение стало еще хуже с тех пор, когда отстающие модели значительно превзошли GFT. Даже 3-недельные данные CDC позволяют лучше спрогнозировать текущую распространенность гриппа, чем данные GFT.

  • Учитывая большое количество подходов, которые позволяют сделать вывод о активности гриппа, означает ли это, что существующая версия GFT не является полезной? Нет, большее значение можно получить, объединив GFT с другими данными о состоянии здоровья в режиме, близком к реальному времени.
https://pixabay.com/ru/photos/%D0%B4%D0%BE%D1%81%D1%82%D0%B8%D0%B6%D0%B5%D0%BD%D0%B8%D0%B5-%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7-%D0%BC%D0%BE%D0%B7%D0%B3%D0%BE%D0%B2%D0%BE%D0%B9-%D1%88%D1%82%D1%83%D1%80%D0%BC-3658092/
https://pixabay.com/ru/photos/%D0%B4%D0%BE%D1%81%D1%82%D0%B8%D0%B6%D0%B5%D0%BD%D0%B8%D0%B5-%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7-%D0%BC%D0%BE%D0%B7%D0%B3%D0%BE%D0%B2%D0%BE%D0%B9-%D1%88%D1%82%D1%83%D1%80%D0%BC-3658092/

Например, объединив данные GFT и запаздывающие данные CDC, а также динамически перекалибровав GFT, мы можем существенно повысить эффективность работы только GFT или CDC. Это не заменит текущую оценку и усовершенствование, но, включив эту информацию, GFT могла бы в значительной степени исцелиться и остаться вне заголовков газет.

Прозрачность, детализация и полнота данных

  • Притча о БПФ важна в качестве притчи, где мы можем извлечь важные уроки по мере продвижения вперед в эпоху анализа больших данных.

Хотя похвально, что Google разработал Google Correlate якобы на основе концепции, используемой для GFT, общедоступная технология не может быть использована для копирования их результатов.