Что общего между Data Science и бомжом на свалке?

3 апреля 20213 апр 2021

4 мин

Общая парадигма отношения к данным в бизнесе – чем больше данных, тем лучше. Надо только измерять, контролировать и находить корреляции. А там уж и ответы на все вопросы. Основная проблема подхода в том, что различить корреляцию и причинно-следственную связь бывает очень сложно.

Данные играют все более фундаментальную роль в любом бизнесе. Data-science, Data-driven, Data-based – сложно поверить, что все эти слова прочно вошли в обиход только в последние 10 лет.

Скорость роста числа данных поражает. Причина безусловно в революции информационных технологий. Маленький iPad сейчас обладает большей мощностью, чем самый мощный компьютер мира за 15 млн долларов всего 25 лет назад. Число устройств подключенных к интернету в 2 раза больше населения Земли. При этом на каждого человека приходится больше 9 кв.м. экранов.

Например, с 1999 по 2010 г. объем расходов на научные исследования в США почти точно повторяли колебания числа самоубийств через повешение и удушение. Сложно поверить, что это связано, но цифры говорят, что это возможно.

Огромное количество выводов было сделано на основе корреляций, которые являлись лишь совпадениями. Особенно тяжелыми такие выводы могут быть в медицине. Даже сейчас, из-за отсутствия понимания первопричин болезнями принято называть то, что фактически является лишь симптомами.

В качестве примера можно привести историю, о том, как в диетах возник страх животных жиров.

Профессор физиологии Ангел Кис 1951 года отправился в Европу искать причину болезней сердца. По статистике, в Неаполе (Италия) в то время было меньше всего людей, страдающих от сердечно-сосудистых заболеваний. Он решил проанализировать их рацион.

В Неаполе Кис заметил, что местные жители едят на обед макароны, простую пиццу, овощи с оливковым маслом, на десерт фрукты, много вина и совсем мало мяса. Дополнительно был проанализирован рацион жителей других стран, в том числе США, где традиционно потребляют много животных жиров. Оказалось, что смертность мужчин в США выше, чем в Японии. Вывод был логичен и однозначен – отсутствие мяса в рационе помогает избежать сердечных приступов.

Благодаря талантам Киса эта теория прочно вошла в сознание людей. К советам Киса прислушивался даже личный врач президента Эйзенхаура. А уже в 1961 году его идеи вошли в доклад Американской ассоциации по изучению сердечно-сосудистых заболеваний. Журнал Times в этом же году поместил Киса на обложку назвав его “самым влиятельным экспертом по питанию в XXI веке”.

В настоящий момент более миллиона научных статей ссылаются на выводы Киса, а вред мяса достаточно прочно вошел в сознание людей. При этом макароны, растительное масло и маргарин стали вполне полезными продуктами.

В противовес этой теории существует как минимум 6 клинических испытаний, которые опровергают связь между заболеваниями сердца и потреблением животных жиров (1). При этом замещение животных жиров на растительные, подвергшиеся промышленной обработке, привело к росту риска смерти.

Существует и другая грань в работе с большими данными. Их количество и сложность. Существующая модель “Искусственного интеллекта” – это поиск корреляций и самообучение на их основе. Как правило модели не ищут причины таких связей и предполагают, что “корреляция важнее причинности”.

Замечательный пример того, как изначально понимание причин может привести к выдающимся результатом – это открытие озона Хиггса (2).

Ключевое действие эксперимента происходило в кольце коллайдера длиной 27 км. Разгоняя на встречу друг другу элементарные частицы до скорости света ученые получали более 600 миллионов столкновений в секунду (!). Более 150 миллионов датчиков давали 150 эксабайт информации в сутки.

Попробуем представить эти цифры. Один эксабайт – это миллиард гигабайт. Суммарный объем данных всеми устройствами мира вместе взятыми составляем 2.5 эксабайта в сутки. Представьте, андронный коллайдер выдавал в 75 раз больше данных, чем весь остальной мир. ОЧЕНЬ-ОЧЕНЬ-ОЧЕНЬ жестокая задача для команды Data-Science.

Как же они справились? Все дело в том, что перед начало экспериментов уже существовала внятная и понятная теоретическая модель, которая позволяла понимать где надо искать. Таким образом полезными данными являлись лишь 0,00001% от общего потока. Ученые знали где искать и что искать.

Вывод ясен – разные данные не равны друг другу по значимости. Чтобы вы не искали или не изучали, важно руководствоваться теорией или как минимум пониманием процессов, которая спасет от трагических случайных выводов и убережёт от поиска бриллиантов на свалке данных.

По мотивам идей из книг:

(1) Клетка на диете, Джозеф Меркола. Научное открытие о влиянии жиров на мышление, физическую активность и обмен веществ

(2) Масштаб, Джеффри Уэст. Универсальные законы роста, инноваций, устойчивости и темпов жизни организмов, городов, экономических систем и компаний.