Вернее, не о самих больших данных, а о том, как люди говорят (пишут) их можно использовать для… Для того, чтобы всё было хорошо.
Люди всегда хотят что-то большое и чистое. Любви ли, яблони ли на Марсе... Людям всегда хочется каких-нибудь громких и красивых слов. Философский камень, Святой Грааль... Масштабных проектов. Переброска сибирских рек…
Кстати, переброска сибирских рек - это единственный проект глобального масштаба, в котором общественность смогла одержать победу над бюрократией. Ну, по крайней мере то, что я могу навскидку вспомнить. Обычно получается наоборот.
Вот, например, автор знает, что в штате Калифорния долго обсуждался проект скоростной железной дороги вдоль побережья. Он обсуждался и обсуждался и обсуждался… Губернаторы, выбиравшиеся с обещаниями построить эту дорогу, приходили и уходили, комиссии по изучению вопроса создавались и работали… А люди стоят в пробках.
И как-то раз, уже достаточно давно, автор увидел новость, что в Китае построили очередную скоростную железную дорогу, связавшую два населённых пункта. И указывалось расстояние. Получалось, что без лишнего шума, выборов, обсуждений и комиссий они построили дорогу как раз такой длины, как хотели у себя в Калифорнии и где на обсуждение которой потратили кучу времени и немало средств.
Нет, я конечно понимаю, что этодругое.
Кстати, раз уж зашёл разговор… Я думаю, интересно будет узнать, что один из городов, к которому была проведена эта скоростная железная дорога, назывался Ухань. Это было в 2009 г. Вот вам масштаб и горизонты планирования.
Чем ещё хороши большие проекты, кроме того, что они выглядят привлекательно для большого количества людей?
Они - долгие. Это означает, что по ходу дела о них можно забыть, или изменить; там можно что-то убрать или добавить; либо, когда они, наконец, реализуются и если что-то окажется не так, как хотели, то, скорее всего тот человек, который его предложил, уже давно будет на заслуженном отдыхе. Или… далеко.
Ещё большие проекты хороши для… Нет, не подумайте, я не имел в виду истории, связанные со строительством космодрома.
Большие и громкие проекты вообще хорошо предлагать.
Нынешнее поколение будет жить при коммунизме… Каждой семье - отдельную квартиру… Европейские зарплаты… Достойные пенсии… Масштабная реформа здравоохранения...
Обычно, люди, которые их предлагают, широко очерчивают горизонты. И скупы в деталях. Это понятно, они же предлагают стратегическое видение. А такие мелочи, как это сделать или, например, цена вопроса… Нет, иногда они вспоминают про это, и даже предлагают расчёты. С этими расчётами есть только одна проблема. Если они есть, то они всегда сильно занижены. Сильно. Очень сильно. Это понятно, ведь тем, кто предлагает такие проекты не очень хочется назвать реальную его стоимость. Да и вряд ли они её знают или могут определить.
Итак, про большие данные.
Исходя из вступления, вы можете подумать, что я против больших данных и их применения для того, чтобы сделать так, чтобы всем было хорошо.
Нет, я не против того, чтобы всем было хорошо. Я просто сталкивался с большими данными.
И даже с ними работал.
И даже делал некоторые анализы, основываясь на них.
Вообще, делать компьютерные анализы и строить компьютерные модели тоже очень хорошо.
Люди охотно принимают и верят тому, что показывает компьютерная модель.
Ну верят же люди астрологам и предсказателям, гороскопам, приметам всяким… А чем компьютерная модель хуже?
Она ведь так же строится и создаётся людьми, как и предсказания и гороскопы.
Единственно, эти люди называются по другому. Они называются аналитики и программисты.
Но… ведь никто не проверяет, как и на основании каких гипотез создаются эти модели? Так же, впрочем, как никто не проверяет, на основании чего создаются предсказания, прогнозы и гороскопы.
Вот, например, одно время было модно писать про компьютерные модели, предсказывающие изменения климата…
Но кто-нибудь разбирался - как они составлены, на основании каких алгоритмов, допущений, и какими данными они оперируют? А ведь данные также важны, как и алгоритмы и допущения. И если данные неправильные или некорректные, или с ошибками… или с большим количеством ошибок или неточностей или пропусками в них… Или они вообще… необрабатываемые (не будем углубляться).
Есть такая максима, широко известная в мире компьютерного программирования и не очень - в остальной обитаемой вселенной:
“Мусор внутрь - мусор наружу” (“Garbage in, garbage out”).
Здесь имеется в виду, что если ты загрузил в модель и используешь в своих расчётах “мусорные” данные, то и получаешь на выходе “мусор”, которому нельзя верить.
Но никто не проверяет.
И люди принимают. И не задают вопросы.
И не только про модели.
Если я сделал некоторый анализ с использованием больших данных, часть которых была мусором, и мой анализ выдал какие-то рекомендации, основанные на этих данных, то кто и как будет проверять правильность этого анализа и рекомендаций или решений, основанных на нём? Ведь система поставлена? Поставлена. Налажена? Налажена. Работает? Работает.
Так что, вы хотите, чтобы мы её ещё вам и тестировали?
Мы ведь не на таком уровне, где проводят многократные дублирования и проверки.
И люди не задают вопросы про правильность работы алгоритмов, и не хотят знать - сэкономили ли эффективные менеджеры на тестировании и проверке качества, и грамотно ли отработали тестировщики, и не забыли ли они граничные значения и редкие и исключительные сценарии… И что вообще будет, если “garbage in”.
Ведь чем хороши компьютеры?
Они хорошо работают на известных сценариях.
А чем плохи компьютеры?
Они не знают что делать, когда разработчики софта не знают что делать.
Помните потерянные спутники, машины одного известного производителя, которые теряли контроль на скоростных дорогах и много всего другого?..
Слова “сопутствующие потери” (“collateral damage”)... Их, правда, сейчас не часто услышишь. Действительно, зачем народ огорчать?
Но люди принимают и не задают вопросы. И читают про нейронные сети и самообучаемость. И опять не задают вопросы.
Тут главное верить.
Поэтому, когда вы видите две компьютерные модели, предсказывающие совершенно противоположный исход одного и того же события, не удивляйтесь. Они обе правильные.
Главное, их нельзя проверить.
Помните, как у Дугласа Адамса? Когда наконец компьютер закончил свои расчёты и выдал ответ, оказалось, что к тому времени все уже забыли вопрос.
Так что я не против больших данных и их применения в управлении государством или промышленностью.
Я, например, знаю, что они уже используются в некоторых областях.
Я не хочу углубляться. Тем более, что в последнее время я читал всякое на тему новых компьютерных разработок. И мне не нравилось.
Но это, наверное, потому, что я старею.
Несколько лет назад я оставил дела и удалился в отдалённое и уединённое место.
Я и новости-то смотрю только для того, чтобы узнать: уже “да” или ещё “нет”. Хотя, если уже “да”, то скорее всего, я узнаю это и без новостей.
Даже в моём удалении.
Потому что такое ощущение, что человечество само и с энтузиазмом готовит свою погибель.
А уж как именно она произойдёт… Да имеет ли это значение?
Но вернёмся всё-таки к большим данным.
Я хочу сейчас коснуться незыблемой веры в то, что компьютер в состоянии всё рассчитать и всё предсказать и всё охватить и объять и спланировать. Правильно спланировать, конечно. Почему-то мы всегда думаем, что если компьютер спланирует и выдаст какое-то решение, то оно всегда и однозначно будет правильное. Ведь это компьютер, он не может ошибиться, верно?
Люди веками верили во всемогущество и мудрость кого-то. Цари ли, боги... Люди делегировали решения и ответственность за эти решения. Богам ли … другим ли силам. Люди любят делегировать что-то, особенно то, что подразумевает ответственность. Зачем что-то делать, когда можно ничего не делать, главное, правильно объяснить.
Царей сейчас нет, с богами не очень… Но зато у нас есть компьютеры и модели и много данных. И если всё это собрать вместе, то будет хорошо.
И если этого ещё не произошло, то только потому, что не хватило совсем чуть-чуть данных. Соответственно, вывод из этого простой. Надо загрузить в этот железный ящик ещё больше данных и пусть он там себе шуршит своими электронами и считает. Зря что ли его делали?
Вон, когда в Америке разбирались почему же те, кто надо проглядели события 2011 года, выяснилось, что практически вся информация у них уже была. Не хватило малости. Свести всё вместе.
Так что, данные - это наше всё. Нам нужно много данных. Хороших и разных.
Поэтому я предлагаю откатиться лет на… Ну 35-40 назад.
Тогда в умные головы пришла такая идея. А давайте определим человеческий геном. Полностью. И тогда… И тогда мы решим все проблемы. И фундаментальной науки, и прикладной. Мы узнаем все тайны жизни, которые ещё скрываются от нас. И заодно мы победим все болезни, включая рак и многое чего сделаем другое.
Политики очень любят проекты таких масштабов.
Поэтому деньги были выделены и народ заработал.
Нужны были новые компьютеры, новые мощности для обработки и хранения данных, программы для работы с этими данными. Ну и конечно, сами данные.
Народ заработал…
Лет через десять об окончании этого проекта было торжественно объявлено. Только… Только ни к разгадке смысла жизни ни к победе над раком человечество не приблизилось.
Нет, вы не подумайте, это было полезно. В том числе были сделаны многочисленные исследования и выводы, которые оказались интересными и познавательными. И я безо всякой иронии или второго смысла. Но только...
Но только это не приблизило к заявленной фундаментальной цели. Иными словами, отдача оказалась не такая, как рассчитывали в начале проекта.
Умные головы подумали и сказали, что нет, это всё было хорошо и полезно, просто не хватило чуть-чуть знаний. Давайте мы теперь соберём вдобавок ещё и данные об экспрессирующихся (то есть активных) генах. Нам нужно ещё немного мощностей, ещё чуть-чуть данных и ещё немножечно денег. И времени.
Потом настала очередь белков (протеинов, ферментов и т.д.)
Потом сказали, что нельзя рассматривать такую сложную систему, как биологический организм по отдельным частям, а надо смотреть на объекты в их совокупности. И поэтому нужны ещё данные о симбиотических микроорганизмах.
…
Вы понимаете эти ряды. Это практически математические ряды.
Познание бесконечно.
Нет, я не против больших данных.
Мне просто не нравится некоторые направления, куда движется человечество.
И, в частности, я не понимаю некоторых программистов, которые работают (сами, без принуждения) над некоторыми проектами.
Ведь программисты люди достаточно свободные. Я бы сказал, привилегированные.
Они всегда могут найти работу, которая согласуется с их убеждениями.
Значит, для некоторых эти проекты согласуются.
Но, как известно, каждому своё.
Я вас не убедил?
Ну тогда вспомните, когда в последний раз вы говорили какие-то слова, которые я здесь не привожу, когда ваш компьютер или отдельное приложение начинало себя вести так, что вам очень нужно было срочно найти молоток.
А теперь подумайте, если это случилось бы в машине на скоростной дороге?
Вы скажете: “Ну ты сравнил. Консумерный дешёвый софт и программы для критических миссий, написанные совершенно в других стандартах.”
Вот, как раз. Спасибо. Что там у нас, кстати, с новейшим американским самолётом происходит, что там никак софт не могут отладить?
Там вроде чуть ли ни всю программу собирались даже закрывать?
Так что…
Но большие проекты конечно нужны. Тут никто не спорит. Тот же проект “Геном человека”, по некоторым подсчётам вернул в экономику 10 долларов на каждый затраченный 1. То есть, для экономики это оказалось очень даже полезно.
Вот только…
Вот только есть проекты и есть проекты.
Но зато, возвращаясь к началу, сколько материала для всяческих прогнозов и форвард аналитики это всё даёт…
И для мечтаний, что всё будет хорошо.
– Знаешь, где у тебя ошибка в логике?
– Где?
– Ты путаешь работу алгоритма и данные. Никакой алгоритм не отработает правильно на неправильных данных. Ты забываешь, что данные нужно проверять перед запуском в анализ.
– Так вот и я про то же. Мы берём плохо организованные, неструктурированные, ненадёжные, плохо поддающиеся проверке данные и… Но вообще-то я про другое. Про то, что мы так верим в новые могучие технологии. И уже планируем, как и где их будем использовать. И что получим. И как это будет здорово. И пишем аналитику про это. А на самом деле... кто же это всё точно может сказать? Но это уже не про большие данные.
Но вообще, всё будет хорошо.
Конечно, будет.
Всё будет хорошо -
Маяк в тумане виден,
А значит - там земля,
Большие города,
Неписанных картин
Нетронутые кисти,
Несложенных стихов
Несказанны слова.
Всё будет хорошо.
Но зашаталось море,
Ударила волна,
Подкравшись со спины.
Всё будет хорошо.
Невиденные зори,
Невставшая луна,
Неспетые стихи...
Владимир Свердлов "Всё будет хорошо"
Спасибо.