250 подписчиков

Когда и как родились «большие данные» - краткая история

5 апреля 20215 апр 2021

318

3 мин

Большие данные - это совокупность технологий, ресурсов, видов деятельности и возможностей, таких как: чрезвычайно большие объемы цифровых данных; сбор и обработка этих данных; предоставление данных в сыром или агрегированном виде; анализ, компьютерный анализ, или извлечение информации из данных (data mining); прогнозы, сделанные компанией на основе анализа; решения, принятые компанией в результате анализа; добавленная стоимость для компании в результате предсказания, решения и/или анализа.

Понятие «большие данные» появилось в конце 1990-х годов.

Однако использование больших данных и понимание необходимости доступа к данным появилось гораздо раньше.

Фактически, самые ранние записи об использовании данных для отслеживания и контроля относятся к периоду около 7000 лет назад, когда в Месопотамии был введен учет для регистрации роста сельскохозяйственных культур, количества голов домашних животных. и много чего еще.

В 1663 году английский учёный Джон Граунт записал и изучил всю информацию о ролях смертности в Лондоне. Он хотел понять и построить систему предупреждения возникновения очагов и распространения бубонной чумы.

Самые ранние упоминания о современных данных, как мы их сейчас понимаем, относятся к 1887 году, когда Герман Холлерит (американский инженер и изобретатель немецкого происхождения) изобрел табулятор - электромеханическую машину, предназначенную для автоматической обработки числовой и буквенной информации, записанной на перфокартах, с выдачей результатов на бумажную ленту или специальные бланки.

В 1896 году изобретатель табулятора зарегистрировал компанию Tabulating Machine Company, которая впоследствии была куплена компанией CTR (Computing Tabulating Recording), которая в свою очередь в 1924 году была переименована в известную сейчас IBM (International Business Machines), производящую #компьютеры и не только.

Ранний табулятор компании IBM. Изображение: Википедия. Автор: Stahlkocher - собственная работа, CC BY-SA 3.0, https://commons.wikimedia.org/w/index.php?curid=1006474

Первая из известных машин для обработки данных появилась в 1943 году. Она была разработана британцами во время Второй мировой войны для расшифровки нацистских кодов Это узкоспецифичное устройство, названное Colossus, сравнивало два канальных элемента символа из сообщения с эквивалентными элементами из потока ключа, который продвигался на одну позицию каждый раз, когда сообщение с ленты начинало читаться заново. Каждый раз, когда Colossus находил соответствие, ключ считался правильным для этой позиции, и для него начислялось одно «очко». Через четыре или пять минут очки начинали складываться электронным счётчиком и на переднюю ламповую панель выводились единицы, десятки, сотни и тысячи. Когда счёт становился достаточно большим, печатающее устройство распечатывало соответствующие позиции дисков для ключа, который дал такой счёт. Эти стартовые позиции дисков потом использовались в машине Лоренца для расшифровки сообщения. Colossus работал со скоростью 5000 символов в секунду, тем самым сокращая задачу с недель до часов.

Компьютер Colossus. Изображение: Энциклопедия Britannica. https://www.britannica.com/technology/Colossus-computer

В 1965 году правительство США создает первый центр обработки данных, который содержал более 742 миллионов налоговых деклараций и 175 миллионов комплектов отпечатков пальцев. Позже этот проект был остановлен.

Начиная с 90-х годов 20-го века количество данных непрерывно растет, поскольку все больше и больше устройств подключаются к Интернету.

В 1995 году был построен первый суперкомпьютер, который мог делать столько работы за секунду, сколько калькулятор, которым управляет один человек, может сделать за 30 000 лет.

О том, кто впервые произнес термин «большие данные», ведутся споры.

Известно, что впервые в своей презентации, сделанной в 1998 году, термин #BigData использовал Джон Мэши, тогда главный ученый компании Silicon Graphics. Однако тогда термин не получил широкого распространения, поскольку Мэши предсказывал будущий рост данных, адресуясь к узкому кругу коллег.

В 2005 году Роджер Мугалас впервые ввел термин «большие данные», как большой набор данных, которыми практически невозможно управлять и обрабатывать с помощью традиционных инструментов бизнес-аналитики.

Широкое введение термина «большие данные» связывают с Клиффордом Линчем, редактором журнала Nature , подготовившим к 3 сентября 2008 года специальный выпуск с темой «Как могут повлиять на будущее науки #технологии открывающие возможности работы с большими объёмами данных?», в которой обсуждались проблемы, вызванные ростом объемов данных, получаемых в процессе проведения современных научных экспериментов, и, как следствие, в связи с появлением нового поколения науки, называемого электронной наукой (e-science). И именно этот день считается днем рождения Big Data.