В современном мире данные перестали быть массивом, они превратились в поток. Невозможно собрать все данные мира в одном месте и зафиксировать. В мире каждую секунду появляются терабайты новых данных и удаляются терабайты старых.
Эволюция данных
Сначала люди передавали информацию только голосом, потом появилась письменность. Уже древние шумеры начали записывать сведения о налогах и собранном урожае с помощью глиняных табличек и клинописи.
В то время это казалось огромным объёмом информации. Сейчас вся шумерская база данных умещается на одну дискету.
Люди все время совершенствовали способы хранения данных - от глиняных табличек они перешли к папирусным свиткам, а затем и к печатным книгам.
А потом данные стали цифровыми. Через 5000 лет после появления письменности, Гордон Мур (Gordon Moore), основатель компании Intel, выдвинул предположение:
«Количество транзисторов размещаемых на кристалле интегральной схемы, удваивается каждые 24 месяца».
Это предположение получило название — закон Мура.
Проще говоря, согласно закону Мура, каждые два года компьютеры становятся в 2 раза мощнее.
Гордон Мур оказался прав в своём предположении. Производительность компьютеров до сих пор продолжает расти по экспоненте, именно это и сделало возможным хранение и обработку по-настоящему больших данных.
По данным компании IBS за всю историю человечества до 2003 года, люди создали 5 эксабайтов данных, к 2015 году количество данных в мире возросло до 6,5 зеттабайт. Это как 30 миллиардов игр GTA 5.
К 2020 году, по прогнозам, человечество сформирует больше 40 зеттабайтов информации. Подсчитано, что 90% всех данных в мире было создано за последние несколько лет.
Такая захватывающая перспектива ошеломляет и даже страшно представить, что будет дальше.
Искусственный разум
Создать обладающие разумом машины вечная мечта человечества.
Тридцать бронзовых шестерёнок внутри деревянного корпуса… Возраст находки более 2100 лет. Этот поразительный прибор учёные подняли со дна Ионического моря. С помощью подобного аппарата, получившего название «антикитерский механизм» древние греки могли рассчитать 42 вида астрономических явлений. Например, положение луны и солнца, солнечные и лунные затмения.
То есть получается, что «антикитерский механизм» является уникальным античным механическим вычислительным устройством. Ничего подобного по сложности европейцам не удавалось сделать ещё вплоть до Нового времени.
Проблема создания искусственного разума и машин, управляемых искусственным разумом была актуальной всегда. Писатели того времени описывали искусственный разум в своих произведениях, учёные проводили исследования и совершали открытия.
Но, несмотря на серьёзный и ответственный подход ученных и исследователей к решению данной проблемы, иногда происходили и курьёзные события.
Так, например, в 18 веке была создана «шахматная машина», которая успешно гастролировала по Европе. Это была ростовая фигура турка,сделанная из воска, которая сидела рядом с ящиком и передвигая фигурки, играла с противником, с живым человеком.
Как оказалось – это был обман. Внутри ящика спрятавшись за механизмом сидел человек, профессиональный шахматист, который и помогал, передвигать фигурки этому турку.
Но тайна шахматной доски не давала покоя человечеству. В 1949 году математик Артур Сэмюэл (Arthur Samuel) решил научить компьютер играть в шашки.
Для этого он написал программу «Checkers-playing», которая знала, какие ходы возможны по правилам, но этого оказалось недостаточно, компьютер проигрывал.
Тогда Сэмюэл дополнил свою программу - теперь она высчитывала, насколько увеличится вероятность победы после каждого из возможных ходов и выбирала лучший. У программы появилась стратегия. Но и это не помогло. Сэмюэл легко выигрывал у своего алгоритма.
И тогда, Сэмюэл сделал вещь, которая перевернула наше представление о возможностях компьютера.
Он заставил свою программу бесконечно играть в шашки саму с собой. Программа собирала всё больше и больше данных о шашках и точность её прогнозов все увеличивалась.
И только после этого изменения программы Сэмюэл впервые проиграл компьютеру. Ещё никогда в истории, человек, проигравший в шашки, так не радовался!
А «Checkers-playing» стала одной из первых самообучающихся программ в мире, и впервые продемонстрировала базовые понятия искусственного интеллекта и машинного обучения.
Машинное обучение (Machine Learning) — обширный подраздел искусственного интеллекта, изучающий методы построения алгоритмов, способных обучаться.
В машинном обучении процесс обучения контролируется, и программист должен сообщить компьютеру, какие типы данных он должен искать, для решения, той или иной задачи. Этот процесс, стали называть процессом извлечения функций. То есть для успешного выполнения той или иной задачи компьютером, программист должен предоставить ему данные и точно определить необходимый набор функций для анализа этих данных.
Таким образом, появление искусственного интеллекта, машинного обучения и увеличение производительности вычислительных мощностей привело к изменениям в анализе данных, появлению так называемых «больших данных».
«Большие данные» (Big data)— это различные инструменты, подходы и методы обработки как структурированных, так и неструктурированных данных для того, чтобы их использовать для конкретных задач и целей.
Как происходило дальнейшее развитие «больших данных» можно прочитать здесь