599 подписчиков

Информационное проектирование

26 января 202326 янв 2023

7 мин

Оглавление

Мир — это данные
Текущее состояние данных
Вектора развития будущего

Как правильно проектировать информационные системы? Почему важна декомпозиция данных? Что нужно учитывать? Как не допустить ошибок?

Рассказывает Вячеслав Крампец, технический специалист Online Media.

Мир — это данные

В самой природе все систематизировано. Вот люди и пытаются построить систему, согласно тому, что видят и ощущают.

Начало обработки, систематизации, раскладывания по полочкам хорошо описывает поэт Булат Окуджава: «Каждый слышит как он дышит». Люди опираются на собственное мироощущение. У всякого дыхания есть ритм, периодичность. Периодичность — это одна из характеристик данных в какую-либо структуру.

Также в организации данных нужно понимать, с каким количеством мы работаем. Так как человек не может сразу уследить за пятьюдесятью или за сотней параметров, появляется иерархия, распределение обязанностей.

Иерархия — это организация данных по одной оси (государственное управление, родовая система от старшего к младшему). Все, кто занимается поиском, наверняка знакомы с SILO. Это одномерная иерархическая модель данных.

В таблице же Менделеева мы уже видим матрицу. Здесь периодичность элементов устроена по двум осям. Стоит отметить, что вне зависимости от оси, свойства всех элементов коррелируют между собой.

С появлением компьютеров у человека появилась возможность поглощать не только физические, но и виртуальные данные. Главная особенность в том, что их можно легко перенести. CTRL + V — и вот тебе точная копия.

Поэтому с появлением Интернета начала развиваться энтропия. Данных стало так много, в них уже невозможно полностью разобраться. Сайты почкуются миллионами, вокруг множество дезинформации.

Искусственный интеллект — последняя точка развития, который помогает систематизировать информацию.

Итог: оцифровка необратима. Все физические данные рано или поздно уйдут в цифру.

Текущее состояние данных

Что мы сейчас имеем с точки зрения данных и их готовности к тому, чтобы скармливать умному алгоритму, который улучшит человеку жизнь и продвинет его дальше в развитии? Почему реальных результатов мы пока не видим?

«Грязные» данные

Из-за них в медицине достаточно много неудачных опытов.

Самый громкий эксперимент носит название "Watson". Это программа искусственного интеллекта, разработанная IBM, в которую вложена была огромная куча денег и которой скармливалось большое количество данных. Она использовалась в медицине. Искусственный интеллект ставил человеку диагноз по определённым симптомам. Эксперимент не удался. Причина была в недостаточно «чистых» данных. То, что для человека с его развитым интуитивным аппаратом и опытом будет легко (врач может просто посмотреть на пациента и по опыту, интуиции догадаться, какой может быть приблизительный диагноз; например, мне врач как-то поставил диагноз по цвету кончика языка), для компьютера окажется недостаточно понятно.

Или, например, пытались проводить при помощи компьютера сбор данных по флюорографии. Выяснилось, что неверные показатели были из-за того, что алгоритм прикреплялся не к той информации, которая отображала саму флюорографию, а к меткам. Поскольку каждый аппарат продан в конкретную клинику, то он оставляет свою метку: это клиника такая-то. А поскольку клиники находились в разных районах города и их посещали самые разные люди, распределение легочных болезней было разное. Компьютер вывел связь не между фото и наличием болезни, а между надписью названия клиники и болезнью.

Недостаток опыта

Сейчас мало хороших дата-сайентистов, к тому же, их услуги стоят дорого. Да и большая часть процесса строится на экспериментах. Пока что реальные успехи возможны лишь на очень маленьких, закрытых наборах данных (например, Google Карты распознают цветы с хорошо сделанных фотографий). Пройдут годы, пока появятся школы, которые будут взращивать таких специалистов.

Несовершенство технологий

Опять пункт связан со скоростью прогресса. Технологии несовершенны (для людей это по сути «черный ящик»), постоянно меняются, зачастую через два месяца выходит очередной новый алгоритм, который на голову опережает то, что стандартным казалось еще два месяца назад.

Авторское право

Авторское право сейчас устарело. Его нужно пересматривать, потому что оно сильно препятствует разработке. К примеру, создал я определённый датасет, и всё, ограничен набор использования.

Как только начинаешь копать какую-то область, лезть куда-то поглубже, натыкаешься на то, что всё, что хорошее, важное закрыто из-за авторского права. Нужна лицензия на использование.

К этому же моменту хочу отнести ещё так называемую неозвученную проблему open source. Поскольку всё защищено авторским правом, то в коммерческом продукте невозможно использовать ту или иную наработку open source без нарушения закона.

Лень, саботаж, алчность

Лень — часто люди делают работу как попало, и данные становятся грязными, неупотребимыми. Потом приходится работу переделывать.

Саботаж — SEO. Генерация контента в интернет просто для того, чтобы выполнить коммерческую задачу, саботирует основную цель интернета (если считать его источником знаний).

Алчность — задвигание каких-то открытий, пока ты можешь зарабатывать на старом.

Этические ограничения

Рассмотрим две разных позиции, которые сейчас в мире существуют. Западная и китайская.

Китайцы приняли решение, что все данные принадлежат государству. Скорее всего, там будут прорывы получения конкретных, чистых данных, просто потому что ни у кого нет права в ограничении. Государство ты никак не ограничишь от того, что оно может твоими данными пользоваться.

В западной же системе множество ограничений накладывается на работу с данными из-за того, что работа с ними должна учитывать мнение того, о ком эти данные.

Вектора развития будущего

Прокаченная разметка наборов данных: появится большая отрасль, будут отдельные профессии, вклад больших средств для разметки.

Будут совершенствоваться микроформаты. Пока наиболее хорошо они развиты там, где очень высокая конкуренция (нужно готовить данные соответствующим образом). То есть, если мы продаем велосипед, то залить на страницу текст кирпичом не получится. Придётся раскладывать все поля, каждое — в соответствующую ячейку. В базе они точно также будут храниться.

Да, это накладно и трудоёмко, но выбора нет. Все поставщики данных, которые будут участвовать в процессе производства информации, так или иначе должны будут эти данные размечать.

Сейчас каждая фотография, снятая на телефон, уже имеет гео-отметки, привязывает персональные данные, и подобного будет всё больше.

Появится очень много разных наборов данных, нужно будет их знать, а также специалисты, которые будут разбираться с тем, как данные правильно категоризировать, куда отнести и т.п.

Бюджет по разметке данных с 1,7 миллиона долларов (2019 год) вырастет почти в 2 раза (до 4,1 миллиона) к 2024.

Абсолютная формализация — разработка общепринятых стандартов.

Со временем микроформаты выйдут за пределы SEO.

Например, сейчас у вас есть умные весы. У сяоми один стандарт, у других производителей другой. Рано или поздно, как и в электронной коммерции, все сведётся к одному.

Новые форматы обмена и синхронизации данных.

Куча энергии тратится просто на то, чтобы информация из одного места попала в другое. Банальный пример: робот идёт по протоколу http через браузер, получает данные, парсит их, распознаёт. Хорошо, если есть там семантическая разметка. А если её нет? Если кто-то умный скопипастил всё из ворда? Какая же там глобальная чистка начинается.

Скорее всего, выстроятся протоколы обмена данными не в рамках текущей парадигмы веба. Не будет такого, что робот начнёт ходить, как человек. Все наверняка знают yandex turbo-страницы и amp-страницы, когда поисковики предлагают вам более упрощённый язык.
Протоколы обмена будут бинарными, не станут содержать лишнего мусора (начнут передаваться только те данные, которые нужны) и уйдёт вся эта безумная энтропия.
Выработается протокол взаимодействия, вроде центра агрегации данных. Поставщики данных должны будут просто сообщать о том, как это происходит в любой нормальной базе, любой написанной платформе, где существуют базы данных.

Если данные изменились, они с минимальными усилиями и минимальной верификацией попадут в место, где должны храниться. Если они хранятся в разных местах, то просто передаются между собой с минимальными затратами.

Распределённое хранение данных.

Оно уже возникает. Мы все знаем, что такое cdn и как она работает. Сейчас используется для разгона технички, но одно из основных предназначений распределенного хранения данных — гарантия безопасности. Данные не будут пропадать.

Рано или поздно понятие «файл» из нашей жизни уйдёт. Останется понятие «объект», «документ», «информационный атом», но «файл» в привычном его понимании останется в прошлом.

Каким-то образом эта система должна измениться, унифицироваться. Маловероятно, что кто-то на уровне потребителей будет понимать, где что хранится. Появится глобальная сеть хранения.

Новая концепция авторства — владение данными, чёткий контроль доступности, доступная стоимость.

Будет другая модель. Люди уже пытаются выстраивать какие-то. Если просто платить автору напрямую, то, возможно, ему и не нужно будет столько денег, сколько контент стоит сейчас.

В следующей статье расскажем про инструментарий и дадим рекомендации по управлению данными.