Найти тему
Live the way you really want

Проектирование систем обработки больших данных (Big Data)

Оглавление

Промежуточный Тест 1

1)

Говоря о таком признаке больших данных, как …, следует отметить, что накопленная база данных представляет собой гигантский объем информации, для которого обработка и хранение традиционными способами являются трудоемкими процессами; такой объем нуждается в новых подходах и в более усовершенствованных инструментах

Volume

2)

Установите соответствие признаков больших данных и их характеристик:

Достоверность данных - в настоящее время это важнейший критерий для пользователей, поскольку недостоверная информация приводит к затруднению анализа данных

Ценность накопленной информации - большие данные должны быть полезны в усовершенствовании бизнес-процессов, составлении отчетности или оптимизации расходов компаний

Многообразие - данная характеристика означает возможность одновременной обработки структурированной и неструктурированной информации различных форматов

3)

… данные – это текстовые данные с неустойчивым форматом, которые для обработки инструментами требуют больших временных затрат на преобразование

Квазиструктурированные

4)

… данные – это данные, у которых нет строго зафиксированного формата

неструктурированные

5)

Данные текстовых файлов с определенными паттернами для их обработки называются …

полуструктурированными

6)

Согласно принципу трех V английским словом «…» обозначают скорость, реакцию на текущую информацию за время, ограниченное приложением

3V - Не верно

7)

Комплексный набор методов, подходов и инструментов обработки структурированных и неструктурированных данных колоссальных объемов –это … данные

большие

8)

Термин Big Data был предложен Клиффордом Линчем в журнале Nature 3 сентября … года по аналогии с терминами «Большая нефть», «Большая руда»

2008 г.

9)

Установите правильную последовательность этапов анализа данных:

1) гипотеза

2) сбор и систематизация данных

3) подбор модели

4) тестирование и интерпретация результатов

5) использование (Конец)

10)

ESFRI – это краткое обозначение …

европейского стратегического форума в области исследовательских инфраструктур

Верно

Промежуточный Тест 2

1)

Подборка тематически связанных данных, расположенных на одном рабочем листе, – это …

таблица - Не верно

2)

На рисунке ниже приведены имена … (столбцов) списка

полей

3)

Чтобы переименовать рабочий лист электронной таблицы, сначала нужно щелчком правой кнопки мыши вызвать контекстное меню на ярлыке листа и выбрать в нем команду «…»

переименовать

4)

Установите правильную последовательность действий, если необходимо создать собственный формат данных (лс) и применить его для поля электронной таблицы «Мощность двигателя» (см. рисунок ниже):

-2

1) сделать активной ячейку в столбце «Мощность двигателя»

2) щелчком правой кнопки мыши вызвать контекстное меню и выбрать в нем команду «Формат ячейки»

3) в появившемся окне на вкладке «Число» выбрать все форматы

4) в поле «Тип» ввести: #0" л. с"

5)

Операция над данными, с помощью которой можно переупорядочить строки в списке в соответствии с содержанием конкретных столбцов, – это …

сортировка

6)

Карта с нанесенной на нее информацией в виде цвета или с помощью других способов – это …

картограмма

7)

… – это макрокоманда, содержащая последовательность действий, записанных пользователем

Макрос

8)

… – это создание большого количества различных визуальных представлений одних и тех же данных

диаграмма - Не верно

9)

… таблица – это специальный тип таблицы, суммирующий информацию из конкретных полей списка или базы данных; допускает после построения настройку на различные разрезы данных

Сводная

10)

Установите правильную последовательность шагов по созданию макроса, с помощью которого в поле «Цвет» определяются неповторяющиеся значения (эти значения выводятся в ячейке перечислением через запятую):

1) сделать активной ячейку в столбце «Мощность двигателя»

2) щелчком правой кнопки мыши вызвать контекстное меню и выбрать в нем команду «Формат ячейки»

3) в появившемся окне на вкладке «Число» выбрать все форматы

4) в поле «Тип» ввести: #0" л. с"

1) перейти на лист «Исходные данные»

2) в ячейку F40 ввести: «Неповторяющиеся значения по полю "Цвет":»

3) на вкладке «Вид» в разделе «Макросы» выбрать команду «Запись макроса» (так же на вкладке «Разработчик»)

4) в появившемся диалоговом окне ввести название макроса «Цвет» и нажать клавишу ОК

5) выполнить все необходимые действия по созданию макроса

6) остановить запись макроса

Промежуточный Тест 3

1)

… данные представляют собой высокоорганизованную, фактическую и точную информацию и обычно представлены в форме букв и цифр, которые хорошо вписываются в строки и столбцы таблиц

структурированные

2)

… данные не имеют заранее определенной структуры и представлены во всем разнообразии форм (от изображений и текстовых файлов, таких как документы PDF, до видео- и аудиофайлов)

неструктурированные

3)

Неструктурированные данные также называются … в том смысле, что они имеют субъективный и интерпретирующий характер

качественными данными

4)

… данных – это хранилище или система, предназначенная для хранения огромных объемов данных в естественном / необработанном формате

Озеро

5)

Для работы с реляционными базами данных и хранилищами используется специальный язык программирования – язык структурированных запросов …, который был разработан IBM в 1970-х гг.

SQL

6)

Установите соответствие понятий и их определений:

Оценивание параметров законов - вычисление по выборке точечных и интервальных оценок

Проверка статистических гипотез - установление справедливости данного утверждения по отношению к параметрам генеральной совокупности

Методы - общая совокупность действий, направленных на решение задачи

7)

Полный набор объектов, связанных с поставленной перед изучением проблемой, – это …

генеральная совокупность

8)

Установите правильный порядок процедуры анализа текстовой информации, осуществляемой аналитиком:

1) первичная оценка информации

2) резюмирование информации – выделение основных фактов

3) систематизация и сопоставление информации

4) синтез данных

9)

В числе наиболее часто используемых систем управления реляционными базами данных (СУДБ), инструментов и технологий для обработки данных можно выделить … – бесплатную СУБД с открытым исходным кодом, которая поддерживает запросы как SQL, так и JSON, а также наиболее широко используемые языки программирования

PostgreSQL

10)

… вывод – это утверждение о том, что представляют собой законы, лежащие в основе изучаемой генеральной совокупности

статистический

Промежуточный Тест 4

1)

… данных – это процесс, в котором мы раскрываем и дополняем данные, добавляя к ним связанную информацию из стороннего источника

обогащение

2)

… – это научное направление в области искусственного интеллекта, в частности робототехники, и связанные с ним технологии получения изображений объектов реального мира, их обработки и использования, полученных данных для решения разного рода прикладных задач без участия (полного или частичного) человека

компьютерное зрение - Не верно

3)

… – это один из основных процессов в управлении хранилищами данных

ETL/ELT

4)

Установите хронологическую последовательность исторических прорывов в машинном зрении:

1) Ф. Розенблатт, компьютерная реализация персептрона

2) первые системы обработки изображений

3) Л. Робертс, концепция машинного построения трехмерных образов объектов

5)

Установите соответствие дат и описаний исторических прорывов в машинном зрении:

1979 г. - Ганс-Хельмут Нагель, теория анализа динамических сцен

1990-е гг. - первые беспилотные системы управления автотранспортом

2003 г. - корпоративные системы распознавания лиц

6)

Компонентом системы машинного зрения является … для синхронизации частей обнаружения (часто оптический или магнитный), который служит для захвата и обработки изображений

датчик

7)

Такой компонент распознавания текста, как …, включает в себя определение ориентации определенного объекта относительно камеры

оценка положения

8)

Такой метод обработки изображений, как …, используется для поиска и (или) подсчета деталей, его цель заключается в упрощении и/или изменении представления изображения, чтобы его было проще и легче анализировать

сегментация

9)

Одной из задач машинного зрения является …, например: определение трехмерного движения камеры; слежение, то есть следование за перемещениями объекта (машины, человека)

распознавание - Не верно

10)

Такой метод обработки изображения, как …, заключается в преобразовании изображения в серых тонах в белые и черные пиксели; значения каждого пикселя условно кодируются как 0 и 1

бинаризация

Промежуточный Тест 5

1)

Английское название хранилищ данных масштаба предприятия, где данные хранятся в неструктурированном / необработанном виде, – Data …

Lake

2)

Эффективным подходом к формированию поискового словаря в условиях слабого знакомства с предметной областью исследований является …

использование разнообразных словарей, предназначенных для любителей отгадывания кроссвордов

3)

В результате построения частотно-рангового распределения длин слов в данном тексте выбирается специфичный для данного языка диапазон … слов – именно в этом диапазоне будут содержаться те слова, которые наилучшим образом отражают тематику и содержание текста

длины - Не верно

4)

Термин на английском языке, обозначающий процесс анализа данных на основе определенных образцов и поиск соответствия им в больших наборах данных, – Data …

mining

5)

Среди разработчиков программного обеспечения, реализующих передовые поисковые лингвистические технологии, следует выделить … – разработки этой фирмы «Следопыт», «Классификатор» и «Аннотатор» позволяют осуществлять оперативный поиск документов, их индексирование, классификацию и автоматическое аннотирование

ЗАО «МедиаЛингва»

6)

Программный продукт TextAnalyst научно-производственного инновационного центра «…», использует для решения задач распознавания слов нейросетевые технологии и, в основном, предназначен для решения задачи автоматического реферирования документов

микросистемы

7)

… – английское сокращенное обозначение специализированных комплектов разработчика, которые позволяют при необходимости создавать собственное программное обеспечение, адаптированное к задачам, решаемым той или иной организацией

SDK

8)

Сервисы … обучения в облаках помогают использовать неструктурированные данные на практике: распознавать лица, объекты, номера автомобилей, анализировать интонации речи

машинного

9)

Установите соответствие элементов специфики работы со неструктурированными данными и их содержания:

Преимущества использования неструктурированных данных - запуск очередного проекта по анализу неструктурированных данных может привести к созданию новых технологий, совершению открытий или экономии денег

У неструктурированных данных все-таки есть структура - порядок организации неструктурированных данных может быть совсем не предназначен для обработки машинными средствами, т.к. структура таких данных слишком сложна и неочевидна

Для работы с неструктурированными данными нужны особые методы - классические компьютерные алгоритмы бесполезны при работе с неструктурированными данными – для этого существуют особые типы инструментов

10)

Установите соответствие основания классификации и соответствующих примеров корпусов текстов:

По способу построения - одноязычные и многоязычные

По способу распространения - свободно или частично доступные, закрытые

По назначению - исследовательские и иллюстративные

Итоговый тест

1)

Текстовые данные с неустойчивым форматом, которые для обработки инструментами требуют больших временных затрат на преобразование, – это … данные

квазиструктурированные

2)

Данные, у которых нет строго зафиксированного формата, называются …

неструктурированными

3)

… данные – это данные текстовых файлов с определенными паттернами для их обработки

полуструктурированные

4)

Комплексный набор методов, подходов и инструментов обработки структурированных и неструктурированных данных колоссальных объемов –это …

большие данные

5)

Установите правильную последовательность этапов анализа данных:

1) гипотеза

2) сбор и систематизация данных

3) подбор модели

4) тестирование и интерпретация результатов

5) использование

6)

Совокупность методов и средств извлечения их организованных данных для принятия решений – это … данных

анализ

7)

Установите правильную последовательность действий, если необходимо создать собственный формат данных (лс) и применить его для поля электронной таблицы «Мощность двигателя» (см. рисунок ниже):

1) сделать активной ячейку в столбце «Мощность двигателя»

2) щелчком правой кнопки мыши вызвать контекстное меню и выбрать в нем команду «Формат ячейки»

3) в появившемся окне на вкладке «Число» выбрать все форматы

4) в поле «Тип» ввести: #0" л. с"

8)

Операция над данными, с помощью которой можно переупорядочить строки в списке в соответствии с содержанием конкретных столбцов, – это …

сортировка

9)

Карта с нанесенной на нее информацией в виде цвета или с помощью других способов – это …

картограмма

10)

Макрокоманда, содержащая последовательность действий, записанных пользователем, – это …

макрос

11)

… таблица – это специальный тип таблицы, суммирующий информацию из конкретных полей списка или базы данных; допускает после построения настройку на различные разрезы данных

сводная

12)

Установите правильную последовательность шагов по созданию макроса, с помощью которого в поле «Цвет» определяются неповторяющиеся значения (эти значения выводятся в ячейке перечислением через запятую):

1) перейти на лист «Исходные данные»

2) в ячейку F40 ввести: «Неповторяющиеся значения по полю "Цвет":»

3) на вкладке «Вид» в разделе «Макросы» выбрать команду «Запись макроса» (так же на вкладке «Разработчик»)

4) в появившемся диалоговом окне ввести название макроса «Цвет» и нажать клавишу ОК

5) выполнить все необходимые действия по созданию макроса

6) остановить запись макроса

13)

… данные представляют собой высокоорганизованную, фактическую и точную информацию и обычно представлены в форме букв и цифр, которые хорошо вписываются в строки и столбцы таблиц

Структурированные

14)

… данные обычно существуют в таблицах, подобных файлам Excel и электронным таблицам Google Docs

структурированные

15)

… – это утверждение о том, что представляют собой законы, лежащие в основе изучаемой генеральной совокупности

Статистический вывод

16)

Для работы с реляционными базами данных и хранилищами используется специальный язык программирования – язык структурированных запросов …, который был разработан IBM в 1970-х гг.

SQL

17)

Установите соответствие понятий и их определений:

Оценивание параметров законов - вычисление по выборке точечных и интервальных оценок

Проверка статистических гипотез - установление справедливости данного утверждения по отношению к параметрам генеральной совокупности

Методы - общая совокупность действий, направленных на решение задачи

18)

Установите правильный порядок процедуры анализа текстовой информации, осуществляемой аналитиком:

1) первичная оценка информации

2) резюмирование информации – выделение основных фактов

3) систематизация и сопоставление информации

4) синтез данных

19)

… данных – это процесс, посредством которого извлекается необходимая для обработки информация, впоследствии предоставляющая решение поставленной перед ним задачи/проблемы

консолидация - Не верно

20)

… включает данные, которые относятся к нескольким однородным объектам, при этом каждый объект описан в виде набора характеристик; обычно его можно представить в виде таблицы в несколько строк и столбцов

база данных - Не верно

21)

Установите соответствие дат и описаний исторических прорывов в машинном зрении:

1955 г. - статья О. Селфриджа «Глаза и уши компьютера»

1958 г. - Ф. Розенблатт, компьютерная реализация персептрона

1960-е гг. - первые системы обработки изображений

22)

Установите соответствие компонентов распознавания текста и их характеристик:

Поиск изображений по содержанию - нахождение всех изображений в большом наборе изображений, которые имеют определенное различными путями содержание

Оценка положения - определение ориентации определенного объекта относительно камеры

Оптическое распознавание знаков - символы на изображениях печатного или рукописного текста распознаются обычно для перевода в текстовый формат, наиболее удобный для редактирования или индексации

23)

Такой метод обработки изображений, как …, используется для поиска и (или) подсчета деталей, его цель заключается в упрощении и/или изменении представления изображения, чтобы его было проще и легче анализировать

сегментация

24)

Такой метод обработки изображения, как …, заключается в преобразовании изображения в серых тонах в белые и черные пиксели; значения каждого пикселя условно кодируются как 0 и 1

бинаризация

25)

После того как первая версия поискового словаря создана, дальнейшие операции …

могут быть возложены на электронно-вычислительную машину

26)

Программный продукт TextAnalyst научно-производственного инновационного центра …, использует для решения задач распознавания слов нейросетевые технологии и, в основном, предназначен для решения задачи автоматического реферирования документов

«Микросистемы»

27)

… – английское сокращенное обозначение специализированных комплектов разработчика позволяющих при необходимости создавать собственное программное обеспечение, адаптированное к задачам, решаемым той или иной организацией

SDK

28)

… – проект фонда Apache Software Foundation, платформа с открытым исходным кодом для обработки больших данных; благодаря распределенной файловой системе и распределенным вычислениям эта разработка позволяет обрабатывать и анализировать очень большие объемы данных.

hadoop

29)

Установите соответствие элементов специфики работы со неструктурированными данными и их содержания:

Преимущества использования неструктурированных данных - запуск очередного проекта по анализу неструктурированных данных может привести к созданию новых технологий, совершению открытий или к экономии денег

У неструктурированных данных все-таки есть структура - порядок организации неструктурированных данных может быть совсем не предназначен для обработки машинными средствами, т.к. структура таких данных слишком сложна и неочевидна

Для работы с неструктурированными данными нужны особые методы - классические компьютерные алгоритмы бесполезны при работе с неструктурированными данными – для этого существуют особые типы инструментов

30)

Установите соответствие основания классификации и соответствующих примеров корпусов текстов:

По способу построения - статические и динамические

По способу распространения - свободно или частично доступные, закрытые

По назначению - исследовательские и иллюстративные

Компетентностный тест

1)

Рисунок ниже отражает так называемый «принцип трех V».

Какие характеристики, согласно данному рисунку, играют решающую роль в больших данных?

Объем информации, скорость обработки и разнообразие появляющихся данных.

2)

Одна из характеристик больших данных определяет способность обработки множества типов, источников и форматов данных от сенсоров, умных устройств, социальных сетей. Также данная характеристика указывает на способность интегрировать все большее число источников, содержащих различные структурированные, полуструктурированные данные, извлекаемыми из веб-страниц, e-mail, документов и др. О какой характеристике больших данных идет речь?

Разнообразие появляющихся данных.

3)

Если мы применяем данные для аналитической обработки и используем так называемые конвейеры данных, конечным пунктом путешествия структурированных данных будут специальные хранилища данных. Чем больше объем данных, тем больше места требуется для их хранения. Например, картинка с высоким разрешением весит намного больше, чем текстовый файл. Следовательно, неструктурированные данные требуют больше места для хранения. Где обычно хранятся неструктурированные данные?

В озерах данных, а также в собственных приложениях.

4)

Существуют различные инструменты управления неструктурированными данными. Один из таких инструментов представляет собой систему управления базами данных, которая ориентирована на документы, не требующие жесткой схемы или структуры таблиц. Данный инструмент считается одним из классических примеров NoSQL и использует документы, подобные JSON. О каком инструменте управления неструктурированными данными говорится в данном примере?

MongoDB.

5)

Существуют различные инструменты управления неструктурированными данными. Один из таких инструментов представляет собой эффективную среду с открытым исходным кодом, которая используется для обработки больших объемов данных и их хранения на недорогих обычных серверах. Это не только мощный, но и гибкий инструмент, поскольку не требует наличия схемы или структуры для хранимых данных. Он помогает структурировать неструктурированные данные и затем экспортировать их в реляционные базы данных. О каком инструменте управления неструктурированными данными говорится в данном примере?

Apache Hadoop.

6)

Изучите приведенный ниже рисунок.

-3

Реализация какой из задач машинного зрения здесь отражена?

Распознавание.

7)

Изучите приведенный ниже рисунок.

-4

Реализация какой из задач машинного зрения здесь отражена?

Восстановление 3D-формы по 2D-изображениям. - Не верно (Идентификацию вибирайте!)

8)

Одной из задач компьютерной лингвистики является автоматическая классификация текстов, т. е. отнесение текста к той или иной области или ее подмножеству на основе некоторого алгоритма с некоторой вероятностью. Часть алгоритмов используют для этого только данные, полученные непосредственно из этого текста. Охарактеризуйте такие алгоритмы.

Такие алгоритмы имеют невысокую точность и часто не соответствуют решению задачи классификации человеком.

9)

В комплексе инструментов автоматизированного анализа текстов реализованы инструменты анализа и исследования текстов на этапах морфологического, синтаксического анализа, с применением статистических методов, кроме того присутствует средство исследования полученных результатов на следующем – аналитическом – уровне. На основе инструментов комплекса созданы сервисы решения задач выделения ключевых слов, статистического анализа, классификации. Какие режимы имеет сервис классификации текстов?

Сервис классификации текстов имеет два режима работы: режим анализа и режим обучения.

10)

Структурированные и неструктурированные данные обрабатывают и анализируют по-разному. Классические компьютерные алгоритмы бесполезны при работе с неупорядоченными данными. Поэтому существуют отдельные типы инструментов, созданные специально на этот случай. В частности, существует тип инструментов, который включает в себя классификаторы, нейронные сети, векторные машины – особые математические модели, которые могут работать практически с любыми типами данных. Они могут предсказывать, преобразовывать, распознавать и даже создавать новые данные. Назовите данный тип инструментов для работы с неструктурированными данными.

Машинное обучение.

Итоги:

Спасибо что дошел до сюда, если материал помог поставь лайк! Если ты смог/ла найти правильный ответ просьба добавить его в комментарий. Это поможет всем. Я за бесплатное пользование знаниями. Удачи!