Источник: Nuances of Programming Сейчас легко найти данные. Но вот найти высококачественные оказывается весьма проблематично. Одна из характерных черт низкопробных данных в том, что они запутаны и редко точны. Сколько бы мы, профессионалы в этой сфере, не говорили об алгоритмах и проверке моделей, большую часть времени занимает именно очистка данных. В этом смысле работа со строками требует несколько иного набора навыков, чем работа с теми же списками или data.frame. В текущей статье, как вы уже поняли, мы будем учиться максимально эффективно управлять строками...
Бизнес аналитика и анализ больших данных К основным характеристикам Big Data относятся: Ответ: Variety, Velocity, Volume, Value Первый этап жизненного цикла данных в соответствии с методологией CRISP-DM: Ответ: Понимание бизнеса (Business understanding) На каком из этапов жизненного цикла данных по методологии CRISP-DM происходит проверка гипотез? Ответ: Моделирование (Modeling) Сколько в 1 зеттабайте тарабайт? Ответ: 1,073742∙109 В каких из приведенных ниже случаев речь идет структурированных данных: Ответ: Данные о продажах фирмы, представленные в виде отчётов в MS Excel Таблица с ежедневными показаниями температуры помещения за год в файле формата CSV Локальность данных Big Data — это: Ответ: Данные не стоит обрабатывать на сервере их хранения Отказоустойчивость Big Data — это, когда: Ответ: Сбой в одном звене системы не ведет к сбоям в других звеньях Заказчик бизнес-процесса — это должностное лицо: Ответ: Имеет в своем распоряжении ресурсы и полномочия для принятия решений о проведении работ по описанию, регламентации или аудиту бизнес — процесса Процессы подбора персонала относят к группе: Ответ: Поддерживающие процессы Деревья решений относятся к группе (группам) … Ответ: логических методов кибернетических методов Решение задачи прогнозирования… Ответ: требует некоторой обучающей выборки данных Медианой для выборки 1, __, 3,7,10,15,16,18 является: Ответ: 8,5 Алгоритм — это: Ответ: система правил, описывающая последовательность действий, которые необходимо выполнить для решения задачи Каким образом можно объявить переменную «а» на языке R: Ответ: а =, а >- Как можно получить помощь в R: Ответ: можно воспользоваться функцией help () перед названием функции можно напечатать знак вопроса; Какая функция dplyr служит для вертикального объединения таблиц? Ответ: left_join () Как в R обозначаются пропущенные значения? Ответ: NA Какие циклы доступны в базовом синтаксисе языка R? Ответ: For While Как назвается в R тип данных «числа с плавающей точкой»? Ответ: numeric Как назвается в R тип данных «целые числа»? Ответ: integer Установите соответствие между способами обучения нейронной сети и их характеристиками: Ответ: Обучение без учителя — Модель использует неразмеченные данные, из которых алгоритм самостоятельно пытается извлечь признаки и зависимости Обучение с учителем — Нейронная сеть обучается на размеченном наборе данных и предсказывает ответы, которые используются для оценки точности алгоритма на обучающих данных Обучение с подкреплением — Система обучается в процессе взаимодействия с окружающей средой, а не на исторических данных Установите соответствие между наиболее распространенными подходами обработки данных и их характеристиками: Ответ: SQL — Язык структурированных запросов, позволяющий работать с базами данных. С его помощью можно создавать и модифицировать данные, а управлением массива данных занимается соответствующая система управления базами данных (СУБД) MapReduce — Модель распределения вычислений. Используется для параллельных вычислений над очень большими наборами данных (петабайты и более). В программном интерфейсе не данные передаются на обработку программе, а программа — данным. Таким образом, запрос представляет собой отдельную программу. Принцип работы заключается в последовательной обработке данных двумя методами SAP HANA — Высокопроизводительная платформа для хранения и обработки данных. Обеспечивает высокую скорость обработки запросов. Еще одним отличительным признаком является то, что эта платформа упрощает системный ландшафт, уменьшая затраты на поддержку аналитических систем