MapReduce — модель распределённых вычислений, представленная компанией Google. Используется для параллельных вычислений над большими (до нескольких петабайт) наборами данных в компьютерных кластерах. Авторы модели — сотрудники Google Джеффри Дин и Санджай Гемават. Принцип работы Суть MapReduce — разделение информационного массива на части, параллельная обработка каждой части на отдельном узле и финальное объединение всех результатов. Преимущество модели — возможность распределённо выполнять операции предварительной обработки и свёртки. Операции предварительной обработки работают независимо друг от друга и могут производиться параллельно (хотя на практике это ограничено источником входных данных и/или количеством используемых процессоров). Этапы Работа MapReduce состоит из двух шагов: Пример: задача — подсчитать количество вхождений каждого слова в текстовом файле. Функция Map считывает файл построчно, разбивает каждую строку на слова и создаёт пары «ключ-значение», где ключ — это слов