Hadoop 3 — мажорная версия фреймворка для разработки и выполнения распределенных программ. Hadoop 3 вышел в 2017 году, а недавно он стал доступен на облачной платформе Mail.ru Cloud Solutions в виде PaaS-решения на базе дистрибутива Arenadata. Для пользователей облачного Hadoop версий 1 и 2 расскажем о новых возможностях третьей и почему стоит перейти на нее. Erasure Coding: уменьшение избыточности хранения В Hadoop 2 для обеспечения отказоустойчивости используется репликация. Это значит, что все данные хранятся в избыточном состоянии. По умолчанию коэффициент репликации равен трем, то есть все данные хранятся в трех репликах: основные данные плюс две копии. Например, файл весом 1 Гбайт хранится в четырех блоках по 256 Мбайт. Для каждого из этих блоков создается по две дополнительные копии, в результате все это занимает 3 Гбайт. Избыточность хранения составляет 200%. Hadoop 3 использует другой подход — Erasure Coding. Это способ фрагментации данных, при котором создаются лишь несколько