Статья подготовлена для студентов курсов «Математика для Data Science» в образовательном проекте OTUS. Это известный алгоритм, который позволяет оценить эффект входной информации на наблюдаемый выходной параметр. Пространство переменных X и Y разбивается на ячейки. Количество заполненных ячеек будет использоваться для оценки вероятностного распределения входных параметров. Согласно теории информационных технологий и систем, для оценки степени предсказуемости случайной величины используется её энтропия. Энтропия рассчитывается как среднее значение логарифмов. В алгоритме Box-counting энтропия приближенно оценивается по набору чисел заполнения ячеек, на которые разбивается интервал её возможных значений: Чем больше энтропия переменной, тем менее предсказуемо её значение. Если значения примеров находятся в одной ячейке, то их энтропия равна 0. Предсказуемость случайного вектора У, обеспечиваемое знанием другой случайной величины Х, характеризуется кросс-энтропией: Кросс-энтропия рав