Корреляция характеризует степень взаимосвязи между случайными количественными показателями
Наиболее простой характеристикой корреляции является парный линейный коэффициент корреляции
Пример 1.
Рассчитаем линейный парный коэффициент корреляции между некоторыми статистическими показателями по регионам Краснодарского края
Источник информации:
- результаты ЕГЭ по математике в 2020 году,
- численность населения в районах Краснодарского края.
Исходные статистические данные имеют вид
Скачать файл с исходными данными для анализа (файл MS Excel)
Для расчета линейного парного коэффициента корреляции в среде электронных таблиц будем использовать встроенную функцию
=КОРРЕЛ(диапазон1;диапазон2)
Введем переменные:
Х1 – Численность населения на 01.01.2020, чел
Х2 – Количество участников ЕГЭ по математике в 2020 году, чел
Х3 – Доля участников, получивших тестовый балл ниже минимального в 2020 году
Х4 – Доля участников, получивших тестовый балл от минимального до 60 баллов в 2020 году
Х5 – Доля участников, получивших тестовый балл от 61 до 80 баллов в 2020 году
Х6 – Доля участников, получивших тестовый балл от 81 до 99 баллов в 2020 году
Х7 – Оценка среднего балла ЕГЭ по математике в 2020 году
Х8 – Количество участников ЕГЭ по информатике в 2020 году
Х9 – Количество участников ЕГЭ по физике в 2020 году
Рассчитаем линейный парный коэффициент корреляции между переменными Х1 и Х2, Х2 и Х7 и сделаем выводы
Выводы:
1. Линейный парный коэффициент корреляция между Х1 и Х2 равен 0,97. Т.к. это больше 0,7, то связь между переменными Х1 и Х2 прямая и сильная. Другими словами, чем больше численность населения в районе Краснодарского край, тем больше сдающих ЕГЭ по математике.
2. Линейный парный коэффициент корреляция между Х2 и Х7 равен 0,2. Т.к. это меньше 0,2, но больше 0, то связь между переменными Х2 и Х7 слабая. Другими словами, количество участников ЕГЭ по математике в 2020 году не влияет на оценку среднего балла ЕГЭ по математике в 2020 году
Рассчитать линейный парный коэффициент корреляции между переменными Х2 и Х8, Х2 и Х9, Х7 и Х9 и сделать выводы
Скачать файл с исходными данными для анализа (файл MS Excel)
Пример отчета по выполнению задания 1
Регрессия – зависимость среднего значения случайной величины (результативная переменная) от значений других случайных величин (факторов)
Пример 2.
Построить модель линейной парной регрессии для показателей, характеризующих результаты сдачи ЕГЭ по математике в школе
Рассмотрим количественные показатели:
Y – Результаты ЕГЭ по математике в 2020 году, итоговые баллы
Х1 – Результаты пробного экзамена по математике осенью 2019 года, итоговые баллы
Х2 – Среднее количество первичных баллов, набранных школьниками при решении нескольких тренировочных вариантов в течение 2019-2020 учебного года
Скачать файл с исходными данными для анализа (файл MS Excel, смоделированные данные)
Исходные статистические данные имеют вид
Построим модель линейной парной регрессии для результативной переменной Y и для фактора Х1
Для получения уравнения регрессии воспользуемся самым простым инструментом электронных таблиц – точечной диаграммой
Скопируем исходные данные на новый лист книги так, чтобы Х1 была первым столбцом, а Y – вторым столбцом
Выделим диапазон ячеек А1:В51 и в меню вставка выберем инструмент «Точечная диаграмма»
Получаем диаграмму
Правой кнопкой мыши щелкаем по какой-нибудь точке на диаграмме и в появившемся контекстном меню выбираем пункт «Добавить линию тренда»
В появившемся окне диалога выбираем пункт «Линейная» и ставим флажки
- «Показывать уравнение на диаграмме»
- «Поместить на диаграмму величину достоверности аппроксимации (R^2)»
Нажимаем кнопку «закрыть» и получаем результат:
Выводы:
1. Коэффициент регрессии b=0,833, значит при увеличении переменной Х1 (балла, полученного на пробнике) результативная переменная Y (результат прогнозируемый результат ЕГЭ по математике) увеличивается в среднем на 0,833 балла
2. Коэффициент (R^2) говорит о том, что 93,86% изменчивости результативной переменной (результат школьника ЕГЭ по математике в 2020 году, итоговые баллы) объясняется изменчивостью фактора Х1 (результат школьника на пробном экзамене по математике осенью 2019 года, итоговые баллы), а остальные 6,14% объясняются другими, не учтенными в модели факторами.
Построить модель линейной парной регрессии для результативной переменной Yи для фактора Х2 и сделать выводы
Y – Результаты ЕГЭ по математике в 2020 году, итоговые баллы
Х2 – Среднее количество первичных баллов, набранных школьниками при решении нескольких тренировочных вариантов в течение 2019-2020 учебного года
Скачать файл с исходными данными для анализа (файл MS Excel, смоделированные данные)
Пример отчета по выполнению задания 2
Скачать весь текст описания и задания в формате pdf