Найти в Дзене
Дмитрий Деркач

Парная линейная корреляция и регрессия. Примеры и задание

Примеры расчетов и задания для вычисления корреляции и построения уравнения линейной парной регрессии в среде электронных таблиц при анализе количественных показателей, характеризующих результаты ЕГЭ
Оглавление

Корреляция характеризует степень взаимосвязи между случайными количественными показателями

Наиболее простой характеристикой корреляции является парный линейный коэффициент корреляции

-2

Пример 1.

Рассчитаем линейный парный коэффициент корреляции между некоторыми статистическими показателями по регионам Краснодарского края

Источник информации:
-
результаты ЕГЭ по математике в 2020 году,
-
численность населения в районах Краснодарского края.

Исходные статистические данные имеют вид

-3

Скачать файл с исходными данными для анализа (файл MS Excel)

Для расчета линейного парного коэффициента корреляции в среде электронных таблиц будем использовать встроенную функцию
=КОРРЕЛ(диапазон1;диапазон2)

Введем переменные:
Х1 – Численность населения на 01.01.2020, чел
Х2 – Количество участников ЕГЭ по математике в 2020 году, чел
Х3 – Доля участников, получивших тестовый балл ниже минимального в 2020 году
Х4 – Доля участников, получивших тестовый балл от минимального до 60 баллов в 2020 году
Х5 – Доля участников, получивших тестовый балл от 61 до 80 баллов в 2020 году
Х6 – Доля участников, получивших тестовый балл от 81 до 99 баллов в 2020 году
Х7 – Оценка среднего балла ЕГЭ по математике в 2020 году
Х8 – Количество участников ЕГЭ по информатике в 2020 году
Х9 – Количество участников ЕГЭ по физике в 2020 году

-4

Рассчитаем линейный парный коэффициент корреляции между переменными Х1 и Х2, Х2 и Х7 и сделаем выводы

Результаты вычисления корреляции между переменными
Результаты вычисления корреляции между переменными
Расчет корреляции между переменными в режиме отображения формул
Расчет корреляции между переменными в режиме отображения формул

Выводы:

1. Линейный парный коэффициент корреляция между Х1 и Х2 равен 0,97. Т.к. это больше 0,7, то связь между переменными Х1 и Х2 прямая и сильная. Другими словами, чем больше численность населения в районе Краснодарского край, тем больше сдающих ЕГЭ по математике.

2. Линейный парный коэффициент корреляция между Х2 и Х7 равен 0,2. Т.к. это меньше 0,2, но больше 0, то связь между переменными Х2 и Х7 слабая. Другими словами, количество участников ЕГЭ по математике в 2020 году не влияет на оценку среднего балла ЕГЭ по математике в 2020 году

-7

Рассчитать линейный парный коэффициент корреляции между переменными Х2 и Х8, Х2 и Х9, Х7 и Х9 и сделать выводы

Скачать файл с исходными данными для анализа (файл MS Excel)

Пример отчета по выполнению задания 1

-8

Регрессия – зависимость среднего значения случайной величины (результативная переменная) от значений других случайных величин (факторов)

-9

Пример 2.

Построить модель линейной парной регрессии для показателей, характеризующих результаты сдачи ЕГЭ по математике в школе

Рассмотрим количественные показатели:
Y – Результаты ЕГЭ по математике в 2020 году, итоговые баллы
Х1 – Результаты пробного экзамена по математике осенью 2019 года, итоговые баллы
Х2 – Среднее количество первичных баллов, набранных школьниками при решении нескольких тренировочных вариантов в течение 2019-2020 учебного года

Скачать файл с исходными данными для анализа (файл MS Excel, смоделированные данные)

Исходные статистические данные имеют вид

-10

Построим модель линейной парной регрессии для результативной переменной Y и для фактора Х1

Для получения уравнения регрессии воспользуемся самым простым инструментом электронных таблиц – точечной диаграммой

Скопируем исходные данные на новый лист книги так, чтобы Х1 была первым столбцом, а Y – вторым столбцом

-11

Выделим диапазон ячеек А1:В51 и в меню вставка выберем инструмент «Точечная диаграмма»

-12

Получаем диаграмму

-13

Правой кнопкой мыши щелкаем по какой-нибудь точке на диаграмме и в появившемся контекстном меню выбираем пункт «Добавить линию тренда»

-14

В появившемся окне диалога выбираем пункт «Линейная» и ставим флажки
- «Показывать уравнение на диаграмме»
- «Поместить на диаграмму величину достоверности аппроксимации (R^2)»

-15

Нажимаем кнопку «закрыть» и получаем результат:

-16
-17

Выводы:

1. Коэффициент регрессии b=0,833, значит при увеличении переменной Х1 (балла, полученного на пробнике) результативная переменная Y (результат прогнозируемый результат ЕГЭ по математике) увеличивается в среднем на 0,833 балла

2. Коэффициент (R^2) говорит о том, что 93,86% изменчивости результативной переменной (результат школьника ЕГЭ по математике в 2020 году, итоговые баллы) объясняется изменчивостью фактора Х1 (результат школьника на пробном экзамене по математике осенью 2019 года, итоговые баллы), а остальные 6,14% объясняются другими, не учтенными в модели факторами.

-18

Построить модель линейной парной регрессии для результативной переменной Yи для фактора Х2 и сделать выводы
Y – Результаты ЕГЭ по математике в 2020 году, итоговые баллы
Х2 – Среднее количество первичных баллов, набранных школьниками при решении нескольких тренировочных вариантов в течение 2019-2020 учебного года

Скачать файл с исходными данными для анализа (файл MS Excel, смоделированные данные)

Пример отчета по выполнению задания 2

Скачать весь текст описания и задания в формате pdf