Понятие корреляции является одним из основных понятий теории вероятностей и математической статистики, оно было введено Гальтоном и Пирсоном.
Закон природы или общественного развития может быть представлен описанием совокупности взаимосвязей. Если эти зависимости стохастичны, а анализ осуществляется по выборке из генеральной совокупности, то данная область исследования относится к задачам стохастического исследования зависимостей, которые включают в себя корреляционный, регрессионный, дисперсионный и ковариационный анализы. В данном разделе рассмотрена теснота статистической связи между анализируемыми переменными, т.е. задачи корреляционного анализа.
В качестве измерителей степени тесноты парных связей между количественными переменными используются коэффициент корреляции (или то же самое "коэффициент корреляции Пирсона") и корреляционное отношение.
Пусть при проведении некоторого опыта наблюдаются две случайные величины и
, причем одно и то же значение
встречается
раз,
раз,
одна и та же пара чисел (
наблюдается
раз. Все данные записываются
в виде таблицы, которую называют корреляционной.
Выборочная ковариация величин
и
определяется формулой
где
, а
,
- выборочные средние величин
и
. При небольшом количестве экспериментальных данных
удобно находить
как полный вес ковариационного графа:
Выборочный коэффициент корреляции находится по формуле
где
- выборочные средние
квадратические отклонения величин
и
.
Выборочный коэффициент корреляции показывает тесноту линейной связи между
и
: чем ближе
к единице, тем сильнее линейная связь
между
и
.
Пример 171. Среднемесячная заработная плата (тыс. руб.) в Ярославской области в 2001-2002 годах составила по отраслям:
отрасль | ЖКХ | здравоохранение | наука | образование | транспорт | промышленность |
2001 год | 2 | 1,5 | 2,7 | 1,3 | 3,2 | 3,2 |
2002 год | 3 | 2,8 | 3,6 | 2,4 | 4,9 | 4,5 |
Найдите выборочный коэффициент корреляции для заработной платы в указанные годы.
Решение. 1). Найдем выборочные средние
2). Вычислим выборочную ковариацию
3). Найдем выборочные средние квадратические отклонения:
4). Вычислим теперь выборочный коэффициент корреляции
Поскольку достаточно близко к
, то между заработной платой по отраслям в
2001 и 2002 годах существовала почти линейная зависимость (зарплата в 2002
году по каждой отрасли увеличилась примерно в 1,5 раза).
Пример 172. В выпускном классе проводились контрольные работы по физике и математике, которые дали следующие результаты:
Оценки по математике | 2 | 3 | 4 | 5 |
Оценки по
физике |
||||
2
3 4 5 |
1
1 - - |
2
4 1 1 |
1
2 3 3 |
-
- 4 2 |
Найдите выборочный коэффициент корреляции оценок контрольных работ по физике и математике.
Решение. В этом случае удобно начать с построения ковариационного графа, вычислив предварительно выборочные средние.
Выборочную ковариацию находим как вес всего ковариационного графа:
По графу можно вычислить и выборочные дисперсии
Следовательно,
и можно утверждать, что
между оценками тех контрольных работ по физике и математике существует
средней тесноты линейная прямая связь.
Корреляционной зависимостью от
называют функциональную
зависимость условной средней
от
.
представляет уравнение регрессии
на
, а
- уравнение регрессии
на
.
Корреляционная зависимость может быть линейной и криволинейной. В случае
линейной корреляционной зависимости выборочное уравнение прямой линии
регрессии на
имеет вид:
Параметры и
уравнения прямой
линии регрессии
на
можно
находить по методу наименьших квадратов из системы уравнений
Пример 173. Построить прямую регрессии мировых рекордов по прыжкам с шестом от соответствующего года, если нам известна динамика результатов в ХХ веке.
1912 г.
1936 г. 1972 г. 1980 г. 1988 г. 1994 г. |
Стокгольм,
Берлин, Мюнхен, Москва, Сеул, Сетриере |
Гарри Бебкок (США)
Эрл Мидоуз (США) Волфганг Нордвик (ГДР) Владислав Казакевич (Польша) Сергей Бубка (СССР) Сергей Бубка (Украина) |
3,95
4,35 5,50 5,78 5,90 6,14 |
Решение. 1). Запишем в таблицу соответствие результатов некоторых мировых рекордов по прыжкам с шестом и годы их установления в ХХ веке.
![]() |
(19)12 | 36 | 72 | 80 | 88 | 94 |
![]() |
395 | 435 | 550 | 578 | 590 | 614 |
2).
(см.)
3).
4).
5). Искомое уравнение прямой регрессии выглядит следующим образом
или
По полученной прямой регрессии можно на вероятностном языке предсказывать
уровень мировых рекордов по прыжкам с шестом, так, в 2010 году
( = 110) получаем ожидаемый прыжок на высоту примерно в 6 м 53 см. (поживем
- увидим!)
В том случае, когда исследуется связь между несколькими признаками, то корреляцию называют множественной и она задается всеми коэффициентами парных корреляций, которые записываются в корреляционную матрицу.
Пример 174. Найти корреляционную матрицу зависимости суммы двоеборья, результатов в толчке и рывке, веса спортсмена и его возраста для пяти весовых категорий тяжелоатлетов.
№
категории |
![]() Двоеборье |
![]() Рывок |
![]() Толчок |
![]() Вес атлета |
![]() Возраст |
1 | 400 | 180 | 220 | 80 | 24 |
2 | 420 | 195 | 225 | 90 | 27 |
3 | 440 | 200 | 240 | 100 | 21 |
4 | 435 | 195 | 240 | 110 | 26 |
5 | 465 | 205 | 260 | 130 | 22 |
Решение. 1).
2). Составим таблицу разностей
и их квадратов
№
категории |
![]() |
![]() |
![]() |
![]() |
![]() |
1 | -32 / 1024 | -15 / 225 | -17 / 289 | -22 / 484 | 0 / 0 |
2 | -12 / 144 | 0 / 0 | -12 / 144 | -12 / 144 | 3 / 9 |
3 | 8 / 64 | 5 / 25 | 3 / 9 | -2 / 4 | -3 / 9 |
4 | 3 / 9 | 0 / 0 | 3 / 9 | 8 / 64 | 2 / 4 |
5 | 33 / 1089 | 10 / 100 | 23 / 529 | 28 / 784 | -2 / 4 |
3). Найдем ковариации
.
,
,
.
4). Вычислим дисперсии и по ним - средние квадратические отклонения
5). Найдем выборочные коэффициенты парной корреляции
;
;
.
6). Запишем полученные результаты в виде корреляционной матрицы
, учитывая, что
, a
:
Определите, какие показатели имеют наибольшую (наименьшую) прямую связь.
Для оценки тесноты нелинейной корреляционной связи вводят
выборочные корреляционные отношения. Выборочным корреляционным
отношением к
называют отношение межгруппового среднего квадратического
отклонения к общему среднему квадратическому отклонению признака
:
, или в других обозначениях
и если , то признак
c признаком
корреляционной зависимостью не связан,
а если
, то признак
связан c признаком
функциональной зависимостью.
Пример 175. Найти выборочное корреляционное отношение между себестоимостью зерна и урожайностью зерновых по данным 80 хозяйств области.
Урожайность зерновых,
ц/га Х |
Себестоимость 1 ц зерна, руб.
Y |
Число
хозяйств |
Средняя себестоимость 1 ц зерна по группам
|
|||
до 200
|
200-240
|
240-280
|
свыше 280
|
|||
до 15 | - | - | - | 2 | 2 | 300 |
15 - 17 | - | 1 | 2 | 3 | 6 | 273,3 |
17 - 19 | - | - | 7 | 1 | 8 | 265 |
19 - 21 | - | 8 | 8 | - | 16 | 240 |
21 - 23 | 2 | 20 | 12 | - | 34 | 231,8 |
23 - 25 | 1 | 8 | 1 | - | 10 | 220 |
свыше 25 | 3 | 1 | - | - | 4 | 190 |
Число хоз-в | 6 | 38 | 30 | 6 | 80 |
![]() |
Решение. 1). Найдем выборочную среднюю себестоимости:
2). Найдем общее среднее квадратическое отклонение:
. Найдем межгрупповое среднее квадратическое
отклонение:
4). Вычислим теперь искомое корреляционное отношение:
Полученное значение = 0,7 характеризует тесноту связи выше средней.
Вопросы для самоконтроля
Задачи
I 341. Итоги аттестации педагогических работников Ярославской области на квалификационные категории за 1998 - 2002 годы представлены в таблице:
Годы | 1998 | 1999 | 2000 | 2001 | 2002 |
ВК | 433 | 494 | 638 | 634 | 1287 |
![]() |
1371 | 1512 | 2166 | 2170 | 3004 |
Найдите выборочный коэффициент корреляции между первой и высшей категориями.
342. О ходе уборки зерновых в 20 хозяйствах области, отобранных случайным
образом, представлены следующие данные ( - скошено тыс. га,
- обмолочено
тыс. га):
![]() |
4 | 3.5 | 3.5 | 3.5 | 3.5 | 3 | 3.5 | 3.5 | 4 | 4 | 3 | 3 | 3 | 4 | 4 | 3.5 | 3 | 4 | 3 | 4 |
![]() |
3 | 2.5 | 2 | 2.5 | 2 | 2.5 | 3 | 2 | 3 | 2.5 | 2 | 2.5 | 2 | 2.5 | 3 | 3 | 2.5 | 3 | 2 | 2.5 |
Сгруппируйте данные в корреляционную таблицу. Постройте ковариационный граф и найдите ковариацию.
343. Найдите уравнение прямой линии регрессии на
по данным
наблюдений:
![]()
|
2 | 4 |
1 | 8 | 2 |
3 | 4 | 6 |
344. Известна реальная начисленная среднемесячная заработная плата по кварталам 2002 г., в % к предыдущему периоду:
Квартал | 1 | 2 | 3 | 4 |
% | 86 | 97 | 105 | 102 |
Найдите уравнение регрессии методом наименьших квадратов.
345. Средняя стоимость (в тыс. руб.) жилых домов по городу
Ярославлю за последние шесть лет составила:
Годы | 1 | 2 | 3 | 4 | 5 | 6 |
Стоимость | 5,6 | 6 | 6,5 | 11,7 | 12,4 | 16 |
Выразите эти данные по прямой методом наименьших квадратов.
346. Найдите прямую регрессии цены на золото на мировом рынке за последние десять лет по данным World Gold Conneil.
Год | 1993 | 1995 | 1997 | 1999 | 2001 | 2003 |
цена на золото
($ за 1 унцию) |
360 | 395 | 315 | 290 | 260 | 305 |
II 347. Найдите степень тесноты множественной статистической связи
между стоимостью квартир ( в тыс. руб.), площадью (
в м
и их
удаленностью от областного центра (
в км) по приведенным результатам
исследования.
![]() |
560 | 700 | 290 | 690 | 250 | 600 | 690 |
![]() |
44 | 69 | 27 | 78 | 30 | 48 | 54 |
![]() |
74 | 47 | 92 | 48 | 93 | 72 | 71 |
348. Количество дошкольных учреждений системы образования Ярославской области за последние пять лет изменялось следующим образом:
Годы (![]() |
1 | 2 | 3 | 4 | 5 |
Кол-во (![]() |
480 | 520 | 520 | 480 | 490 |
Полагая, что и
связаны зависимостью
, найдите коэффициенты
и
методом
наименьших квадратов.
III 349. Найдите выборочные уравнения прямых линий регрессии на
на
по данным, приведенным в корреляционной таблице:
![]()
|
10 | 15 | 20 | 25 | 30 | ![]() |
2
12 22 32 42 |
2
- - - - |
3
4 - - - |
-
5 16 3 - |
-
- 2 6 1 |
-
- 4 2 2 |
5
9 22 11 3 |
![]() |
2 | 7 | 24 | 9 | 8 | ![]() |
350. Найдите выборочное уравнение регрессии
и выборочное
корреляционное отношение по данным, приведенным в корреляционной таблице:
![]()
|
0 | 4 | 5 | ![]() |
1 | 30 | 5 | 1 | 36 |
20 | - | 14 | - | 14 |
50 | - | 5 | 45 | 50 |
![]() |
30 | 24 | 46 | ![]() |