Понятие корреляции является одним из основных понятий теории вероятностей и математической статистики, оно было введено Гальтоном и Пирсоном.
Закон природы или общественного развития может быть представлен описанием совокупности взаимосвязей. Если эти зависимости стохастичны, а анализ осуществляется по выборке из генеральной совокупности, то данная область исследования относится к задачам стохастического исследования зависимостей, которые включают в себя корреляционный, регрессионный, дисперсионный и ковариационный анализы. В данном разделе рассмотрена теснота статистической связи между анализируемыми переменными, т.е. задачи корреляционного анализа.
В качестве измерителей степени тесноты парных связей между количественными переменными используются коэффициент корреляции (или то же самое "коэффициент корреляции Пирсона") и корреляционное отношение.
Пусть при проведении некоторого опыта наблюдаются две случайные величины и , причем одно и то же значение встречается раз, раз, одна и та же пара чисел ( наблюдается раз. Все данные записываются в виде таблицы, которую называют корреляционной.
Выборочная ковариация величин и определяется формулой
где , а , - выборочные средние величин и . При небольшом количестве экспериментальных данных удобно находить как полный вес ковариационного графа:
Выборочный коэффициент корреляции находится по формуле
где - выборочные средние квадратические отклонения величин и .
Выборочный коэффициент корреляции показывает тесноту линейной связи между и : чем ближе к единице, тем сильнее линейная связь между и .
Пример 171. Среднемесячная заработная плата (тыс. руб.) в Ярославской области в 2001-2002 годах составила по отраслям:
отрасль | ЖКХ | здравоохранение | наука | образование | транспорт | промышленность |
2001 год | 2 | 1,5 | 2,7 | 1,3 | 3,2 | 3,2 |
2002 год | 3 | 2,8 | 3,6 | 2,4 | 4,9 | 4,5 |
Найдите выборочный коэффициент корреляции для заработной платы в указанные годы.
Решение. 1). Найдем выборочные средние
2). Вычислим выборочную ковариацию
3). Найдем выборочные средние квадратические отклонения:
4). Вычислим теперь выборочный коэффициент корреляции
Поскольку достаточно близко к , то между заработной платой по отраслям в 2001 и 2002 годах существовала почти линейная зависимость (зарплата в 2002 году по каждой отрасли увеличилась примерно в 1,5 раза).
Пример 172. В выпускном классе проводились контрольные работы по физике и математике, которые дали следующие результаты:
Оценки по математике | 2 | 3 | 4 | 5 |
Оценки по
физике |
||||
2
3 4 5 |
1
1 - - |
2
4 1 1 |
1
2 3 3 |
-
- 4 2 |
Найдите выборочный коэффициент корреляции оценок контрольных работ по физике и математике.
Решение. В этом случае удобно начать с построения ковариационного графа, вычислив предварительно выборочные средние.
Выборочную ковариацию находим как вес всего ковариационного графа:
По графу можно вычислить и выборочные дисперсии
Следовательно, и можно утверждать, что между оценками тех контрольных работ по физике и математике существует средней тесноты линейная прямая связь.
Корреляционной зависимостью от называют функциональную зависимость условной средней от .
представляет уравнение регрессии на , а - уравнение регрессии на .
Корреляционная зависимость может быть линейной и криволинейной. В случае линейной корреляционной зависимости выборочное уравнение прямой линии регрессии на имеет вид:
Параметры и уравнения прямой линии регрессии на можно находить по методу наименьших квадратов из системы уравнений
Пример 173. Построить прямую регрессии мировых рекордов по прыжкам с шестом от соответствующего года, если нам известна динамика результатов в ХХ веке.
1912 г.
1936 г. 1972 г. 1980 г. 1988 г. 1994 г. |
Стокгольм,
Берлин, Мюнхен, Москва, Сеул, Сетриере |
Гарри Бебкок (США)
Эрл Мидоуз (США) Волфганг Нордвик (ГДР) Владислав Казакевич (Польша) Сергей Бубка (СССР) Сергей Бубка (Украина) |
3,95
4,35 5,50 5,78 5,90 6,14 |
Решение. 1). Запишем в таблицу соответствие результатов некоторых мировых рекордов по прыжкам с шестом и годы их установления в ХХ веке.
= {год рекорда} | (19)12 | 36 | 72 | 80 | 88 | 94 |
= {высота рекорда} | 395 | 435 | 550 | 578 | 590 | 614 |
2). (см.)
3).
4).
5). Искомое уравнение прямой регрессии выглядит следующим образом
или
По полученной прямой регрессии можно на вероятностном языке предсказывать
уровень мировых рекордов по прыжкам с шестом, так, в 2010 году
( = 110) получаем ожидаемый прыжок на высоту примерно в 6 м 53 см. (поживем
- увидим!)
В том случае, когда исследуется связь между несколькими признаками, то корреляцию называют множественной и она задается всеми коэффициентами парных корреляций, которые записываются в корреляционную матрицу.
Пример 174. Найти корреляционную матрицу зависимости суммы двоеборья, результатов в толчке и рывке, веса спортсмена и его возраста для пяти весовых категорий тяжелоатлетов.
№
категории |
Двоеборье |
Рывок |
Толчок |
Вес атлета |
Возраст |
1 | 400 | 180 | 220 | 80 | 24 |
2 | 420 | 195 | 225 | 90 | 27 |
3 | 440 | 200 | 240 | 100 | 21 |
4 | 435 | 195 | 240 | 110 | 26 |
5 | 465 | 205 | 260 | 130 | 22 |
Решение. 1).
2). Составим таблицу разностей и их квадратов
№
категории |
|||||
1 | -32 / 1024 | -15 / 225 | -17 / 289 | -22 / 484 | 0 / 0 |
2 | -12 / 144 | 0 / 0 | -12 / 144 | -12 / 144 | 3 / 9 |
3 | 8 / 64 | 5 / 25 | 3 / 9 | -2 / 4 | -3 / 9 |
4 | 3 / 9 | 0 / 0 | 3 / 9 | 8 / 64 | 2 / 4 |
5 | 33 / 1089 | 10 / 100 | 23 / 529 | 28 / 784 | -2 / 4 |
3). Найдем ковариации .
,
,
.
4). Вычислим дисперсии и по ним - средние квадратические отклонения
5). Найдем выборочные коэффициенты парной корреляции
;
;
.
6). Запишем полученные результаты в виде корреляционной матрицы , учитывая, что , a :
Определите, какие показатели имеют наибольшую (наименьшую) прямую связь.
Для оценки тесноты нелинейной корреляционной связи вводят выборочные корреляционные отношения. Выборочным корреляционным отношением к называют отношение межгруппового среднего квадратического отклонения к общему среднему квадратическому отклонению признака :
, или в других обозначениях
и если , то признак c признаком корреляционной зависимостью не связан, а если , то признак связан c признаком функциональной зависимостью.
Пример 175. Найти выборочное корреляционное отношение между себестоимостью зерна и урожайностью зерновых по данным 80 хозяйств области.
Урожайность зерновых,
ц/га Х |
Себестоимость 1 ц зерна, руб.
Y |
Число
хозяйств |
Средняя себестоимость 1 ц зерна по группам
|
|||
до 200
|
200-240
|
240-280
|
свыше 280
|
|||
до 15 | - | - | - | 2 | 2 | 300 |
15 - 17 | - | 1 | 2 | 3 | 6 | 273,3 |
17 - 19 | - | - | 7 | 1 | 8 | 265 |
19 - 21 | - | 8 | 8 | - | 16 | 240 |
21 - 23 | 2 | 20 | 12 | - | 34 | 231,8 |
23 - 25 | 1 | 8 | 1 | - | 10 | 220 |
свыше 25 | 3 | 1 | - | - | 4 | 190 |
Число хоз-в | 6 | 38 | 30 | 6 | 80 |
Решение. 1). Найдем выборочную среднюю себестоимости:
2). Найдем общее среднее квадратическое отклонение:
. Найдем межгрупповое среднее квадратическое отклонение:
4). Вычислим теперь искомое корреляционное отношение:
Полученное значение = 0,7 характеризует тесноту связи выше средней.
Вопросы для самоконтроля
Задачи
I 341. Итоги аттестации педагогических работников Ярославской области на квалификационные категории за 1998 - 2002 годы представлены в таблице:
Годы | 1998 | 1999 | 2000 | 2001 | 2002 |
ВК | 433 | 494 | 638 | 634 | 1287 |
1371 | 1512 | 2166 | 2170 | 3004 |
Найдите выборочный коэффициент корреляции между первой и высшей категориями.
342. О ходе уборки зерновых в 20 хозяйствах области, отобранных случайным образом, представлены следующие данные ( - скошено тыс. га, - обмолочено тыс. га):
4 | 3.5 | 3.5 | 3.5 | 3.5 | 3 | 3.5 | 3.5 | 4 | 4 | 3 | 3 | 3 | 4 | 4 | 3.5 | 3 | 4 | 3 | 4 | |
3 | 2.5 | 2 | 2.5 | 2 | 2.5 | 3 | 2 | 3 | 2.5 | 2 | 2.5 | 2 | 2.5 | 3 | 3 | 2.5 | 3 | 2 | 2.5 |
Сгруппируйте данные в корреляционную таблицу. Постройте ковариационный граф и найдите ковариацию.
343. Найдите уравнение прямой линии регрессии на по данным наблюдений:
|
2 | 4 |
1 | 8 | 2 |
3 | 4 | 6 |
344. Известна реальная начисленная среднемесячная заработная плата по кварталам 2002 г., в % к предыдущему периоду:
Квартал | 1 | 2 | 3 | 4 |
% | 86 | 97 | 105 | 102 |
Найдите уравнение регрессии методом наименьших квадратов.
345. Средняя стоимость (в тыс. руб.) жилых домов по городу Ярославлю за последние шесть лет составила:
Годы | 1 | 2 | 3 | 4 | 5 | 6 |
Стоимость | 5,6 | 6 | 6,5 | 11,7 | 12,4 | 16 |
Выразите эти данные по прямой методом наименьших квадратов.
346. Найдите прямую регрессии цены на золото на мировом рынке за последние десять лет по данным World Gold Conneil.
Год | 1993 | 1995 | 1997 | 1999 | 2001 | 2003 |
цена на золото
($ за 1 унцию) |
360 | 395 | 315 | 290 | 260 | 305 |
II 347. Найдите степень тесноты множественной статистической связи между стоимостью квартир ( в тыс. руб.), площадью ( в м и их удаленностью от областного центра ( в км) по приведенным результатам исследования.
560 | 700 | 290 | 690 | 250 | 600 | 690 | |
44 | 69 | 27 | 78 | 30 | 48 | 54 | |
74 | 47 | 92 | 48 | 93 | 72 | 71 |
348. Количество дошкольных учреждений системы образования Ярославской области за последние пять лет изменялось следующим образом:
Годы ( | 1 | 2 | 3 | 4 | 5 |
Кол-во ( дошк. учрежд. | 480 | 520 | 520 | 480 | 490 |
Полагая, что и связаны зависимостью , найдите коэффициенты и методом наименьших квадратов.
III 349. Найдите выборочные уравнения прямых линий регрессии на на по данным, приведенным в корреляционной таблице:
|
10 | 15 | 20 | 25 | 30 | |
2
12 22 32 42 |
2
- - - - |
3
4 - - - |
-
5 16 3 - |
-
- 2 6 1 |
-
- 4 2 2 |
5
9 22 11 3 |
2 | 7 | 24 | 9 | 8 |
350. Найдите выборочное уравнение регрессии и выборочное корреляционное отношение по данным, приведенным в корреляционной таблице:
|
0 | 4 | 5 | |
1 | 30 | 5 | 1 | 36 |
20 | - | 14 | - | 14 |
50 | - | 5 | 45 | 50 |
30 | 24 | 46 |