Далее: §37. Статистические гипотезы Вверх: Глава V. Математическая статистика Назад: §35. Выборочный коэффициент корреляции

§36. Ранговая корреляция

Пусть объекты генеральной совокупности обладают двумя качественными признаками и выборка объема $n$ содержит независимые объекты, которые будем располагать (ранжировать) в порядке ухудшения (или улучшения) качества. Для оценки степени связи признаков вводят коэффициенты ранговой корреляции Спирмена и Кендалла. Рассматривая ранги $х_{1}$, $х_{2}$, ..., $х_{n}$ как возможные значения случайной величины $Х$, а $y_{1}$, $y_{2}$, ... , $y_{n}$ - как возможные значения с.в. $Y$ , можно вычислить выборочный коэффициент корреляции.

Пример 176. Получить выборочный коэффициент ранговой корреляции Спирмена

$r_s^\ast = 1 - {\displaystyle 6\sum {d_i ^2} \over\displaystyle (n - 1) \cdot n \cdot (n + 1)},{\rm
г}{\rm д}{\rm е}d_{i}=x_{i} - y_{i}$.

Решение. Примем в качестве условных вариант отклонения $u_{i}=x_{i} - x^{\ast
}$, $v_{i}=y_{i} - y^{\ast }$ и вычислим выборочный коэффициент корреляции


\begin{displaymath}
r^\ast = {\displaystyle \sum {n_{uv} uv} - nu^\ast v^\ast \over\displaystyle n \cdot \sigma^\ast (u)
\cdot \sigma^\ast (v)}.
\end{displaymath}


\begin{displaymath}
u^\ast = {\displaystyle 1\over\displaystyle n}\sum {u_i } = ...
...style n} \cdot n \cdot x^\ast = x^\ast - x^\ast
= 0 = v^\ast .
\end{displaymath}

Тогда $r^\ast = {\displaystyle \sum {u_i v_i } \over\displaystyle n \cdot \sigma ^\ast (u) \cdot
\sigma ^\ast (v)}$ и надо найти $\sum {u_i \cdot v_i }$ и $\sigma ^\ast (u),\sigma ^\ast (v)$.

Найдем $\sigma\ast(u)$ и $\sigma^\ast(v)$.

Поскольку $х^\ast = {\displaystyle 1\over\displaystyle n}(1 + 2 + \ldots + n) = {\displays...
...ver\displaystyle n} \cdot
{\displaystyle n(n + 1)\over\displaystyle 2} = у^\ast$, то $y^{\ast} - x^{\ast} = 0$, и

$\begin{array}{l}
\sum {u_i ^2} = \sum {(x_i - x^\ast )^2} = \sum {x_i ^2} - 2x...
...\displaystyle n(n^2 - 1)\over\displaystyle 12} = \sum {v_i ^2} \\
\end{array}$ (использовали формулы конечных сумм из [15. С. 72-74]).

Тогда $D^\ast [u] = {\displaystyle 1\over\displaystyle n}\sum {(u_i - u^\ast )^2 = {\d...
...e n}\sum
{u_i ^2} } = {\displaystyle n^2 - 1\over\displaystyle 12} = D^\ast [v]$ и


\begin{displaymath}
\sigma ^\ast [u] = \sigma ^\ast [v] = \sqrt {{\displaystyle n^2 - 1\over\displaystyle 12}} .
\end{displaymath}

Выразим теперь $\sum {u_i \cdot v_i }$ через $n$ и $d_i = x_i - y_i = (x_i -
y_i ) + (y^\ast - x^\ast ) = (x_i - x^\ast ) - (y_i - y^\ast ) = u_i - v_i$.


\begin{displaymath}
\sum {d_i ^2} = \sum {(u_i - v_i )^2} = \sum {u_i ^2} - 2\su...
... n(n^2 - 1)\over\displaystyle 12} \cdot 2 - 2\sum {u_i v_i } .
\end{displaymath}

Отсюда $\sum {u_i v_i } = {\displaystyle n(n^2 - 1)\over\displaystyle 12} - {\displaystyle 1\over\displaystyle 2}\sum {d_i ^2}$ и


\begin{displaymath}
r_s^\ast = {\displaystyle \sum {u_i v_i } \over\displaystyle...
...um
{d_i ^2} \over\displaystyle (n - 1) \cdot n \cdot (n + 1)}.
\end{displaymath}

Покажем эффективность использования полученного коэффициента ранговой корреляции Спирмена на следующем примере.

Пример 177. Знания 10 студентов проверены по двум тестам, А и В. Оценки по стобалльной системе оказались следующими:

Тест А 95 90 87 84 75 70 61 60 58 55
Тест В 92 94 83 79 58 61 47 72 62 68

Найдите выборочный коэффициент ранговой корреляции Спирмена между оценками по двум тестам.

Решение. Запишем ранги студентов по тестам и квадраты их разностей:

ранг по тесту А 1 2 3 4 5 6 7 8 9 10
ранг по тесту В 2 1 3 4 9 8 10 5 7 6
$d_{i}^{2}$ 1 1 0 0 16 4 9 9 4 16

Тогда $\sum {d_i ^2} = 1 + 1 + 16 + 4 + 9 + 9 + 4 + 16 = 60$ и


\begin{displaymath}
r_s^\ast = 1 - {\displaystyle 6\sum {d_i ^2} \over\displayst...
...ver\displaystyle 11} = {\displaystyle 7\over\displaystyle 11}.
\end{displaymath}

В психолого-педагогических исследованиях достаточно часто используется ранговая корреляция Спирмена, поэтому приведем здесь алгоритм ее применения и пример из диссертационного исследования по психологии.

Алгоритм применения ранговой корреляции Спирмена для оценки степени связи признаков

Проранжировать значения первой переменной $А$, начисляя ранг 1 наименьшему значению, и записать ранги в первый столбец по порядку номеров испытуемых или по возрастанию ранга, при равных переменных им присваивается одинаковый среднеарифметический ранг.

Проранжировать значения второй переменной $В$ по тем же правилам и занести соответствующие ранги во второй столбец.

Подсчитать разности $d_j$ между рангами $А$и $В$ по каждой строке и занести их в третий столбец.

Квадраты $d_{j}^{2}$ занести в четвертый столбец и подсчитать их сумму $\sum d_{j}^{2}$.

При наличии одинаковых рангов рассчитать поправки:


\begin{displaymath}
\mathop T\nolimits_a = {\sum {\left( {a^3 - a} \right)} } \m...
... b} \right)} } {12}}} \right.
\kern-\nulldelimiterspace} {12},
\end{displaymath}

где $a, b$ - объем каждой группы одинаковых рангов в ранговых рядах $А$ и$В$.

Рассчитать коэффициент ранговой корреляции Спирмена $r_s^\ast $ по формуле:

а) $r_s^\ast = 1 - {\displaystyle 6\sum {d_i ^2} \over\displaystyle n \cdot (n^2 - 1)}$, при отсутствии одинаковых рангов;

б) при наличии одинаковых рангов


\begin{displaymath}
r_s^\ast = 1 - 6{\displaystyle \sum {d_i ^2} + Т_а + T_b \over\displaystyle n \cdot (n^2 - 1)},
\end{displaymath}

где $n$ - количество испытуемых, участвовавших в ранжировании.

7. Определить по таблице критические значения $r_{Sкр} $ для данного $n$. Если $r_S \ge r_{Sкр} $, то корреляция достоверно отличается от 0 (этот пункт будет рассмотрен в следующем параграфе).

Пример 178. Найти коэффициент ранговой корреляции Спирмена по связи эмоционального состояния и зрительной памяти после иппотерапии по результатам исследования.

Количество выборов, соответствующее положительному эмоциональному состоянию Зрительная память $d$ $d^{2}$
баллы ранг баллы ранг    
3 19.5 6 22 -2,5 6,25
3 19,5 5 14 5,5 30,25
2 10,5 5 14 -3,5 12,25
1 3,5 3 3 0,5 0,25
3 19,5 5 14 5,5 30,25
2 10,5 5 14 -3,5 12,25
1 3,5 4 7 -3,5 12,25
1 3,5 3 3 0,5 0,25
3 19,5 6 22 -2,5 6,25
2 10,5 3 3 7,5 56,25
3 19,5 5 14 5,5 30,25
2 10,5 5 14 -3,5 12,25
3 19,5 6 22 -2,5 6,25
2 10,5 6 22 11,5 132,25
3 19,5 5 14 5,5 30,25
3 19,5 6 22 -2,5 6,25
2 10,5 5 14 -3,5 12,25
3 19,5 4 7 12,5 156,25
2 10,5 5 14 -3,5 12,25
1 3,5 4 7 -3,5 12,25
1 3,5 3 3 0,5 0,25
1 3,5 3 3 0,5 0,25
2 10,5 5 14 -3,5 12,25
3 19,5 5 14 5,5 30,25
  $\Sigma \quad = $ 620
  r = 0,611


\begin{displaymath}
T_a = {\displaystyle 6^{\rm 3} - 6\over\displaystyle 12} + {...
...ystyle 2} + 42 + {\displaystyle 165\over\displaystyle 2} = 142
\end{displaymath}


\begin{displaymath}
Т_b = {\displaystyle 5^{\rm 3} - 5\over\displaystyle 12} + {...
...ystyle 5^3 - 5\over\displaystyle 12} = 10 + 2 + 110 + 10 = 132
\end{displaymath}


\begin{displaymath}
r_s^\ast = 1 - 6 \cdot {\displaystyle 620 + 142 + 132\over\displaystyle 24(24^2 - 1)} = 1 - 0,389 =
0,611.
\end{displaymath}


\begin{displaymath}
r_{s_{кр}} = \left\{ {\begin{array}{l}
0,41(р \le 0,05) \\
0,52(р \le 0,01) \\
\end{array}} \right.
\end{displaymath}

при $n = 24$

$r_{s_{эмп}} = 0,611 > 0,52 = r_{s_{кр}}(0,01) = > Н \quad _{0}$ - отвергается.

Связь между двумя качественными признаками можно оценить, используя выборочный коэффициент ранговой корреляции Кендалла:

$r_k^\ast = {\displaystyle 4R\over\displaystyle n \cdot (n - 1)} - 1,{\rm г}{\rm д}{\rm е}R = R_{1} +
R_{2} + \ldots + R_{n - 1}$ и $R_{i}$ - число рангов $y_{i + 1}$, ..., $y_{n}$, больших $y_{i}$.

Пример 179. Определите степень связи итогов чемпионата России по футболу в премьер-лиге и результаты первого круга 2002 года.

Команда Локо ЦСКА Спартак Торпедо Кр. Сов. Сатурн Шинник Динамо Ротор Зенит
Итог 2002 1 2 3 4 5 6 7 8 9 10
$I$ круг 1 2 3 10 6 4 8 7 5 9

Решение. Определим степень связи по выборочному коэффициенту ранговой корреляции Кендалла.

$R_{1}$ = 9, $R_{2}$ = 8, $R_{3}$ = 7, $R_{4}$ = 0, $R_{5}$ = 3, $R_{6}$ = 4, $R_{7}$ = 1, $R_{8}$ = 1, $R_{9}$ = 1, тогда $R = \sum R_{i} = 34$, $n = 10$, a


\begin{displaymath}
r_k^\ast = {\displaystyle 4R\over\displaystyle n(n - 1)} - 1...
...9} - 1 =
{\displaystyle 23\over\displaystyle 45} \approx 0,51,
\end{displaymath}

и между итогом чемпионата и результатом первого круга существует прямая средней тесноты связь.

Если статистическая информация о многомерном признаке представлена в порядковой шкале, то измерение парных связей осуществляется через коэффициенты ранговой корреляции Кендалла или Спирмена.

Пример 180. Три арбитра оценили мастерство 10 фигуристов, в итоге были получены три последовательности рангов:

Ранг арбитра А 1 2 3 4 5 6 7 8 9 10
Ранг арбитра В 3 10 6 2 8 5 7 9 1 4
Ранг арбитра С 6 3 1 2 9 4 5 7 10 8

Найдите матрицу ранговой корреляции Спирмена и пару арбитров, оценки которых наиболее согласуются.

Решение. Найдем $r_{12}$, вычислив сумму квадратов разностей $\sum\limits_{1,2} {d_i^2}$ рангов арбитров А и В.

$\sum\limits_{1,2} {d_i ^2} = 4 + 64 + 9 + 4 + 9 + 1 + 0 + 1 + 64 + 36 =
192 $ и $r_{12} = 1 - {\displaystyle 6 \cdot 192\over\displaystyle 9 \cdot 10 \cdot 11} \approx - 0,16$ аналогично находим, что $r_{13} = 1 - {\displaystyle 6 \cdot 64\over\displaystyle 9 \cdot 10 \cdot 11} \approx 0,61$ и $r_{23} = 1 - {\displaystyle 1 - 6 \cdot 190\over\displaystyle 9 \cdot 10 \cdot 11} \approx 0,15$, а искомая матрица ранговой корреляции Спирмена выглядит следующим образом


\begin{displaymath}
\mbox{\boldmath$(r_s)$} = \left[ {{\begin{array}{*{20}c}
1 ...
...ill \\
\hfill & \hfill & 1 \hfill \\
\end{array} }} \right]
\end{displaymath}

Поскольку коэффициент $r_{13} = 0,61$ является максимальным, то оценки арбитров А и С наиболее согласуются.

Вопросы для самоконтроля

  1. Для чего служат выборочные коэффициенты ранговой корреляции?
  2. Как получается выборочный коэффициент ранговой корреляции Спирмена?
  3. Каким образом можно вычислить $1^{2 }+ 2^{2 }+ \ldots + n^{2}$ ?
  4. В чем отличие коэффициента Кендалла от коэффициента Спирмена?
  5. Чему равны выборочные коэффициенты ранговой корреляции "полной прямой
  6. зависимости", "противоположной зависимости" признаков?
  7. В каком случае связь между качественными признаками небольшая?
  8. Что характеризует корреляционная матрица?
  9. Свойства корреляционной матрицы.

Задачи

I. 351. Специалисты двух заводов проранжировали 8 факторов, влияющих на ход технологического процесса. В итоге были получены две последовательности рангов:

1 2 3 4 5 6 7 8

1 2 4 3 8 7 5 6

Определите, согласуются ли мнения специалистов различных заводов, используя коэффициент ранговой корреляции Спирмена.

352. Получены рейтинги строительства жилья в регионах Центрального федерального округа в 2001 и 2002 годах:

Область

Московская Тверская Орловская Тульская Рязанская Владимирская Калужская Ярославская Костромская Ивановская
2001 г. 1 2 3 4 5 6 7 8 9 10
2002 г. 1 3 2 9 7 4 8 6 5 10

Найдите коэффициент ранговой корреляции Спирмена для строительства жилья в 2001 и 2002 годах по 10 регионам РФ.

353. Установить, как коррелируют результаты чемпионата России по хоккею в суперлиге по итогам двух кругов чемпионата 2001 и 2002 годов:

Команда Ак Барс Авангард Мет. М. Лада Сев. Ч. Неф. Локо. Мечел Амур Мет. Нк. ЦСКА Динамо
Место 2001 1 2 3 4 5 6 7 8 9 10 11 12
Место 2002 4 3 7 5 2 11 1 12 9 8 10 6

354. По данным статистического сборника "Социальная сфера регионов Центральной России", денежные доходы и потребительские расходы в расчете на душу населения в ноябре 2002 года составили:

Области Брянская Владимирская Ивановская Калужская Костромская Московская Орловская Рязанская Тверская Ярославская
Доходы (руб.) 2542 2256 1793 2633 2440 3631 2614 2726 2416 3630
Расходы (руб.) 1666 1259 1241 1693 1459 2788 1868 1673 1620 1902

Проранжируйте полученные данные и найдите коэффициент ранговой корреляции Кенделла для доходов и расходов на душу населения в областях Центрального федерального округа.

355. За пять лет ввод общей площади (в тыс. кв. м) жилых домов в области и в городе Ярославле характеризуются следующими данными:

Год 1997 1998 1999 2000 2001
Яр. область 222,6 231,7 221 130,6 162,3
г. Ярославль 118,6 119,7 113,3 66,5 89

Что можно сказать о степени зависимости ввода жилья в Ярославской области и в городе Ярославле?

356. Двенадцать цветных полос расположены в порядке убывания окраски от темной к светлой, и каждой полосе присвоен ранг - порядковый номер. При проверке способности различать оттенки цветов испытуемый расположил полосы в следующем порядке:

$y_{i}$: 6, 3, 4, 2, 1, 10, 7, 8, 9, 5, 11, 12.

Найти коэффициенты ранговой корреляции Спирмена и Кендалла между "правильными" рангами $x_{i}$ и рангами $y_{i}$, которые присвоены полосам испытуемым.

II. 357. Четыре преподавателя расположили 10 студентов по результатам текущей успеваемости по алгебре, аналитической геометрии, общей физике и истории отечества:

Ранг успев. по алгебре 1 2 3 4 5 6 7 8 9 10
Ранг успев. по анал. геом. 1 2 4 3 6 7 5 10 8 9
Ранг успев. по физике 3 5 1 4 2 9 7 6 10 8
Ранг успев. по истории 8 6 10 1 9 2 4 3 5 8

Найдите матрицу ранговой корреляции Кенделла и два предмета, оценки по которым наиболее согласуются.

358. Докажите, что если между качественными признаками А и В имеется "полная прямая зависимость" ("противоположная зависимость"), то выборочные коэффициенты ранговой корреляции Спирмена и Кендалла равны единице (минус единице).

III. 359. Найдите корреляционную матрицу для характеристики директорского и учительского корпуса Ярославской области по стажу педагогической работы.

  всего До 2 лет 2-5 лет 5-10 лет 10-20 лет свыше 20 лет пенсионеры
    Кол-во % Кол-во % Кол-во % Кол-во % Кол-во % Кол-во %
Дир. СШ 289 6 2,1 7 2,4 21 7,3 59 20,4 198 67,8 63 21,8
Зам. дир.

СШ

687 28 4,1 28 4,0 67 9,8 241 35,1 323 47,0 63 9,2
Учит.

гуманит. и ест.-мат циклов

6343 462 7,3 411 6,5 843 13,3 2039 32,1 2588 40,8 766 12.1
Учит.др. спец. 1984 135 6,8 119 6,0 299 15,0 684 34,5 747 37,7 141 7,1

360. Найдите корреляционные матрицы по производству продуктов животноводства (в тыс. тонн и в % к 2001 году) в хозяйствах 10 регионов РФ в 2002 году.

Области Скот и птица Молоко Яйца
  Тыс. тонн В % к 2001 г. рост Тыс. тонн В % к 2001 г. рост Тыс. тонн В % к 2001 г. рост
Орловская 56,7 108,6   279,6 98,9   202 92  
Московская 103,4 106,4   778,5 97,8   1238 88  
Ярославская 32,5 105,5   291 99,6   384 105,8  
Владимирская 42,7 105,3   283 100,3   333 107,3  
Калужская 40,5 103,3   238 93,8   171 124  
Тульская 51,0 102,8   282 99,8   401 100,6  
Рязанская 41,7 100,3   380 102,5   332 98,3  
Тверская

45,9 99,7   373 99,4   385 102  
Ивановская 27,6 99,6   194 97,7   204 103,7  
Костромская 30,4 97,5   195 101   365 112,1  

Какая из полученных корреляционных матриц лучше отражает связь при производстве продуктов животноводства в регионах РФ?


Далее: §37. Статистические гипотезы Вверх: Глава V. Математическая статистика Назад: §35. Выборочный коэффициент корреляции

ЯГПУ, Центр информационных технологий обучения
2006-03-04