В математической статистике исследуются утверждения, которые могут быть сделаны на основе измерения некоторой величины, на простейшем примере поясним постановку (одной из многих) задач математической статистики.
Пусть требуется измерить некоторую величину . Результаты измерений
естественно рассматривать как значения случайных величин , полученных в данном эксперименте. Если измерительный инструмент не имеет систематической ошибки, то можно положить . Следовательно, возникает задача оценить параметр . Для решения задачи рассмотрим случайную величину
Тогда
Это обстоятельство приводит к мысли построить статистические характеристики:
Первая представляет среднее арифметическое наблюденных значений случайной величины и статистическую дисперсию - во втором случае. В соответствии с законом больших чисел эти среднеарифметические сходятся по вероятности соответственно к математическому ожиданию величины и к дисперсии
При ограниченности наблюдений эксперимента заменой и на и совершаем погрешность, а при небольшом числе наблюдений величины , являются случайными величинами. Возникает задача об оценке неизвестных параметров , случайной величины на основе экспериментальных данных, т.е. задача - найти подходящие значения этих параметров.
Множество результатов измерений величины называется выборкой объема . Для того, чтобы иметь возможность воспользоваться аппаратом теории вероятностей, целесообразно наблюдаемую величину рассматривать как случайную величину, функцию распределения которой
следует определить.
Полученный статистический материал , , ... наблюдений представляет собой первичные данные о величине, подлежащей статистической обработке. Обычно такие статистические данные оформляются в виде таблицы, графика, гистограммы и т.д.
Если выборка объема содержит различных элементов , причем встречается раз, то число называется частотой элемента , а отношение называется относительной частотой элемента . Очевидно, что
Вариационным (статистическим) рядом называется таблица, первая строка которой содержит в порядке возрастания элементы ', а вторая - их частоты (относительные частоты .
Полигоном частот (относительных частот) выборки называется ломаная с вершинами в точках (, ( (, ).
Функция , где - объем выборки, а - число значений в выборке, меньших , называется эмпирической функцией распределения. Функция служит оценкой неизвестной функции распределения , т.е. .
Пусть теперь - непрерывная случайная величина с неизвестной плотностью вероятности . Для оценки по выборке разобьем область значений на интервалы длины . Обозначим через середины интервалов, а через число элементов выборки, попавших в указанный интервал. Тогда - оценка плотности вероятности в точке . В прямоугольной системе координат построим прямоугольники с основаниями и высотами , т.е. площади прямоугольника, равной относительной частоте данного разряда. Полученная таким образом фигура называется гистограммой выборки.
Пример 156. Имеются данные о количестве студентов в 30 группах физико-математического факультета:
26 | 25 | 25 | 26 | 25 | 23 |
23 | 24 | 19 | 23 | 20 | 19 |
22 | 24 | 24 | 23 | 20 | 23 |
24 | 19 | 21 | 18 | 21 | 18 |
20 | 18 | 18 | 21 | 15 | 15 |
Найти вариационный ряд количества студентов в группах и размах варьирования. Построить полигон частот.
Решение. Записывая исходные данные в порядке возрастания, составим вариационный ряд:
15 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | |
2 | 4 | 2 | 4 | 3 | 1 | 5 | 4 | 3 | 2 |
Размах варьирования .
Для построения полигона частот обозначим на оси абсцисс возможные значения признака, а на оси ординат соответствующие частоты и полученные точки соединим отрезками.
Пример 157. Школьникам предлагалось разгадать несколько числовых закономерностей и вписать в пропуски недостающие числа. Оценка осуществлялась по количеству правильно решенных задач и дала следующие результаты:
Кол-во баллов | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 |
Кол-во школьников | 2 | 3 | 2 | 4 | 12 | 10 | 8 | 9 |
Составить статистическое распределение количества школьников по количеству набранных баллов и построить полигон относительных частот.
Решение. Пусть = {количество набранных баллов}, a = {относительные частоты}. Тогда статистическое распределение выборки можно представить в виде следующей таблицы:
X | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 |
0,04 | 0,06 | 0,04 | 0,08 | 0,24 | 0,2 | 0,16 | 0,18 |
Чтобы построить полигон относительных частот, отложим на оси абсцисс значения , а на оси ординат - относительные частоты . После этого последовательно соединим полученные точки отрезками.
Пример 158. В 2002 году количество служб, представляющих гражданам жилищные субсидии, по сельским районам области распределено следующим образом:
Построить эмпирическую функцию распределения.
Решение. Найдем сначала статистический ряд распределения числа служб в районах области.
1 | 4 | 5 | 10 | |
Эмпирическую функцию распределения находим аналогично интегральной функции (см. §13) [перейти].
Пример 159. Построить гистограмму следующей выборки объема 50
Номер
интервала |
Границы
интервала
|
Сумма частот
вариант интервала
|
Плотность относительной частоты
|
1 | 3 - 7 | 5 | |
2 | 7 - 12 | 10 | |
3 | 12 - 17 | 20 | |
4 | 17 - 21 | 8 | |
5 | 21 - 28 | 7 |
Решение. Найдем плотность относительной частоты для каждого интервала и заполним последний столбец таблицы:
Построим на оси абсцисс заданные интервалы и проведем над этими интервалами отрезки, параллельные оси абсцисс и находящиеся на расстояниях, равных соответствующим плотностям относительной частоты .
Из способа построения гистограммы следует, что полная ее площадь равна единице.
Пример 160. Число школ Ярославской области в 2002 - 2003 учебном году по малым городам и районам составило:
Построить гистограмму распределения числа школ по районам области.
Решение. Выберем границы интервалов и составим по данной выборке следующую таблицу
Номер
интервала |
Границы
интервала
|
Сумма частот
вариант интервала
|
Плотность относительной частоты
|
1 | 13 - 17 | 6 | |
2 | 17 - 20 | 3 | |
3 | 20 - 25 | 4 | |
4 | 25 - 31 | 4 |
Аналогично предыдущему примеру строим гистограмму числа школ, распределенных по малым городам и районам области.
"Сглаживая" полученную гистограмму, получаем "похожесть" данного дискретного закона распределения на классический показательный (непрерывный) закон. В этом и заключается основное предназначение гистограмм выборок.
Вопросы для самоконтроля
На каких методах основано изучение статистических данных?
Основные задачи математической статистики.
Какие способы отбора из генеральной совокупности вы знаете?
Какая выборка называется представительной?
В чем отличие вариационного от статистического ряда?
Для чего используется полигон частот?
Свойства эмпирической функции распределения.
В каком случае и для чего строятся гистограммы?
Задачи
I. 311. Записать выборку 2, 7, 3, 5, 4, 10, 5, 5, 2, 8, 10, 2, 7, 7, 7, 5, 4, 2, 4, 7, 8 в виде: а) вариационного ряда; б) статистического ряда.
312. Найдите эмпирическую функцию распределения для выборки, представленной вариационным рядом:
1 | 2 | 4 | 7 | |
10 | 20 | 30 | 40 |
313. Имеются данные о количестве сельских населенных пунктов районов Ярославской области с численностью населения более 500 человек:
Большесельский - 4, Борисоглебский - 2, Брейтовский - 1, Гаврилов-Ямский - 2, Даниловский - 2, Любимский - 1, Мышкинский - 0, Некоузский - 6, Некрасовский - 5, Первомайский - 2, Переславский - 11, Пошехонский - 0, Ростовский - 11, Рыбинский - 12, Тутаевский - 3, Угличский - 4, Ярославский - 27.
Найдите вариационный ряд количества населенных пунктов Ярославской области с численностью населения более 500 человек. Постройте полигон частот.
314. В 2002 году количество крупных и средних промышленных предприятий по районам ( в том же порядке, что и в предыдущей задаче) области распределено следующим образом:
Постройте полигон частот и эмпирическую функцию распределения.
315. Количество учащихся, получивших аттестат с медалью, в 2001 году по городам и районам Ярославской области:
г. Ярославль - 280, г. Рыбинск - 66, г. Ростов - 61, г. Переславль - 27, г. Углич - 32, г. Тутаев - 36;
Большесельский - 8, Борисоглебский - 3, Брейтовский - 11, Гаврилов-Ямский - 7, Даниловский - 19, Любимский - 11, Мышкинский - 3, Некоузский - 15, Некрасовский - 7, Первомайский - 6, Переславский - 1, Пошехонский - 8, Ярославский - 30.
Найдите вариационный ряд распределения медалистов, размах варьирования и среднее число медалистов по городам и районам области.
316. Посевные площади картофеля (тыс. гектаров) в сельских хозяйствах Ярославской области по районам:
1,5; 1,5; 0,6; 1,3; 0,9; 0,9; 0,6; 1,3; 1,1; 0,6; 1,1; 0,9; 1,6; 1,3; 0,8; 0,4; 1,1.
Найдите статистический ряд распределения посевных площадей и постройте полигон относительных частот.
II. 317. Построить гистограмму выборки, представленной в виде таблицы частот. Объем выборки .
Номер интервала | Границы интервала
- |
Сумма частот вариант интервала
|
1
2 3 4 |
1 - 5
5 - 8 8 - 13 13 - 15 |
24
30 40 6 |
318. Построить гистограмму выборки объема , представленной в виде таблицы частот:
Номер интервала | Границы интервала
- |
Сумма частот вариант интервала
|
1
2 3 4 5 6 |
0 - 2
2 - 4 4 - 7 7 - 12 12 - 15 15 - 20 |
3
6 8 25 15 18 |
III. 319. Директорский корпус средних школ Ярославской области характеризуется по стажу работы следующим образом:
до 2-х лет - 6 человек, от 2 до 5 - 7, от 5 до 10 - 21 человек, от 10 до 20 - 59 человек, свыше 20 - 196, пенсионеров - 65 человек. Получите интервальный ряд распределения и постройте гистограмму относительных частот стажа директоров школ области.
320. Рождаемость (смертность) населения Ярославской области в 2003 году по малым городам и районам области составили:
85, 159, 80, 249, 289, 151, 105, 180, 199, 122, 153, 157, 336, 231, 148, 96, 519;
309, 350, 267, 738, 750, 371, 239, 598, 715, 277, 726, 466, 905, 777, 415, 376, 993.
Найдите интервальные ряды распределения и гистограммы рождаемости и смертности по районам Ярославской области.