Математическая статистика – это раздел математики, посвященный математическим методам систематизации, обработки и использования статистических данных для научных и практических целей.
Статистическими данными называются сведения о числе и характере объектов в какой-либо более или менее обширной совокупности, обладающих теми или иными свойствами.
Метод исследования, опирающийся на рассмотрение статистических данных от тех или иных совокупностей объектов, называется статистическим.
Формальная математическая сторона статистических методов исследования безразлична к природе исследуемых объектов и составляет предмет математической статистики.
Основная задача математической статистики состоит в получении выводов о массовых явлениях и процессах по данным наблюдений над ними или экспериментов.
Статистика – наука, которая позволяет увидеть закономерности в хаосе случайных данных, выделить установившиеся связи в них и определить наши действия, чтобы увеличить долю правильно принятых решений.
Многие известные сейчас зависимости между различными аспектами окружающего нас мира получены путем анализа накопленных человечеством данных. После статистического обнаружения зависимостей человек уже находит то или иное рациональное объяснение обнаруженным закономерностям.
Для изложения начальных определений статистики обратимся к примеру.
Пример. Предположим, необходимо оценить степень изменения коэффициента интеллектуальности за 3 года обучения у 100 студентов. В качестве показателя рассмотрим отношение нынешнего коэффициента к ранее измеренному коэффициенту (три года назад), умноженному на 100 %.
Получим последовательность 100 случайных величин: 97,8; 97,0; 101,7; 132,5; 142; …; 122. Обозначим ее через Х.
Определение 1. Последовательность наблюдаемых в результате исследования случайных величин Х в статистике называется признаком.
Определение 2. Различные значения признака называются вариантами.
Из приведенных значений вариант трудно получить некоторую информацию о динамике изменения коэффициента интеллектуальности в процессе обучения. Упорядочим данную последовательность по возрастанию: 94; 97,0; 97,8; …142. Из полученной последовательности уже можно извлечь некоторую полезную информацию – например, легко определить минимальное и максимальное значения признака. Но не видно, как распределен признак среди всей совокупности обследуемых студентов. Разобьем варианты на интервалы. Согласно формуле Стерджеса, рекомендуемое число интервалов
m = 1+3,32lg ( n ) ≈ 7,6, а величина интервала .
Диапазоны полученных интервалов приведены в столбце 1 таблицы.
Посчитаем, сколько значений признака попало в каждый интервал, и запишем в столбец 3.
Определение 3. Число, показывающее, сколько вариант попало в данный i -й интервал, называется частотой и обозначается ni .
Определение 4. Отношение частоты к общему числу наблюдений называется относительной частотой ( wi ) или весом.
Определение 5. Вариационным рядом называется расположенный в порядке возрастания или убывания ряд вариантов с соответствующими им весами.
Для данного примера вариантами являются середины интервалов.
Определение 6. Накопленной частотой ( ) называется число вариант со значением признака меньшим, чем х (х Î R ).
i | Интервал | ni | |||
1 | 94-100 | 3 | 0,03 | 3 | 0,03 |
2 | 100-106 | 7 | 0,07 | 10 | 0,1 |
3 | 106-112 | 11 | 0,11 | 21 | 0,21 |
4 | 112-118 | 20 | 0,2 | 41 | 0,41 |
5 | 118-124 | 28 | 0,28 | 69 | 0,69 |
6 | 124-130 | 19 | 0,19 | 88 | 0,88 |
7 | 130-136 | 10 | 0,1 | 98 | 0,98 |
8 | 136-142 | 2 | 0,02 | 100 | 1 |
Определение 7. Отношение накопленной частоты к общему числу наблюдений называется относительной накопленной частотой ( ).
Из таблицы уже можно сделать ряд полезных выводов:
– у большинства студентов значение коэффициента интеллектуальности увеличилось (97 чел.);
– у большинства студентов (48 чел.) увеличение составило от 112 % до 124 %;
– у двенадцати студентов увеличение произошло более чем на 130 %;
– закон распределения признака «напоминает» нормальное распределение.
Определение 8. Вариационный ряд называется дискретным, если любые его варианты отличаются на постоянную величину, и называется непрерывным (интервальным), если варианты могут отличаться друг от друга на сколь угодно малую величину.
Примером дискретного ряда является распределение студентов по полученным отметкам по дисциплине «Теория вероятностей и математическая статистика»:
Отметка | 2 | 3 | 4 | 5 |
ni | 28 | 45 | 15 | 12 |
niнакоп. | 28 | 73 | 88 | 100 |
Для визуализации вариационных рядов наиболее часто используют полигон, гистограмму, кумулятивную кривую.
Определение 9. Гистограммой называется ступенчатая фигура из прямоугольников с основаниями, равными интервалам значения признака и высотами, равными частотам или накопленным частотам.
Гистограмма используется только для изображения интервальных вариационных рядов. На рис.1 приведена гистограмма для вариационного ряда, рассмотренного ранее примера.
Рис. 1
Определение 10. Полигоном называется ломанная линия, в которой концы отрезков имеют координаты ( xi , ni ) или ( xi , wi ).
Полигон служит, как правило, для изображения дискретных вариационных рядов. На рис.2 изображен полигон для вариационного ряда распределения оценок среди ста студентов по курсу «Теория вероятностей и математическая статистика».
Рис. 2
Определение 11. Кумулятивная кривая – это кривая накопленных частот.
На рис.3 приведена кумулятивная кривая оценок студентов по «Теории вероятностей и математической статистике».
Рис.3
Определение 10. Эмпирической функцией распределения называется относительная частота события, что признак Х примет значение меньшее, чем заданное х (х Î R ), т.е.
.
Эмпирическая функция распределения оценок по «Теории вероятностей и математической статистике» имеет вид
.
График ее изображен на рис.4.
1
0,88
0,73
0,28
0 1 2 3 4 5
Рис.4
Вариационный ряд и графические формы его визуализации содержат достаточно полную информацию об изменчивости признака. Но обилие числовых данных, с помощью которых он задается, усложняет процедуру их применения.
На практике часто оказывается достаточным рассмотрение числовых характеристик вариационных рядов (средних, характеристик изменчивости и т.д.). Такие числовые характеристики называются статистическими характеристиками признака.
Дата: 2019-05-28, просмотров: 274.