Описательная статистика, цели
Любой статистический анализ начинается с описательной статистики. Цель описательной статистики - обработать и систематизировать эмпирические данные, представить их в наглядном виде (графическом или табличном), рассчитать основные статистические показатели наблюдаемых данных.
Описательная нужна для того чтобы:
- Выявить ошибки в данных. Во время сбора наблюдений могут произойти сбои и часть данных может записаться некорректно.
- Увидеть структуру данных и выяснить однородны ли ваши данные.
- Найти нарушения в статистических предположениях. Вы могли предполагать, что изучаемая величина имеет нормальный закон распределения, однако посмотрев на данные, вы возможно поменяете ваше мнение и будете использовать другие статистические методы.
- Сгенерировать гипотезы и выдвинуть предположения, которые вы будете в дальнейшем проверять.
Порядковые статистики
Рассмотрим методы систематизации и группировки выборочных данных.
Рассмотрим генеральную совокупность ξ и выборку объемом n из данной генеральной совокупности X[n]=(X1,...,Xn). Порядковыми статистиками называются следующие характеристики выборки:
Рассмотрим несколько примеров.
Предположим, что мы изучаем антропогенные характеристики баскетболистов высшей лиги. А именно нас интересует рост баскетболистов. Мы случайным образом выбрали 10 баскетболистов высшей лиги и измерили их рост. Таким образом мы составили выборку объемом 10:
X[10]=(205, 184, 207, 198, 195, 187, 201, 177, 191, 194)
Построим вариационный ряд по данной выборке. Первой порядковой статистикой является элемент равный 177. Следующим значением является 184 и так далее.
(177, 184, 187, 191, 194, 195, 198, 201, 205, 207)
Во втором примере нас интересует меткость некоторого стрелка. Для этого мы решили измерить количество попаданий в мишень и 5 выстрелов данным стрелком. Мы попросили стрелка произвести 10 серий по 5 выстрелов по мишени. В итоге получили выборку объемом 10:
X[10]=(5,3,5,3,4,5,4,5,3,3)
Составим на основе данной выборки вариационный ряд:
(3,3,3,3,4,4,5,5,5,5)
В данном вариационном ряду значения повторяются, т.к. у нас были одинаковые значения в исходной выборке.
Для того чтобы построить статистический ряд, найдем все уникальные значения элементов выборки, упорядочим их по возрастанию. Предположим, что уникальных значений элементов выборки всего k. Обозначим эти значения через Z(1) < Z(2) < ... < Z(k). Статистический ряд представляет собой таблицу в которой каждому уникальному значению элементов выборки сопоставляется частота появления данного значения в выборке. Различают три вида частот:
Для рассмотренного ранее примера, полигон частот будет выглядеть следующим образом:
Для построения группированного статистического ряда и гистограммы рассмотрим интервал (a,b), где левая граница a ≤ X(1) и X(n) ≤ правой границы b,
разобьем интервал (a,b) на r интервалов, так что интервалы (ai-1,ai] покрывали весь интервал (a,b) и не пересекались.
Все элементы выборки попадут в интервал (a,b). Через ni обозначим количество элементов выборки, попавших в интервал (ai-1,ai]. В сумме n1+n2+...+nr=n. Длина интервала ai-ai-1=Δi. Через hi обозначим отношение ni к общему объему n и длине i-го интервала Δi:
hi = ni / Δin
Группированный статистический ряд представляет собой таблицу в которой каждому интервалу (ai-1,ai] для i от 1 до r сопоставляется частота. Различают два вида группированных статистических рядов:
Рассмотрим генеральную совокупность ξ и выборку объемом n из данной генеральной совокупности X[n]=(X1,...,Xn). Порядковыми статистиками называются следующие характеристики выборки:
- X(1)=min{X1,...,Xn} - первая порядковая статистика (элемент имеющий наименьшее значение среди всех элементов выборки).
- X(2)=min{{X1,...,Xn} \ X(1)} - вторая порядковая статистика (элемент следующий за первой порядковой статистикой по возрастанию значения, т.е. мы из выборки исключаем первую порядковую статистику и находим элемент, который имеет наименьшее значение).
- X(3)=min{{X1,...,Xn} \ {X(1),X(2)}} - третья порядковая статистика.
- ...
- X(n)=min{X1,...,Xn} - n-я порядковая статистика.
Вариационный ряд
Если мы нашу выборку упорядочим по возрастанию, учтем все значения (и повторяющиеся тоже), то такое представление выборки называется вариационным рядом: X(1) ≤ X(2) ≤ ... ≤ X(n).Рассмотрим несколько примеров.
Предположим, что мы изучаем антропогенные характеристики баскетболистов высшей лиги. А именно нас интересует рост баскетболистов. Мы случайным образом выбрали 10 баскетболистов высшей лиги и измерили их рост. Таким образом мы составили выборку объемом 10:
X[10]=(205, 184, 207, 198, 195, 187, 201, 177, 191, 194)
Построим вариационный ряд по данной выборке. Первой порядковой статистикой является элемент равный 177. Следующим значением является 184 и так далее.
(177, 184, 187, 191, 194, 195, 198, 201, 205, 207)
Во втором примере нас интересует меткость некоторого стрелка. Для этого мы решили измерить количество попаданий в мишень и 5 выстрелов данным стрелком. Мы попросили стрелка произвести 10 серий по 5 выстрелов по мишени. В итоге получили выборку объемом 10:
X[10]=(5,3,5,3,4,5,4,5,3,3)
Составим на основе данной выборки вариационный ряд:
(3,3,3,3,4,4,5,5,5,5)
В данном вариационном ряду значения повторяются, т.к. у нас были одинаковые значения в исходной выборке.
Статистический ряд
В случае если объем выборки превосходит 10, то представление выборки в виде вариационного ряда становится ненаглядным. В этом случае прибегают к группировке элементов выборки. Если в выборке есть элементы с повторяющимися значениями, в этом случае удобно воспользоваться статистическим рядом. Это представление удобно в том случае, если выборка взята из дискретной генеральной совокупности.Для того чтобы построить статистический ряд, найдем все уникальные значения элементов выборки, упорядочим их по возрастанию. Предположим, что уникальных значений элементов выборки всего k. Обозначим эти значения через Z(1) < Z(2) < ... < Z(k). Статистический ряд представляет собой таблицу в которой каждому уникальному значению элементов выборки сопоставляется частота появления данного значения в выборке. Различают три вида частот:
- абсолютные частоты - в этом случае мы считаем сколько раз данное значение появилось в этой выборке;
- статистический ряд в относительных частотах - в этом случае мы будем считать частоту появления данного значения в выборке соотнесенную к общему объему выборки;
- накопленные частоты - в этом случае учитывается не только данное значение, но и меньшие значения также.
Пример:
Полигон частот
Статистический ряд удобно представлять графически:Для рассмотренного ранее примера, полигон частот будет выглядеть следующим образом:
Группированный статистический ряд
Имея достаточно большой объем, либо генеральная совокупность является непрерывной случайной величиной, для представления данных удобно воспользоваться группированным статистическим рядом и гистограммой.Для построения группированного статистического ряда и гистограммы рассмотрим интервал (a,b), где левая граница a ≤ X(1) и X(n) ≤ правой границы b,
разобьем интервал (a,b) на r интервалов, так что интервалы (ai-1,ai] покрывали весь интервал (a,b) и не пересекались.
Все элементы выборки попадут в интервал (a,b). Через ni обозначим количество элементов выборки, попавших в интервал (ai-1,ai]. В сумме n1+n2+...+nr=n. Длина интервала ai-ai-1=Δi. Через hi обозначим отношение ni к общему объему n и длине i-го интервала Δi:
hi = ni / Δin
Группированный статистический ряд представляет собой таблицу в которой каждому интервалу (ai-1,ai] для i от 1 до r сопоставляется частота. Различают два вида группированных статистических рядов:
- группированный статистический ряд в абсолютных частотах;
- группированный статистический ряд с относительными частотами.
Гистограмма
Гистограмма представляет собой функцию f_{n}^{*}(x) такую, что она задана на всей вещественной оси.
Площадь под графиком функции f_{n}^{*}(x) равна 1. Гистограмма является приближением в плотности распределения генеральной совокупности.
Чаще всего используют графическое представление гистограммы. Гистограмму на графике представляют в виде блока. Каждый блок соответствует некоторому интервалу.
Нередко гистограмму строят не с высотами hi, а с высотами равными либо абсолютной частоте ni, либо относительной частоте ni/n. В этом случае сумма площадей под графиком не будет равна единице. Однако если Δi были равны между собой, то форма графика не изменится.
Пример построения группированного статистического ряда и гистограммы. Предположим, что нам необходимо оценить время на решение некоторой задачи. Для этого мы случайным образом отобрали 30 учеников и попросили их решить данную задачу, засекли время, в итоге мы получили выборку объемом 30, времен (в секундах) потребовавшихся на решение данной задачи:
В качестве интервала (a,b) возьмем интервал [14,68]:
a0 = 14
ar = 68
Разобьем данный интервал на 6 интервалов равной длины:
r = 6
Тогда у нас первый интервал будет от 14 до 23, следующий от 23 до 32 и заключительный интервал у нас будет от 59 до 68. Посчитаем сколько элементов выборки попало в каждый интервал.
Так как все интервалы имеют одинаковую длину, то построим гистограмму в абсолютных частотах ni, т.к. форма гистограммы сохраняется в этом случае.
Рассмотрим данный вопрос на примере выборки объёмом в 1000 из генеральной совокупности имеющей нормальный закон распределения. Если мы возьмем число интервалов r равным 100, в этом случае мы получим на гистограмме частокол из блоков, со взлетами и падениями. Это нас может смутить и мы можем предположить, что наша выборка не однородна, а является смесью нескольких выборок. Предположим, что мы взяли число интервалов r равным 4, в этом случае мы получаем 4 блока, которые не несут вообще никакой информации. В случае выбора 4 интервалов, почти все наблюдения попали в два центральных блока и мы ничего не можем сказать о форме распределения т.к. форма от нас скрыта, внутри данных блоков могут быть как взлеты так и падения, но мы их не видим.
При выборе числа интервалов на которые будет разбит интервал (a,b) для построения гистограммы или группированного статистического ряда рекомендуется воспользоваться одной из приведенных формул:
В этом случае построенные гистограммы будут хорошо отображать форму распределения генеральной совокупности.
Выборочным аналогом теоретической дисперсии является выборочная дисперсия: D^{*}=D^{*}X_{[n]}=\frac{1}{n}\sum_{i=1}^{k}(X-\bar{X})^{2}. Аналогом центрального момента r-ого порядка является выборочный центральный момент r-ого порядка: \mu_{r}^{*}=\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\bar{X})^{r}.
Выборочным аналогом квантиля порядка p (от 0 до 1) является выборочная квантиль xp порядка p, равная ([np] + 1) элементу вариационного ряда X(1) ≤ X(1) ≤ ... ≤ X(n).
Квантили порядка 0.25, 0.5, 0.75 называются квартилями Q1, Q2, Q3.
Выборочная медиана:
Пример:
Площадь под графиком функции f_{n}^{*}(x) равна 1. Гистограмма является приближением в плотности распределения генеральной совокупности.
Чаще всего используют графическое представление гистограммы. Гистограмму на графике представляют в виде блока. Каждый блок соответствует некоторому интервалу.
Нередко гистограмму строят не с высотами hi, а с высотами равными либо абсолютной частоте ni, либо относительной частоте ni/n. В этом случае сумма площадей под графиком не будет равна единице. Однако если Δi были равны между собой, то форма графика не изменится.
Пример построения группированного статистического ряда и гистограммы. Предположим, что нам необходимо оценить время на решение некоторой задачи. Для этого мы случайным образом отобрали 30 учеников и попросили их решить данную задачу, засекли время, в итоге мы получили выборку объемом 30, времен (в секундах) потребовавшихся на решение данной задачи:
В качестве интервала (a,b) возьмем интервал [14,68]:
a0 = 14
ar = 68
Разобьем данный интервал на 6 интервалов равной длины:
r = 6
Тогда у нас первый интервал будет от 14 до 23, следующий от 23 до 32 и заключительный интервал у нас будет от 59 до 68. Посчитаем сколько элементов выборки попало в каждый интервал.
Так как все интервалы имеют одинаковую длину, то построим гистограмму в абсолютных частотах ni, т.к. форма гистограммы сохраняется в этом случае.
Выбор числа интервалов на которые стоит разбить интервал (a,b) для того чтобы построить группированный статистический ряд и гистограмму
Рассмотрим данный вопрос на примере выборки объёмом в 1000 из генеральной совокупности имеющей нормальный закон распределения. Если мы возьмем число интервалов r равным 100, в этом случае мы получим на гистограмме частокол из блоков, со взлетами и падениями. Это нас может смутить и мы можем предположить, что наша выборка не однородна, а является смесью нескольких выборок. Предположим, что мы взяли число интервалов r равным 4, в этом случае мы получаем 4 блока, которые не несут вообще никакой информации. В случае выбора 4 интервалов, почти все наблюдения попали в два центральных блока и мы ничего не можем сказать о форме распределения т.к. форма от нас скрыта, внутри данных блоков могут быть как взлеты так и падения, но мы их не видим.
При выборе числа интервалов на которые будет разбит интервал (a,b) для построения гистограммы или группированного статистического ряда рекомендуется воспользоваться одной из приведенных формул:
В этом случае построенные гистограммы будут хорошо отображать форму распределения генеральной совокупности.
Статистические характеристики эмпирических данных
Аналогом математического ожидания является выборочное среднее: \bar{X}=a_{1}^{*}=\frac{1}{n}\sum_{i=1}^{n}X_{i} - среднее арифметическое элементов выборки. Аналогом начального момента r-ого порядка является выборочный начальный момент r-го порядка: a_{r}^{*}=\frac{1}{n}\sum_{i=1}^{n}X_{i}^{r}.Выборочным аналогом теоретической дисперсии является выборочная дисперсия: D^{*}=D^{*}X_{[n]}=\frac{1}{n}\sum_{i=1}^{k}(X-\bar{X})^{2}. Аналогом центрального момента r-ого порядка является выборочный центральный момент r-ого порядка: \mu_{r}^{*}=\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\bar{X})^{r}.
Выборочным аналогом квантиля порядка p (от 0 до 1) является выборочная квантиль xp порядка p, равная ([np] + 1) элементу вариационного ряда X(1) ≤ X(1) ≤ ... ≤ X(n).
Квантили порядка 0.25, 0.5, 0.75 называются квартилями Q1, Q2, Q3.
Выборочная медиана:
Пример:
Выборочные характеристики положения и рассеяния
Выборочными характеристиками положения являются:
- выборочное среднее;
- выборочная медиана;
- выборочная мода - это сам частотный элемент выборки.
Для оценки разброса элементов выборки используют выборочные меры рассеяния:
Форму распределения можно оценить с помощью следующих выборочных характеристик:
- размах выборки R = Xmax - Xmin;
- средний межквартильный размах, он равен \frac{Q_{3}-Q{1}}{2};
- персентильный размах P90 - P10;
- выборочная дисперсия D*;
- исправленная дисперсия s2=nD*X[n]/(n-1);
- среднее квадратическое отклонение s=√s2.
Форму распределения можно оценить с помощью следующих выборочных характеристик:
- симметричность распределения с помощью коэффициента асимметрии, который равен выборочному центральному моменту третьего порядка к кубу от СКО S_{k1}=\mu_{3}^{*}/\widetilde{s}^{3} либо с помощью квантильного коэффициента асимметрии Sk2 = (Q3 - Q1 - 2Q2) / (Q3 - Q1);
- островершинность распределения можно оценить с помощью коэффициента эксцесса равного выборочному центральному моменту 4 порядка отнесенного к квадрату дисперсии, за вычетом тройки K=\mu_{4}^{*}/\widetilde{s}^{4}-3.
Для нормального закона распределения коэффициент асимметрии и коэффициент эксцесса равны 0. Следовательно по выборочным значениям мы можем прикинуть является ли выборка выборкой из генеральной совокупности имеющей нормальный закон распределения.
Ящики с усами
Удобно наносить на один и тот же график ящики с усами по нескольким наборам эмпирических данных, тогда эти наборы данных можно сравнивать между собой. Центральная выборочная линия соответствует выборочной медиане. Сам ящик имеет границы: выборочная квартиль Q1 и выборочная квартиль Q3. Верхняя граница усов это либо Q3 + 1.5 * IQR, где IQR - это интерквартильный разброс, который равен Q3 - Q1, либо наибольшее значение. Нижняя граница усов это либо Q1 - 1.5 * IQR, либо значение наименьшего элемента выборки, если оно не выходит за эту границу. Значения, которые выходят за границы усов нередко оказываются выбросами. Поэтому с помощью ящиков с усами можно оценить есть ли выбросы в данных, а также можно оценить форму распределения, насколько она симметрична. В самом ящике находится 50% наблюдений.
Выборочные характеристики двумерной выборки
Рассмотрим выборочные характеристики для многомерных выборок. Будем рассматривать на примере двумерной генеральной совокупности (ξ,η)T и соответствующей ей двумерной выборки \binom{X_1}{Y_1},...,\binom{X_n}{Y_n}. Помимо выборочных характеристик, которые мы рассмотрели до этого, например выборочное среднее, выборочная дисперсия, выборочная медиана, которые мы можем рассчитать для каждой компоненты отдельно, т.е. по выборке X1, X2, ..., Xn для выборки X, или по выборке Y1, Y2, ..., Yn для выборки Y, мы нередко захотим узнать еще о взаимосвязи между компонентами ξ и η. В этом нам поможет выборочный коэффициент корреляции, он является выборочным аналогом теоретического коэффициента корреляции.
Графически двумерные выборки представляют с помощью диаграмм рассеивания на которых можно увидеть есть ли зависимость между выборками, какая она, линейная, квадратичная, либо какого-то другого вида. Если исследуемая генеральная совокупность имеет размерность большую чем два, т.е. мы имеем трехмерный или четырехмерный вектор или более, в этом случае мы строим коэффициент корреляции для каждой пары компонент, а также для каждой пары мы будем строить и диаграмму рассеивания чтобы узнать о взаимосвязи каждой пары компонент.
Графически двумерные выборки представляют с помощью диаграмм рассеивания на которых можно увидеть есть ли зависимость между выборками, какая она, линейная, квадратичная, либо какого-то другого вида. Если исследуемая генеральная совокупность имеет размерность большую чем два, т.е. мы имеем трехмерный или четырехмерный вектор или более, в этом случае мы строим коэффициент корреляции для каждой пары компонент, а также для каждой пары мы будем строить и диаграмму рассеивания чтобы узнать о взаимосвязи каждой пары компонент.