Основные задачи математической статистики. Примеры задач
Математическая статистика - это наука разрабатывающая методы регистрации, описания, и анализа данных наблюдений и экспериментов, с целью построения вероятностных моделей массовых случайных явлений.
Примеры задач при решении которых применяется математическая статистика.
Относительной частотой события A называют отношение числа испытаний m, в которых данное событие появилось, к общему числу n фактически проведённых испытаний: W(A)=\frac{m}{n}, или короче: \omega=\frac{m}{n}. Дальше »
Переменная величина называется случайной, если в результате опыта она может принимать действительные значения с определёнными вероятностями. Наиболее полной, исчерпывающей характеристикой случайной величины является закон распределения. Закон распределения – функция (таблица, график, формула), позволяющая определять вероятность того, что случайная величина Х принимает определенное значение хi или попадает в некоторый интервал. Если случайная величина имеет данный закон распределения, то говорят, что она распределена по этому закону или подчиняется этому закону распределения. Дальше »
Любое статистическое исследование включает в себя сбор данных, представление данных в наглядной форме и анализ данных.Относительной частотой события A называют отношение числа испытаний m, в которых данное событие появилось, к общему числу n фактически проведённых испытаний: W(A)=\frac{m}{n}, или короче: \omega=\frac{m}{n}. Дальше »
Переменная величина называется случайной, если в результате опыта она может принимать действительные значения с определёнными вероятностями. Наиболее полной, исчерпывающей характеристикой случайной величины является закон распределения. Закон распределения – функция (таблица, график, формула), позволяющая определять вероятность того, что случайная величина Х принимает определенное значение хi или попадает в некоторый интервал. Если случайная величина имеет данный закон распределения, то говорят, что она распределена по этому закону или подчиняется этому закону распределения. Дальше »
Выборка.Выборочное пространство. Примеры
Рассмотрим некоторый абстрактный эксперимент, в рамках которого мы наблюдаем случайную величину \xi. Случайной величине \xi соответствует вероятностное пространство множества её значений.В одномерном случае:
\xi(\omega):\Omega\rightarrow\mathbb{R}
(\mathbb{R}, \mathfrak{B}(\mathbb{R}), P_{\xi})
- \mathbb{R} - вещественная ось;
- \mathfrak{B}(\mathbb{R}) - сигма-алгебра борелевских множеств вещественной оси;
- P_{\xi} - вероятностная мера, такая что вероятность того, что \xi примет значение строго меньшее x равна значению функции распределения случайной величины \xi в точке x: P_{\xi}(\xi<x)=F_{\xi}(x).
В результате эксперимента мы можем наблюдать не только одномерную случайную величину, но и случайный вектор. В многомерном случае:
(\xi_1,...,\xi_m):\Omega\rightarrow\mathbb{R}^{m}
(\mathbb{R}^{m}, \mathfrak{B}(\mathbb{R}^{m}), P_{\xi})
- P_{\xi} - совместное распределение случайных величин \xi_1,...,\xi_m.
Совокупность взаимно независимых реализаций случайной величины ξ образует выборку X[n] объема n: X[n]=(X1,...,Xn), где Xi - числовая реализация случайной величины ξ в i-ом эксперименте (i=1,...,n).
Если в рамках эксперимента мы наблюдаем реализацию случайного вектора размерности m, то выборка будет представлять собой последовательность длины n, каждый элемент которой представляет собой m-мерный числовой вектор. Если ξ=(ξ1,...,ξm)T - случайный вектор, то
X_1=\begin{pmatrix} x_{11}\\ x_{21}\\ \vdots \\ x_{m1} \end{pmatrix},\cdots,X_n=\begin{pmatrix} x_{1n}\\ x_{2n}\\ \vdots \\ x_{mn} \end{pmatrix}
- ξi - есть реализация случайного вектора ξ1,...,ξm в i-м эксперименте.
- ξmi - это реализация случайной величины ξm в i-м эксперименте.
Примеры генеральной совокупности и выборок полученных из них. Предположим, что нам необходимо оценить процента брака в продукции некоторого завода. Завод поставляет партию из N изделий. Будем считать, что процесс производства изделий на данном заводе уже устаканился. Рассмотрим случайную величину ξ ~ B(N,p) - число бракованных изделий в партии из N изделий. Эта случайная величина будет иметь биномиальный закон распределения с параметрами N и p. p - нам неизвестно. Вероятность того, что случайная величина ξ примет значение k равна P(\xi=k)=C_{N}^{k}p^k(1-p)^{N-k}. k может принимать значения от 0 до N бракованных изделий: k=\overline{0,N}. Выборка из данной генеральной совокупности представляет собой последовательность из нулей и единиц.
X[10]=(0,0,0,1,0,0,0,0,0,0)
Каждый нолик или единица соответствует одному проверенному изделию. Единица соответствует бракованным изделиям.
Предположим, что мы изучаем длину малька петушка через полтора месяца. Случайная величина ξ ~ N(a, σ) - длина малька. Хотя наблюдаемые значения величины ξ будут находиться в некотором конечном промежутке, обычно считают, что соответствующая случайная величина может принимать значения из всей вещественной оси: ξ∈ℝ. Кроме того закон распределения случайной величины соответствующий некоторой физической величине нередко приближенно описывают нормальным законом распределения, поэтому мы будем считать, что наша случайная величина ξ имеет нормальный закон распределения с параметрами a и σ: N(a, σ). Из данной генеральной совокупности получена выборка объёмом 10:
X[10]=(1.34,0.70,1.21,0.46,1.40,1.47,1.56,1.09,1.62,1.56)
В общем случае все значения элементов выборки различны с точностью до округления т.к. мы имеем дело с непрерывной случайной величиной.
Простой случайный выбор. Реальные виды выборов
Выборку, хотя она и является случайной, нельзя формировать как попало, иначе она не будет отражать свойств исходной генеральной совокупности. Процесс составления выборки называется выбором. С выбора начинается любой статистической исследование. В основу определения выбора применяемого в математической статистике лег выбор шаров из урны. Простым случайным выбором называется выбор с возвращением в урновой модели, когда из конечного множества каждый элемент выбирается независимо и равновероятно с другими элементами. Если какой-то элемент появился дважды, то он учитывается один раз.Свойства простого случайного выбора:
- С теоретической точки зрения элементы выборки - случайные величины. Повторяя выборку (x1, x2, ..., xn) несколько раз, мы в общем случае будем получать новые значения элементов выборки. Таким образом элементы выборки являются случайными величинами (X1, ..., Xn). Так как элементы выборки являются реализациями одной и той же генеральной совокупности ξ, то случайные величины X1, ..., Xn имеют один и тот же закон распределения и он совпадает с законом распределения генеральной совокупности ξ. Согласно простому случайному выбору, каждый элемент выборки получен независимо от других, следовательно, случайные величины X1, ..., Xn будут взаимно независимы.
- Все элементы выборки могут быть выбраны и кроме того каждому элементу предоставляется равная возможность быть выбранным.
- Каждый элемент конкретной выборки получен в равных условиях выбора. Данное свойство можно выразить введя случайную величину X* принимающую значение равное элементам выборки x1, x2, ..., xn с вероятностями равными 1/n, 1/n, ..., 1/n.
На практике реализовать простой случайный выбор удается не всегда.
Виды реальных выборов:
- Механический выбор - в этом случае составление выборки происходит на основе некоторой закономерности. Например, с конвейера берут каждую десятую деталь или замер производят через равные промежутки времени.
- Серийный выбор - в этом случае в результате эксперимента выбирается не один отдельный элемент, а целая серия элементов. Например, не одна таблетка, а целая пачка таблеток, или не одно зернышко, а целый колосок.
- Типический выбор - в этом случае генеральная совокупность разбивается на части и выборки берутся из каждой части пропорционально объёму соответствующей части генеральной совокупности. Типический выбор характерен для экономических и социологических исследований.
- Выбор на основе суждения (субъективный выбор) - выборка берется не из всей генеральной совокупности, а из некоторой ее части, выбранной по некоторому субъективному суждению. Например, рассматриваются не все партии, а выбирается самая подозрительная партия.
Функция распределения выборки
С теоретической точки зрения выборка объёмом n представляет собой n-мерный случайный вектор. Компоненты которого имеют одинаковый закон распределения и взаимно независимы. Закон распределения каждой компоненты совпадает с законом распределения исходной генеральной совокупности ξ. Таким образом функция распределения выборки FX[n](x1,...,xn) равна произведению функции распределения каждой компоненты, а именно Fξ(x1) ∙ ... ∙ Fξ(xn).Например, генеральная совокупность ξ имеет экспоненциальное распределение с параметром λ=3. Тогда функцией распределения F(x1,...,x20) выборки объемом 20 будет: \prod_{k=1}^{20}(1-e^{-\lambda x_k}).
Выборкам объема n соответствует выборочное пространство (\mathbb{R}^{n}, \mathfrak{B}(\mathbb{R}^{n}), P_{X_{[n]}}), где
- \mathbb{R}^{n} - множество элементарных событий,
- \mathfrak{B}(\mathbb{R}^{n}) - сигма-алгебра борелевских множеств построенных на \mathbb{R}^{n},
- и P_{X_{[n]}} - вероятностная мера однозначно соответствующая функции распределения выборки FX[n].
Устремим n к бесконечности и рассмотрим бесконечмерное пространство: (\mathbb{R}^{\infty}, \mathfrak{B}(\mathbb{R}^{\infty}), P_{X_{[\infty]}}). Элементарными событиями бесконечномерного пространства является бесконечная числовая последовательность или бесконечная выборка. Выборочное пространство (\mathbb{R}^{n}, \mathfrak{B}(\mathbb{R}^{n}), P_{X_{[n]}}) является подпространством бесконечномерного пространства (\mathbb{R}^{\infty}, \mathfrak{B}(\mathbb{R}^{\infty}), P_{X_{[\infty]}}), соответствующее первым n координатам.
Эмпирическая вероятностная мера
Рассмотрим генеральную совокупность ξ и выборку объемом n из данной генеральной совокупности X[n]. Эмпирическим распределением назовем вероятностную меру, определенную следующим образом P_{n}^{*}(B)=\frac{\nu(B)}{n}, где B\in \mathfrak{B}(\mathbb{R}), а ν(B) - количество элементов выборки, попавших в B.Эмпирической функцией распределения называется функция F_{n}^{*}(x)=P_{n}^{*}(-\infty;x)=\frac{\nu(-\infty;x)}{n},x\in \mathbb{R}. Эмпирическая функция распределения в точке x равна отношению количества элементов выборки, принявших значение строго меньше x, к объёму выборки.
Эмпирическую функцию распределения можно вычислить следующим образом. Упорядочим элемент выборки по возрастанию: (X1,X2,...,Xn)⇒X(1)<X(2)<...<X(n). Будем считать, что у нас нет повторяющихся элементов выборки. Тогда выборочная функция распределения для произвольной точки x может быть вычислена следующим образом:
Ранее мы ввели случайную величину X* принимающую значение равное элементам выборки x1, x2, ..., xn с вероятностями равными 1/n, 1/n, ..., 1/n. Эмпирическая функция распределения является функцией распределения случайной величины X*. Если у нас имеются повторяющиеся значения среди элементов выборки, то нам необходимо просуммировать 1/n несколько раз.
График эмпирической функции распределения представляет собой ступенчатую функцию, где величина ступеньки равна 1/n, в случае, если у нас все элементы выборки различны:
Пример. Из генеральной совокупности получена выборка (1.08, 0.19, 0.14, 0.27, 0.10, 0.38, 0.14, 0.23, 0.14, 0.50). Значением выборочной функции распределения в точке 0.25 будет 0.6.
Теорема Гливенко-Кантелли
Из усиленного закона больших чисел следует следующее утверждение. Для любого борелевского множества B из сигма-алгебры борелевских множеств заданных на ℝ выполняется следующее предельное отношение:Теорема Гливенко-Кантелли гласит следующее. Пусть заданы функция распределения генеральной совокупности Fξ(x) и эмпирическая функция распределения F_{n}^{*}(x), тогда:
Это означает, что эмпирической функцией при достаточно больших n можно хорошо приблизить нашу теоретическую функцию распределения исходной генеральной совокупности.
Из центральной предельной теоремы следует следующее утверждение:
Это означает, что для любого борелевского множества B эмпирическая вероятностная мера от B, при достаточно большом n (объёме выборки) имеет распределение близкое к нормальному.