Курсовая
 

Теоретическая часть

1.Основные задачи математической статистики.

Математические законы теории вероятностей не являются беспредметными абстракциями, лишенными физического

содержания; они представляют собой математическое выражение реальных закономер­ностей, фактически существующих в случайных массовых явлениях природы.

До сих пор, говоря о законах распределения случайных величин, мы не затрагивали вопроса о том, откуда берутся, на каком осно­вании устанавливаются эти законы распределения.

Ответ на вопрос вполне определенен - в основе всех этих характеристик лежит опыт; каждое исследование случайных явлений, выполняемое методами тео­рии вероятностей, прямо или косвенно опирается на эксперименталь­ные данные. Оперируя такими понятиями, как события и их вероят­ности, случайные величины, их законы распределения и числовые характеристики, теория вероятностей дает возможность теоретиче­ским путем определять вероятности одних событий через вероятности других, законы распределения и числовые характеристики одних случайных величин через законы распределения и числовые характе­ристики других. Такие косвенные методы позволяют значительно экономить время и средства, затрачиваемые на эксперимент, но отнюдь не исключают самого эксперимента. Каждое исследование в области случайных явлений, как бы отвлеченно оно ни было, корнями своими всегда уходит в эксперимент, в опытные данные, в систему наблюдений.

Разработка методов регистрации, описания и анализа статисти­ческих экспериментальных данных, получаемых в результате наблюдения случайных массовых явлений, составляет предмет специальной науки - математической статистики.

Все задачи математической статистики касаются вопросов обра­ботки наблюдений над случайными массовыми явлениями, но в зави­симости от характера решаемого практического вопроса и от объема имеющегося экспериментального материала эти задачи могут прини­мать ту или иную форму.

Охарактеризуем вкратце некоторые типичные задачи математи­ческой статистики, часто встречаемые на практике.

1. 1.3адача определения закона распределения случайной величины (или системы случайных величин) по статистическим данным.

Закономерности, наблюдаемые в случайных массовых явлениях, проявляются тем точнее и отчетливее, чем больше объем статистического материала. При обработке обширных по своему объему статистических данных часто возникает вопрос об определении законов распределения тех или иных случайных величин. Теоретически при достаточном количестве опытов свойственные этим случайным величинам закономерности будут осуществляться сколь угодно точно. На практике нам всегда приходится иметь дело с огра­ниченным количеством экспериментальных данных; в связи с этим результаты наших наблюдений и их обработки всегда содержат боль­ший или меньший элемент случайности. Возникает вопрос о том, какие черты наблюдаемого явления относятся к постоянным, устойчивым и действительно присущи ему, а какие являются случайными и про­являются в данной серии наблюдений только за счет ограниченного объема экспериментальных данных. Естественно, к методике обра­ботки экспериментальных данных следует предъявить такие требо­вания, чтобы она, по возможности, сохраняла типичные, характерные черты наблюдаемого явления и отбрасывала все несущественное, второстепенное, связанное с недостаточным объемом опытного материала. В связи с этим возникает характерная для математической статистики задача сглаживания или выравнивания стати­стических данных, представления их в наиболее компактном виде с помощью простых аналитических зависимостей.

1.2. Задача проверки правдоподобия гипотез.

Эта задача тесно связана с предыдущей; при решении такого рода задач мы обычно не располагаем настолько обширным стати­стическим материалом, чтобы выявляющиеся в нем статистические закономерности были в достаточной мере свободны от элементов случайности. Статистический материал может с большим или меньшим правдоподобием подтверждать или не подтверждать справедливость той или иной гипотезы. Например, может возникнуть такой вопрос: согласуются ли результаты эксперимента с гипотезой о том, что данная случайная величина подчинена закону распределения? Другой подобный вопрос: указывает ли наблюденная в опыте тенденция к зависимости между двумя случайными величинами на нали­чие объективной действительной зависимости между ними или же она объясняется случайными причинами, связанными с недостаточным объемом наблюдений? Для решения подобных вопросов математи­ческая статистика выработала ряд специальных приемов.

1.3. Задача нахождения неизвестных параметров распределения

Часто при обработке статистического материала вовсе не возни­кает вопрос об определении законов распределения исследуемых слу­чайных величин. Обыкновенно это бывает связано с крайне недоста­точным объемом экспериментального материала. Иногда же характер закона распределения качественно известен до опыта, из теоретических соображений; например, часто можно утверждать заранее, что случай­ная величина подчинена нормальному закону. Тогда возникает более узкая задача обработки наблюдений — определить только некоторые параметры (числовые характеристики) случайной величины или системы случайных величин. При небольшом числе опытов задача более или менее точного определения этих параметров не может быть решена; в этих случаях экспериментальный материал содержит в себе неиз­бежно значительный элемент случайности; поэтому случайными ока­зываются и все параметры, вычисленные на основе этих данных. В таких условиях может быть поставлена только задача об опреде­лении так называемых «оценок» или «подходящих значений» для искомых параметров, т. е. таких приближенных значений, которые при массовом применении приводили бы в среднем к меньшим ошиб­кам, чем всякие другие. С задачей отыскания «подходящих значений» числовых характеристик тесно связана задача оценки их точности и надежности.

2.Статистическое описание и выборочные характеристики двумерного случайного вектора.

Пусть,i=1,2,…, n, - выборка объема n из наблюдений случайного двумерного вектора . Предварительное представление о двумерной генеральной совокупности можно получить, изображая элементы выборки точками на плоскости с выбранной декартовой прямоугольной системой координат. Это представление выборки называется диаграммой рассеивания.

Распределением двумерной выборки называется распределение двумерного дискретного случайного вектора, принимающего значения , i=1,2,…,n , с вероятностями, равными 1/n. Выборочные числовые характеристики вычисляются как соответствующие числовые характеристики двумерного случайного вектора дискретного типа.

Вычисление указанных выборочных характеристик удобно вычислять в следующей последовательности. Сначала вычисляют суммы

,,,,,.

Для контроля правильности вычислений используется тождество

.

Выборочные средние находятся по формулам

.

Затем вычисляются суммы квадратов отклонений от среднего и произведений отклонений от средних

= ,

,

.

Дисперсия находится по формулам: ,; коэффициент корреляции считается как

.

Выборочная линейная регрессия Y на X по выборке, i=1,2,…,n , определяется уравнением

Коэффициенты и называются выборочными коэффициентами регрессии. Они вычисляются по формулам: ,

.

Аналогично определяются выборочная линейная регрессия X на Y

.

Коэффициенты и находятся по формулам:

, .

Для контроля правильности расчетов используется соотношение: .

Прямые , пересекаются в точке с координатами .

Для нахождения оценок параметров регрессии по результатам наблюдений используется метод наименьших квадратов. По этому методу в качестве оценок параметров выбирают такие значения и , которые минимизируют сумму квадратов отклонений наблюдаемых значений случайных величин , i=1,2,…,n , от их математических ожиданий, т.е. сумму .

Оценки параметров линейной регрессии, получаемые по методу наименьших квадратов, при любом законе распределения ошибок наблюдений , i=1,2,….n , имеют следующие свойства:

1. Они являются линейными функциями результатов наблюдений , i=1,2,…,n , и несмещенными оценками параметров, т.е. , j=0,1.

2. Они имеют минимальные дисперсии в классе не смещенных оценок, являющихся линейными функциями результатов наблюдений. Если ошибки наблюдений не коррелированны и имеют нормальное распределение , т.е. , то в дополнение к свойствам 1,2 выполняется свойство:

3. МНК - оценки совпадают с оценками , вычисляемыми по методу максимального подобия .

Функция определяет выборочную регрессию Y на X . Последняя является оценкой предполагаемой линейной регрессией по результатам наблюдений. Разности между наблюдаемыми значениями переменной Y при , i=1,2,…,n , и расчетными значениями называются остатками и обозначаются : .

Качество аппроксимации результатов наблюдений , i=1,2,…,n , определяются величиной остаточной дисперсии, вычисляемой по формуле

.

Величина , определяемая выражением , называется остаточной суммой квадратов.

Остаточную сумму квадратов получают из тождества

,

которое записывается в виде:

где ,

.

Величина называется суммой квадратов, обусловленной регрессией. Полезной характеристикой линейной регрессии является коэффициент детерминации R2 , вычисляемый по формуле: .

Коэффициент детерминации R2 равен той доле разброса результатов наблюдений, i=1,2,…,n , относительно горизонтальной прямой , которая объясняется выборочной регрессией. Величина R является оценкой коэффициента корреляции между результатами наблюдений и вычисленными значениями, предсказываемыми регрессией. В случае линейной регрессии Y на X (одной независимой переменой X) между коэффициентом R и выборочным коэффициентом корреляции имеется следующее соотношение:

.

Доверительным интервалом для параметра называется интервал , содержащий истинное значение с заданной вероятностью , т.е. . Число называется доверительной вероятностью, а значение - уровнем значимости. Статистики , определяемые по выборке из генеральной совокупности с неизвестным параметром , называются нижней и верхней границами доверительного интервала.

Границы доверительных интервалов для параметров линейной регрессии имеют вид:

,

, где - квантиль распределения Стьюдента с n-2 степенями свободы.

Границы доверительного интервала для среднего значения , соответствующего заданному значению , определяются формулой: .

Доверительный интервал для дисперсии ошибок при неизвестном и при доверительной вероятности имеет вид , где - квантиль распределения с n-2 степенями свободы.

3.Однофакторный дисперсионный анализ.

Пусть результаты наблюдений составляют l независимых выборок , полученных из l нормально распределенных генеральных совокупностей , которые имеют различные средние , ,…, и равные дисперсии . Проверяется гипотеза о равенстве средних. На практике такая задача возникает при исследовании влияния , которое оказывает изменение некоторого фактора на измеряемую величину . Например , если измерения проводятся на l различных приборах , то можно исследовать влияние фактора (прибор ) на результат измерений . При l=2 для проверки гипотезы используются известные критерии значимости . Если l>2 , то для проверки гипотезы о равенстве l средних применяют однофакторный дисперсионный анализ, суть которого состоит в следующем.

Пусть обозначает i-й элемент k-й выборки , i=1,2,…,n , k=1,2,…,L; -выборочное среднее k-й выборки т.е.

; - общее выборочное среднее т.е. , где n - число наблюдений.

Общая сумма квадратов отклонений наблюдений от общего среднего может быть представлено так:

.

Это основное тождество дисперсионного анализа. Запишем его в виде , где - общая сумма квадратов отклонений наблюдений от общего среднего, - сумма квадратов отклонений выборочных средних X k от общего среднего X (между группами), - сумма квадратов отклонений наблюдений от выборочных средних групп (внутри групп).

Если верна гипотеза , то статистики и независимы и имеют распределение с l-1 и n-l степенями свободы. Следовательно, статистики и являются несмещенными оценками неизвестной дисперсии . Оценка характеризует рассеяние групповых средних, а - рассеяние внутри групп , которое обусловлено случайными вариациями результатов наблюдений . Значительное превышение величины над значением можно объяснить различием средних в группах . Отношение этих оценок имеет распределение Фишера т.е. .

Статистика используется для проверки гипотезы. Гипотеза не противоречит результатам наблюдений, если выборочное значение статистики меньше квантили . В этом случае и являются несмещенными оценками параметров и . Если , то гипотеза отклоняется и следует считать, что среди средних имеется хотя бы два не равных друг другу.

Практическая часть

Все вычисленные данные представлены в таблице ниже. Для пояснения здесь приведены только некоторые из них.

Выборочная линейная регрессия Y на X: -1,4588 + 1,1856х

Выборочная линейная регрессия X на Y: 4,8889 + 0,5825у

Доверительные интервалы:

- для : (-3,9783; 1,0608); (0,9934; 1,3203 )

- Для среднего значения при заданном значении :1,6780*0,9660√0,02+(Xo-13,0536)2/71,1216

- для дисперсии ошибок наблюдений : 0,6927 << 1,3492

Распределение Фишера в однофакторном дисперсионном анализе: 10,5

Из таблицы распределения находим .Так как, то гипотеза о равенстве

средних не выполняется.

Московский Институт Электронной Техники

(Технический Университет)

Курсовая работа

по теории вероятностей и математической статистике.

Выполнил: Коротков М.С.

Гр. ЭКТ - 27

Проверил: Бардушкин В.В.

МОСКВА 2004