Курсовая
 

Московский государственный институт электронной техники

(Технический университет)

Курсовая работа

“ Анализ данных в линейной регрессионной модели ”

по курсу

“ Теория вероятностей и

математическая статистика ”

Преподаватель:Бардушкина И.В.

Студент: группа ЭКТ-23

Белоусов А.В.

Москва 2005

Теоретическая часть.

1.Статистическое описание и выборочные характеристики

двумерного случайного вектора.

Пусть ,­- выборка объема из наблюдений случайного двумерного вектора. Предварительное представление о двумерной генеральной совокупности можно получить, изображая элементы выборки точками на плоскости с выбранной декартовой системой координат. Это представление выборки называется диаграммой рассеивания.

Распределением двумерной выборки называется распределение двумерного дискретного случайного вектора, принимающего значения , с вероятностями, равными . Выборочные числовые характеристики вычисляются как соответствующие числовые характеристики двумерного случайного вектора дискретного типа.

Выборочная линейная регрессия на по выборке , определяется уравнением

Выборочные средние находятся по формулам

.

Вычислим суммы квадратов отклонений от среднего и произведений отклонений от средних:

Отсюда

Коэффициенты и называются выборочными коэффициентами регрессии. Они вычисляются по формулам

Аналогично определяется выборочная линейная регрессия на :

коэффициенты и которой находятся по формулам

Для контроля правильности расчетов используют соотношение

Прямые регрессии пересекутся в точке .

2.Линейная регрессия.

В регрессионном анализе изучается связь между зависимой переменной и одной или несколькими независимыми переменными. Пусть переменная зависит от одной переменной . При этом предполагается, что переменная принимает фиксированные значения, а зависимая переменная имеет случайный разброс из-за ошибок измерения, влияния неучтенных факторов и т.д. Каждому значению переменной соответствует некоторое вероятностное распределение случайной величины . Предположим, что случайная величина в среднем линейно зависит от значений переменной . Это означает, что условное математическое ожидание случайной величины при заданном значении переменной имеет вид

Функция переменной, определяемая правой частью формулы, называется линейной регрессией на , а параметры и - параметрами линейной регрессии. На практике параметры линейной регрессии неизвестны и их оценки определяют по результатам наблюдений переменных и .

Пусть проведено независимых наблюдений случайной величины при значениях переменной при этом измерения величины дали следующие результаты: Так как эти значения имеют «разброс» относительно регрессии, то связь между переменными и можно записать в виде линейной регрессионной модели:

где - случайная ошибка наблюдений, причем Значение дисперсии ошибок наблюдений неизвестно, и оценка ее определяется по результатам наблюдений.

Задача линейного регрессионного анализа состоит в том, чтобы по результатам наблюдений ,

-получить наилучшие точечные и интервальные оценки неизвестных параметров и модели;

-проверить статистические гипотезы о параметрах модели;

-проверить достаточно ли хорошо модель согласуется с результатами наблюдений.

Разности между наблюдаемыми значениями переменной при ,и расчетными значениями называются остатками и обозначаются :

Качество аппроксимации результатов наблюдений , выборочной регрессии определяется величиной остаточной дисперсии, вычисляемой по формуле:

Величина , определяемая выражением

называется остаточной суммой квадратов.

В практических вычислениях остаточную сумму квадратов получают из тождества

которое записывается в виде

,

где

Величина называется суммой квадратов, обусловленной регрессией.

Полезной характеристикой линейной регрессии является коэффициент детерминации ,

вычисляемый по формуле

Коэффициент детерминации равен той доле разброса результатов наблюдений , относительно горизонтальной прямой , которая объясняется выборочной регрессией.

В случае линейной регрессии на между коэффициентом и выборочным коэффициентом корреляции имеется следующее соотношение:

.

3.Однофакторный дисперсионный анализ.

Пусть результаты наблюдений составляют независимых выборок, полученных нормально распределенных генеральных совокупностей, которые имеют различные средние и равные дисперсии . Проверяется гипотеза о равенстве средних На практике такая задача возникает при исследовании влияния, которое оказывает изменение некоторого фактора на измеряемую величину. Например, если измерения проводятся на различных приборах, то можно исследовать влияние фактора «прибор» на результаты измерений. В данном случае нас интересует вопрос, имеют ли различные приборы одну и ту же систематическую ошибку.

Пусть обозначает -й элемент -й выборки, -выборочное среднее -й выборки, т.е.

;

- общее выборочное среднее, т.е.

где -общее число наблюдений,

Общая сумма квадратов отклонений от общего среднего может быть представлена так:

Это основное тождество дисперсионного анализа. Запишем его в виде

где -общая сумма квадратов отклонений наблюдений от общего среднего, - сумма квадратов отклонений выборочных средних от общего среднего , - сумма квадратов отклонений наблюдений от выборочных средних.

Данное тождество легко проверяется, если учесть, что

и

в силу определения и

Если верна гипотеза : , то статистики и независимы и имеют распределение с и степенями свободы. Следовательно, статистики и являются несмещенными оценками дисперсии . Значительное превышение величины над значением величины можно объяснить различием средних в группах. Отношение этих оценок имеет распределение Фишера с и степенями свободы, т.е.

Эта статистика используется для проверки гипотезы : . Гипотеза не противоречит результатам наблюдений, если выборочное значение статистики меньше квантили . В этом случае и являются несмещенными оценками параметров и . Если то гипотеза отклоняется и следует считать, что среди средних имеется хотя бы два не равных друг другу.

Практическая часть.

Выборочная линейная регрессия на по выборке , определяется уравнением

.

Тогда

.

,

Аналогично определяется выборочная линейная регрессия на :

.

Найдем коэффициент корреляции:

Проверка:

Прямые

пересекутся в точке (4,1744; 2,765).

Вычислим остатки (см. таблицу),

где - расчетные значения.

Найдем остаточную сумму квадратов

.

Остаточная дисперсия

Сумма квадратов, обусловленная регрессией

Коэффициент детерминации

Коэффициент корреляции

Границы доверительных интервалов для параметров линейной регрессии имеют вид

Границы доверительного интервала для среднего значения , соответствующего заданному значению , определяются формулой

Доверительный интервал для дисперсии ошибок наблюдений имеет вид

,

.

Используя однофакторный дисперсионный анализ, найти и дл проверки гипотезы

по выборке (уровень значимости ).

Сумма всех элементов (компонент) выборки

Найдем

Далее

Тогда

Выборочное значение статистики

.

Найдем по таблице квантиль . Так как , то гипотеза о равенстве средних возможно верна.

Вводимые данные

ΔX²

ΔY²

Произведение величин

Остатки

Остаточная сумма квадратов

X

Y

(X-ср(y))²

(Y-ср(y))²

XY

(X+Y)²

ei

Qe

5.72

4.04

2.3889

1.6256

32.7184

16.3216

23.1088

95.2576

0.1472

0.0217

2.27

1.25

3.6267

2.2952

5.1529

1.5625

2.8375

12.3904

-0.1254

0.0157

7.03

5.27

8.1545

6.2750

49.4209

27.7729

37.0481

151.2900

0.4213

0.1775

4.37

5.06

0.0383

5.2670

19.0969

25.6036

22.1122

88.9249

2.1523

4.6323

3.67

2.00

0.2544

0.5852

13.4689

4.0000

7.3400

32.1489

-0.3969

0.1576

3.7

2.8

0.2251

0.0012

13.6900

7.8400

10.3600

42.2500

0.3812

0.1453

0.25

0.36

15.4009

5.7840

0.0625

0.1296

0.0900

0.3721

0.4586

0.2103

1.82

1.14

5.5432

2.6406

3.3124

1.2996

2.0748

8.7616

0.0930

0.0086

6.55

5.6

5.6435

8.0372

42.9025

31.3600

36.6800

147.6225

1.1016

1.2135

3.71

1.93

0.2157

0.6972

13.7641

3.7249

7.1603

31.8096

-0.4961

0.2462

5.15

4.54

0.9518

3.1506

26.5225

20.6116

23.3810

93.8961

1.0631

1.1302

3.34

0.97

0.6962

3.2220

11.1556

0.9409

3.2398

18.5761

-1.1862

1.4070

4.56

0.35

0.1487

5.8322

20.7936

0.1225

1.5960

24.1081

-2.6964

7.2704

2.88

1.17

1.6755

2.5440