Курсовая
 

Курсовая работа « Анализ данных в линейной регрессионной модели» по «теории вероятности и математической статистике»

Выполнил : студент Экт-25

Писанко Дмитрий

2001, МИЭТ

План.

1)Данные.

2)Теоретическая часть.

3)Практическая часть.

4)Сравнение результатов

X

Y

Остатки

6,15

18,94

0,849025

7,07

18,51

0,034005

7,35

18,46

-0,13318

8,16

18,58

-0,35216

3,73

16,18

-0,89821

5,67

17,84

-0,0501

4,95

17,42

-0,16878

4,11

17,19

-0,04724

7,81

19,05

0,264315

4,29

17,48

0,167435

6,68

17,91

-0,40278

3,25

16,82

-0,05732

6,49

18,44

0,206735

4,71

17,53

0,041665

3,25

17,29

0,412675

7,34

18,6

0,01101

7,4

18,96

0,3459

4,78

17,84

0,32237

6,18

18,82

0,71647

6,44

18,8

0,58766

6,45

17,73

-0,48653

7,58

18,57

-0,11943

6,18

17,74

-0,36353

7,53

19,89

1,221495

4,76

17,44

-0,06926

5,78

18,24

0,30387

6,97

19,01

0,575855

4,58

16,25

-1,18393

3,45

16,56

-0,40103

5,04

17,15

-0,47644

7,08

17,75

-0,73018

5,04

18,35

0,72356

4,92

16,77

-0,80622

5,82

17,41

-0,54287

6,31

18,71

0,552065

6,59

19,05

0,774885

9,11

17,32

-2,00974

9,91

19,65

-0,01454

5,78

18,22

0,28387

3,4

16,55

-0,3901

3,83

17,65

0,529945

4,75

17,86

0,354925

3,32

17,33

0,42338

5,82

17,16

-0,79287

4,79

17,42

-0,10181

5,13

16,54

-1,12411

8,63

19,92

0,791145

3,94

17,2

0,03391

5,21

18,57

0,872415

3,7

17,39

0,32435

Статистическое описание и выборочные характеристики двумерного случайного вектора.

Пусть (xi,yi), i = 1,2,......,n ,- выборка объема n из наблюдений случайного двумерного вектора (X,Y). Предварительное представление о двумерной генеральной совокупности можно получить, изображая элементы выборки точками на плоскости с выбранной декартовой прямоугольной системой координат. Это представление выборки называется диаграммой рассеивания.

Построить диаграмму рассеяния нанести на нее уравнения регресси Y на X

y=β*0 *1x и X на Y x=β*0 *1y.

Сначала вычислим суммы

∑xi , ∑yi ,∑x2i ,∑y2i , ∑xiyi ,∑ (xi+yi)2

Для контроля правильности вычислений используется тождество

∑ (xi+yi)2= ∑x2i + 2 ∑xiyi + ∑y2i

Выборочные средние находятся по формулам

x**1,0=(1/n) ∑xi , y**0,1=(1/n) ∑yi . (1)

Затем вычисляются суммы квадратов отклонений от среднего и произведений отклонений от средних :

Qx=∑(xi - x*)2=∑x2i - (∑x)2i/n , (2)

Qy=∑(yi - y*)2=∑y2i - (∑y)2i/n , (3)

Qxy=∑(xi - x*)(yi - y*)=∑xiyi - (∑x i)(∑yi )/n , (4)

Отсюда

D*x= (1/n) Qx , D*y= (1/n) Qy ,

R=(μ*1,1)/ (D*x D*y)1/2= (Qxy)/( Qx Qy)1/2 (5)

Выборочная линейная регрессия Y на X по выборке (xi , yi ), i= 1,......, n определяется уравнением

y=β*0 *1x= y* + r (D*x / D*y ) (x - x*)

Коэффициенты β*0 и β*1 называются выборочными коэффициентами регрессии. Они вычисляются по формулам

β1*=[n ∑ xiyi - (∑x i)(∑yi )]/(n ∑x2i - (∑xi)2 ) = Qxy / Qx (6)

β0* = y*- β1*x* (7)

Аналогично определяется выборочная линейная регрессия X на Y :

x=β*0 *1y = x* + r (D*x / D*y ) (y - y*)

β1*=[n ∑ xiyi - (∑x i)(∑yi )]/(n ∑y2i - (∑yi)2 ) = Qxy / Qy (8)

β0*= x*- β*1y* (9)

Для контроля правильности расчетов используют соотношение

1*β1*)1/2= r (10)

Прямые

y=β*0 *1x , x=β*0 *1y

Пересекаются в точке с координатами (x*, y* )

Функция y=β*0 *1x

Определяет выборочную (эмпирическую ) регрессию Y на x. Последняя является оценкой предполагаемой (теоретической) регрессии по результатам наблюдений. Разности между наблюдаемыми значениями переменной Y при x=xi , i=1,2,....,n, и расчетными значениями ŷi*0 *1x называются остатками и обозначаются ei :

ei = yi - ŷ i, i = 1,2,......,n . Все остатки приведены в таблице 1. (11)

Качество аппроксимации результатов наблюдений (xi,yi), i = 1,2,......,n , выборочной регрессии определяется величиной остаточной дисперсии , вычисляемой по формуле

S2=∑ e2i /(n-2)=1/(n-2) ∑[ yi - (β*0 *1xi)]2=Qe/(n-2) (12)

Величина Qe определяемая выражением

Qe = ∑ e2i=∑ (yi - ŷ i) (13)

Называется остаточной суммой квадратов.

В практических вычислениях остаточную сумму квадратов получают из тождества

∑ (yi - y*i)2 = ∑ (ŷi - y*i )2 + ∑ (yi - ŷi) 2 (14)

Которое записывается в виде

Qy = Qr + Qe , где

Qy= ∑ (yi - y*i)2= ∑ (y2i - n*y*i) ,

Qr =∑ (ŷi - y*i )2*1 Qxy2*1 Qx= Q2xy/ Qx (15)

Величина Qr называется суммой квадратов, обусловленной регрессией регрессией.

Полезной характеристокой линейной регрессии является коэффициент детерминации R2 , вычисляемый по формуле

R2= Qr / Qy =1 - (Qe / Qy) (16)

Коэффициент детерминации R2 равен той доле разброса результатов наблюдений (xi,yi), i = 1,2,......,n , относительно горизонтальной прямой y=y* , которая объсняется выборочной регрессией . Величина R= + (R2)1/2 является оценкой коэффициента корреляции между результатами наблюдений yi и вычисленными значениями ŷi , предсказываемыми регрессией , т.е.

R= p*= r

В случае линейной регрессии Y на x (одной независимой переменной x) между коэффициентом R и выборочным коэффициентом корреляции rxy имеется следующее соотношение :

rxy = ( знак β*1 ) R .

Однофакторный дисперсионный анализ.

Пусть результаты наблюдений составляют l независимых выборок ( групп ), полученных из l нормально распределенных генеральных совокупностей, которые имеют, вообще говоря, различные средние m1 , m2 , ..... , ml и равные дисперсии σ2. Проверяется гипотеза о равенстве средних H0 m1= m2 = ..... =ml. На практике такая задача возникает при исследованиии влияния, которое оказывает изменение некоторого фактора на измеряемую величину. Например, если измерения проводятся на l различных приборах, то можно исследовать влияние фактора «прибор» на результаты измерений. В данном случае на синтересует вопрос, имеют ли различные приборы одну и ту же систематическую ошибку ( гипотеза H0 ) . При l=2 для проверки гипотезы H0 используется известные критерии значимости. Если l>2, то для проверки гипотезы о равенстве l средних применяют однофакторный дисперсионный анализ, суть которого состоит в следующем.

Пусть xik обозначает i-й элемент k-й выборки , i = 1,2,......,n , k = 1,2,......,n , x*k-выборочное среднее k-й выборки, т.е.

x*k=(1/nk) ∑ xik = (1/n) x ..k ,

k*- общее выборочное среднее, т.е.

x*=∑∑ xik = (1/n) x . . ,

где n - общее число наблюдений, n= ∑ nk

Общая сумма квадратов отклонений наблюдений от общего среднего x* может быть предтавлена так :

∑∑ ( xik - x*)2=∑ nk ( x*k - x*)2+∑∑ ( xik - x*k)2 (17)

Это основное тождество дисперсионного анализа. Запишем его в виде

Q=Q1+Q2 (18)

Где Q- общая сумма квадратов отклонений наблюдений от общего среднего, Q1 - сумма квадратов отклонений выборочных средних x*k от общего среднего x* (между группами), Q2-сумма квадратов отклонений наблюдений от выборочных средних групп (внутри групп).