Анализ данных в линейной регрессионной модели / тер вер.doc
Курсовая работа « Анализ данных в линейной регрессионной модели» по «теории вероятности и математической статистике»
Выполнил : студент Экт-25
Писанко Дмитрий
2001, МИЭТ
План.
1)Данные.
2)Теоретическая часть.
3)Практическая часть.
4)Сравнение результатов
X | Y | Остатки |
6,15 | 18,94 | 0,849025 |
7,07 | 18,51 | 0,034005 |
7,35 | 18,46 | -0,13318 |
8,16 | 18,58 | -0,35216 |
3,73 | 16,18 | -0,89821 |
5,67 | 17,84 | -0,0501 |
4,95 | 17,42 | -0,16878 |
4,11 | 17,19 | -0,04724 |
7,81 | 19,05 | 0,264315 |
4,29 | 17,48 | 0,167435 |
6,68 | 17,91 | -0,40278 |
3,25 | 16,82 | -0,05732 |
6,49 | 18,44 | 0,206735 |
4,71 | 17,53 | 0,041665 |
3,25 | 17,29 | 0,412675 |
7,34 | 18,6 | 0,01101 |
7,4 | 18,96 | 0,3459 |
4,78 | 17,84 | 0,32237 |
6,18 | 18,82 | 0,71647 |
6,44 | 18,8 | 0,58766 |
6,45 | 17,73 | -0,48653 |
7,58 | 18,57 | -0,11943 |
6,18 | 17,74 | -0,36353 |
7,53 | 19,89 | 1,221495 |
4,76 | 17,44 | -0,06926 |
5,78 | 18,24 | 0,30387 |
6,97 | 19,01 | 0,575855 |
4,58 | 16,25 | -1,18393 |
3,45 | 16,56 | -0,40103 |
5,04 | 17,15 | -0,47644 |
7,08 | 17,75 | -0,73018 |
5,04 | 18,35 | 0,72356 |
4,92 | 16,77 | -0,80622 |
5,82 | 17,41 | -0,54287 |
6,31 | 18,71 | 0,552065 |
6,59 | 19,05 | 0,774885 |
9,11 | 17,32 | -2,00974 |
9,91 | 19,65 | -0,01454 |
5,78 | 18,22 | 0,28387 |
3,4 | 16,55 | -0,3901 |
3,83 | 17,65 | 0,529945 |
4,75 | 17,86 | 0,354925 |
3,32 | 17,33 | 0,42338 |
5,82 | 17,16 | -0,79287 |
4,79 | 17,42 | -0,10181 |
5,13 | 16,54 | -1,12411 |
8,63 | 19,92 | 0,791145 |
3,94 | 17,2 | 0,03391 |
5,21 | 18,57 | 0,872415 |
3,7 | 17,39 | 0,32435 |
Статистическое описание и выборочные характеристики двумерного случайного вектора.
Пусть (xi,yi), i = 1,2,......,n ,- выборка объема n из наблюдений случайного двумерного вектора (X,Y). Предварительное представление о двумерной генеральной совокупности можно получить, изображая элементы выборки точками на плоскости с выбранной декартовой прямоугольной системой координат. Это представление выборки называется диаграммой рассеивания.
Построить диаграмму рассеяния нанести на нее уравнения регресси Y на X
y=β*0 +β*1x и X на Y x=β*′0 +β*′1y.
Сначала вычислим суммы
∑xi , ∑yi ,∑x2i ,∑y2i , ∑xiyi ,∑ (xi+yi)2
Для контроля правильности вычислений используется тождество
∑ (xi+yi)2= ∑x2i + 2 ∑xiyi + ∑y2i
Выборочные средние находятся по формулам
x*=α*1,0=(1/n) ∑xi , y*=α*0,1=(1/n) ∑yi . (1)
Затем вычисляются суммы квадратов отклонений от среднего и произведений отклонений от средних :
Qx=∑(xi - x*)2=∑x2i - (∑x)2i/n , (2)
Qy=∑(yi - y*)2=∑y2i - (∑y)2i/n , (3)
Qxy=∑(xi - x*)(yi - y*)=∑xiyi - (∑x i)(∑yi )/n , (4)
Отсюда
D*x= (1/n) Qx , D*y= (1/n) Qy ,
R=(μ*1,1)/ (D*x D*y)1/2= (Qxy)/( Qx Qy)1/2 (5)
Выборочная линейная регрессия Y на X по выборке (xi , yi ), i= 1,......, n определяется уравнением
y=β*0 +β*1x= y* + r (D*x / D*y ) (x - x*)
Коэффициенты β*0 и β*1 называются выборочными коэффициентами регрессии. Они вычисляются по формулам
β1*=[n ∑ xiyi - (∑x i)(∑yi )]/(n ∑x2i - (∑xi)2 ) = Qxy / Qx (6)
β0* = y*- β1*x* (7)
Аналогично определяется выборочная линейная регрессия X на Y :
x=β*′0 +β*′1y = x* + r (D*x / D*y ) (y - y*)
β1*′=[n ∑ xiyi - (∑x i)(∑yi )]/(n ∑y2i - (∑yi)2 ) = Qxy / Qy (8)
β0*′= x*- β*′1y* (9)
Для контроля правильности расчетов используют соотношение
(β1*β1*′)1/2= r (10)
Прямые
y=β*0 +β*1x , x=β*′0 +β*′1y
Пересекаются в точке с координатами (x*, y* )
Функция y=β*0 +β*1x
Определяет выборочную (эмпирическую ) регрессию Y на x. Последняя является оценкой предполагаемой (теоретической) регрессии по результатам наблюдений. Разности между наблюдаемыми значениями переменной Y при x=xi , i=1,2,....,n, и расчетными значениями ŷi=β*0 +β*1x называются остатками и обозначаются ei :
ei = yi - ŷ i, i = 1,2,......,n . Все остатки приведены в таблице 1. (11)
Качество аппроксимации результатов наблюдений (xi,yi), i = 1,2,......,n , выборочной регрессии определяется величиной остаточной дисперсии , вычисляемой по формуле
S2=∑ e2i /(n-2)=1/(n-2) ∑[ yi - (β*0 +β*1xi)]2=Qe/(n-2) (12)
Величина Qe определяемая выражением
Qe = ∑ e2i=∑ (yi - ŷ i) (13)
Называется остаточной суммой квадратов.
В практических вычислениях остаточную сумму квадратов получают из тождества
∑ (yi - y*i)2 = ∑ (ŷi - y*i )2 + ∑ (yi - ŷi) 2 (14)
Которое записывается в виде
Qy = Qr + Qe , где
Qy= ∑ (yi - y*i)2= ∑ (y2i - n*y*i) ,
Qr =∑ (ŷi - y*i )2=β*1 Qxy=β2*1 Qx= Q2xy/ Qx (15)
Величина Qr называется суммой квадратов, обусловленной регрессией регрессией.
Полезной характеристокой линейной регрессии является коэффициент детерминации R2 , вычисляемый по формуле
R2= Qr / Qy =1 - (Qe / Qy) (16)
Коэффициент детерминации R2 равен той доле разброса результатов наблюдений (xi,yi), i = 1,2,......,n , относительно горизонтальной прямой y=y* , которая объсняется выборочной регрессией . Величина R= + (R2)1/2 является оценкой коэффициента корреляции между результатами наблюдений yi и вычисленными значениями ŷi , предсказываемыми регрессией , т.е.
R= p*yŷ= ryŷ
В случае линейной регрессии Y на x (одной независимой переменной x) между коэффициентом R и выборочным коэффициентом корреляции rxy имеется следующее соотношение :
rxy = ( знак β*1 ) R .
Однофакторный дисперсионный анализ.
Пусть результаты наблюдений составляют l независимых выборок ( групп ), полученных из l нормально распределенных генеральных совокупностей, которые имеют, вообще говоря, различные средние m1 , m2 , ..... , ml и равные дисперсии σ2. Проверяется гипотеза о равенстве средних H0 m1= m2 = ..... =ml. На практике такая задача возникает при исследованиии влияния, которое оказывает изменение некоторого фактора на измеряемую величину. Например, если измерения проводятся на l различных приборах, то можно исследовать влияние фактора «прибор» на результаты измерений. В данном случае на синтересует вопрос, имеют ли различные приборы одну и ту же систематическую ошибку ( гипотеза H0 ) . При l=2 для проверки гипотезы H0 используется известные критерии значимости. Если l>2, то для проверки гипотезы о равенстве l средних применяют однофакторный дисперсионный анализ, суть которого состоит в следующем.
Пусть xik обозначает i-й элемент k-й выборки , i = 1,2,......,n , k = 1,2,......,n , x*k-выборочное среднее k-й выборки, т.е.
x*k=(1/nk) ∑ xik = (1/n) x ..k ,
k*- общее выборочное среднее, т.е.
x*=∑∑ xik = (1/n) x . . ,
где n - общее число наблюдений, n= ∑ nk
Общая сумма квадратов отклонений наблюдений от общего среднего x* может быть предтавлена так :
∑∑ ( xik - x*)2=∑ nk ( x*k - x*)2+∑∑ ( xik - x*k)2 (17)
Это основное тождество дисперсионного анализа. Запишем его в виде
Q=Q1+Q2 (18)
Где Q- общая сумма квадратов отклонений наблюдений от общего среднего, Q1 - сумма квадратов отклонений выборочных средних x*k от общего среднего x* (между группами), Q2-сумма квадратов отклонений наблюдений от выборочных средних групп (внутри групп).
