Стандартная ошибка регрессии

Точность коэффициентов регрессии. Доверительные интервалы

Оценки коэффициентов регрессии зависят от используемой выборки значений переменных x и y и являются случайными величинами. Для характеристики точности полученных оценок можно использовать стандартные ошибки коэффициентов регрессии.

Под стандартной ошибкой коэффициента регрессии понимается оценка стандартного отклонения функции плотности вероятности данного коэффициента.

Стандартные ошибки коэффициентов регрессии определяются соотношениями

, (15.24)

где представляет собой несмещенную оценку остаточной дисперсии

;

— диагональный элемент матрицы .

Величину можно вычислить как

,

где — алгебраическое дополнение к элементу ii матрицы .

Сопоставляя оценки параметров и их стандартные ошибки, можно сделать вывод о надежности (точности) полученных оценок.

Для оценки статистической значимости коэффициентов регрессии применяется t-критерий Стьюдента, основанный на том факте, что отношения

(15.25)

являются t-статистиками, т. е. случайными величинами, распределенными по закону Стьюдента с числом степеней свободы np-1. Через обозначены точные значения коэффициентов регрессии.

Согласно t-критерию Стьюдента, выдвигается «нулевая» гипотеза о статистической незначимости коэффициента уравнения регрессии (т. е. о статистически незначимом отличии величины а или от нуля). Эта гипотеза отвергается при выполнении условия , где определяется по таблицам t-критерия Стьюдента по числу степеней свободы (p — число независимых переменных в уравнении регрессии) и заданному уровню значимости α.

t — критерий Стьюдента применяется в процедуре принятия решения о целесообразности включения фактора в модель. Если коэффициент при факторе в уравнении регрессии оказывается незначимым, то включать данный фактор в модель не рекомендуется.

Точность коэффициентов регрессии. Доверительные интервалы

Отметим, что это правило не является абсолютным и бывают ситуации, когда включение в модель статистически незначимого фактора определяется экономической целесообразностью.

Доверительные интервалы для параметров уравнения линейной регрессии определяются соотношениями:

. (15.26)

Величина представляет собой табличное значение t-критерия Стьюдента на уровне значимости α при степени свободы n–2.

Если в границы доверительного интервала попадает ноль, т. е. нижняя граница отрицательна, а верхняя положительна, то оцениваемый параметр принимается равным нулю, так как он не может одновременно принимать и положительное, и отрицательное значения.

Точность полученного уравнения регрессии можно оценить, анализируя доверительный интервал для функции регрессии, т. е. для среднего значения , зависимой переменной y при заданных значениях объясняющих переменных ,

Доверительный интервал для функции регрессии определяется соотношениями

, (15.27)

где – групповая средняя, определяемая по уравнению регрессии (3.4) при заданных значениях объясняющих переменных ;

– (15.28)

ее стандартная ошибка;

– точное значение групповой средней; – вектор, составленный из заданных значений независимых переменных .

Доверительный интервал для индивидуальных значений зависимой переменной определяется соотношениями

(15.29)

где

(15.30)

есть стандартная ошибка индивидуальных значений зависимой переменной .

Дата добавления: 2015-11-06; просмотров: 463;

Стандартная ошибка регрессии Sxy.

Основные причины наличия в регрессионной модели случайного отклонения.

Невключение в модель всех объясняющих переменных.

Проблема в том, что никогда заранее не известно, какие факторы при создав­шихся условиях действительно являются определяющими, а какими можно пренебречь. Здесь уместно отметить, что в ряде случаев учесть непосредственно какой-то фактор нельзя в силу невозможности получения по нему статистических данных.

Неправильный выбор функциональной формы модели.

Из-за слабой изученности исследуемого процесса либо из-за его переменчивости может быть неверно подобрана функция, его моделирующая. Это, безусловно, скажется на отклонении моде­ли от реальности, что отразится на величине случайного члена.

Агрегирование переменных.

Во многих моделях рассмат­риваются зависимости между факторами, которые сами пред­ставляют сложную комбинацию других, более простых пере­менных.

Ошибки измерений.

Какой бы качественной ни была мо­дель, ошибки измерений переменных отразятся на несоответствии модельных значений эмпирическим данным, что также отразится на величине случайного члена.

Ограниченность статистических данных.

Зачастую строятся модели, выражаемые непрерывными функциями. Но для этого используется набор данных, имеющих дискретную структуру. Это несоответствие находит свое выражение в слу­чайном отклонении.

Непредсказуемость человеческого фактора.

Лекции по дисциплине «Эконометрика» (заочное отделение) (стр. 2 )

Эта причи­на может «испортить» самую качественную модель. Действи­тельно, при правильном выборе формы модели, скрупулезном подборе объясняющих переменных все равно невозможно спрогнозировать поведение каждого индивидуума.

Основные этапы регрессионного анализа.

1) выбор формулы уравнения регрессии;

2) определение параметров выбранного уравнения;

3) анализ качества уравнения и проверка адекватности урав­нения эмпирическим данным, совершенствование уравнения.

Спецификация модели, каким образом она осуществляется?

Выбор формулы связи переменных называется специфика­цией уравнения регрессии. В случае парной регрессии выбор формулы обычно осуществляется по графическому изображе­нию реальных статистических данных в виде точек в декарто­вой системе координат, которое называется корреляционным полем (диаграммой рассеивания)(рис. 4.1).

На рис. 4.1 представлены три ситуации.

На графике 4.1, взаимосвязь между X и Y близка к ли­нейной, и прямая 1 достаточно хорошо соответствует эмпирическим точкам. Поэтому в данном случае в качестве зависимости между X и Y целесообразно выбрать линейную функцию.

На графике 4.1,б реальная взаимосвязь между X и У, скорее всего, описывается квадратичной функцией (линия 2). И какую бы мы ни провели прямую (например, ли­ния 1), отклонения точек наблюдений от нее будут существен­ными и неслучайными.

На графике 4.1,в явная взаимосвязь между X и Уотсутст­вует. Какую бы мы ни выбрали форму связи, результаты ее спе­цификации и параметризации (определение коэффициентов уравнения) будут неудачными. В частности, прямые 1 и 2, про­веденные

через центр «облака» наблюдений и имеющие проти­воположный наклон, одинаково плохи для того, чтобы делать выводы об ожидаемых значениях переменной У по значениям переменной X.

Стандартная ошибка регрессии Sxy.

Рассмотрим модель парной линейной регрессии

(5.1)

Пусть на основе выборки из наблюдений оценивается ре­грессия

(5.2)

Как показано в формуле (4.14), (5.3)

что означает, что коэффициент также является случайным. В самом деле, значение выборочной ковариации Sxyзависит от того, какие значения принимают X и У. Если X можно рассмат­ривать как экзогенный фактор, значения которого известны, то значения У зависят от случайной составляющей . Теоретиче­ски коэффициент можно разложить на неслучайную и слу­чайную составляющие.

Стандартная ошибка показывает отклонение эмпирического уравнения от теоретического. Чем меньше стандартная ошибка, тем лучше, т.е. эмпирическое уравнение близка к теоретическому. Мы знаем, что теоретическое уравнение используется для ген. совокупности, этот класс шире, а эмпирическое для конкретной выборки.

Ниворожкина Л.И. Основы статистики с элементами теории вероятностей для экономистов: Руководство для решения задач — файл n1.doc

приобрести
Ниворожкина Л.И. Основы статистики с элементами теории вероятностей для экономистов: Руководство для решения задач
скачать (17128 kb.)
Доступные файлы (1):

n1.doc

1 …   21   22   23   24   25   26   27   28   …   32

9.10.

Стандартные ошибки корреляции, стандартные ошибки параметров линейной регрессии.

Стандартная ошибка оценки уравнения регрессии
Хотя метод наименьших квадратов дает нам ли­нию регрессии, которая обеспечивает минимум вариа­ции, регрессионное уравнение не является идеальным в смысле предсказания, поскольку не все значения зависимого признака Y удовлетворяют уравнению ре­грессии. Нам необходима статистическая мера вари­ации фактических значений Y от предсказанных зна­чений Y. Эта мера в то же время является средней вариацией каждого значения относительно среднего значения Y. Мера вариации относительно линии регрессии называется стандартной ошибкой оценки.

Колеблемость фактических значений признака Y относительно линии регрессии показана на рис. 9.3.

Из диаграммы видно, что хотя теоретическая линия регрессии проходит относительно близко от фактических значений Y, часть этих точек лежит выше или ниже линии регрессии. При этом

Стандартная ошибка оценки определяется как

где уi — фактические значения Y;

yx предсказанные значения Y для заданного х.

Для вычисления более удобна следующая фор­мула:

Нам уже известны

Тогда

Итак, для нашего примера: Syx = 0,497. Эта стандартная ошибка характеризует меру вариа­ции фактических данных относительно линии ре­грессии. Интерпретация этой меры аналогична интерпретации среднего квадратического отклоне­ния. Если среднее квадратическое отклонение — это мера вариации относительно средней, то стан­дартная ошибка — это оценка меры вариации отно­сительно линии регрессии. Однако стандартная ошибка оценки может быть использована для вы­водов о значении yx и выяснения, является ли статистически значимой взаимосвязь между дву­мя переменными.

9.11. Измерение вариации по уравнению регрессии

Для проверки того, насколько хорошо независи­мая переменная предсказывает зависимую переменную в нашей модели, необходим расчет ряда мер вариации. Первая из них — общая (полная) сумма квадратов отклонений результативного признака от средней — есть мера вариации значений Y относи­тельно их среднего Y . В регрессионном анализе об­щая сумма квадратов может быть разложена на объясняемую вариацию или сумму квадратов от­клонений за счет регрессии и необъясняемую вариацию или остаточную сумму квадратов отклонений (рис. 9.4).

Сумма квадратов отклонений вследствие регрес­сии это — сумма квадратов разностей между y

(средним значением Y) и yx (значением Y, предска­занным по уравнению регрессии). Сумма квадратов отклонений, не объясняемая регрессией (остаточ­ная сумма квадратов), — это сумма квадратов раз­ностей y и yx . Эти меры вариации могут быть пред­ставлены следующим образом (табл.9.8):

Таблица 9.8

Легко увидеть, что остаточная сумма квадратов (y-yx)2 — это выражение, стоящее под знаком корня в формуле (9.25) (стандартной ошибки оцен­ки). Тем не менее в процессе вычислений стандартной ошибки мы всегда вначале вычисляем сумму квадратов ошибки.

Остаточная сумма квадратов может быть пред­ставлена следующим образом:

Объясняемая сумма квадратов выразится так:

В самом деле

51,3605 = 46,9145 + 4,4460.

Из этого соотношения определяется коэффициент детерминации:

Отсюда коэффициент детерминации — доля ва­риации Y, которая объясняется независимыми переменными в регрессионной модели. Для нашего примера rг= 46,9145/51,3605 = 0,913.

Следовательно, 91,3% вариации еженедельной выручки магазинов могут быть объяснены числом покупателей, варьирующим от магазина к магази­ну. Только 8,7% вариации можно объяснить ины­ми факторами, не включенными в уравнение рег­рессии.

В случае парной регрессии коэффициент детер­минации равен квадратному корню из квадрата коэффициента линейной корреляции Пирсона

В простой линейной регрессии г имеет тот же знак, что и b1, Если b1 > 0, то r > 0; если b1 < 0, то r < 0, если b1 = 0, то r = 0.

В нашем примере r2 = 0,913 и b1 > 0, коэффици­ент корреляции r = 0,956. Близость коэффициента корреляции к 1 свидетельствует о тесной положи­тельной связи между выручкой магазина от прода­жи пива и числом посетителей.

Мы интерпретировали коэффициент корреляции в терминах регрессии, однако корреляция и регрессия — две различные техники. Корреляция ус­танавливает силу связи между признаками, а регрессия — форму этой связи. В ряде случаев для анализа достаточно найти меру связи между признаками, без использования одного из них в каче­стве факторного признака для другого.

9.12. Доверительные интервалы для оценки неизвестного генерального значения yген() и индивидуального значения yi

Поскольку в основном для построения регрессионных моделей используются данные выборок,то зачастую интерпретация взаимоотношений между переменными в генеральной совокупности базируется на выборочных результатах.

Как было сказано выше, регрессионное уравнение используется для прогноза значений Y по заданному значению X. В нашем примере показано, что при 600 посетителях магазина сумма выручки могла бы быть 7,661 у. е. Однако это значение — только точечная оценка истинного среднего значе­ния. Мы знаем, что для оценки истинного значе­ния генерального параметра возможна интерваль­ная оценка.

Доверительный интервал для оценки неизвест­ного генерального значения yген() имеет вид

где

Здесь yx предсказанное значение Y

(yx==b0+b1yi);

Syx стандартная ошибка оценки;

п — объем выборки;

хi заданное значение X.

Легко видеть, что длина доверительного интер­вала зависит от нескольких факторов. Для заданного уровня значимости увеличение вариации вокруг линии регрессии, измеряемой стандартной ошибкой оценки, увеличивает длину интервала. Увеличение объема выборки уменьшит длину интервала. Более того, ширина интервала также ва­рьирует с различными значениями X. Когда оценивается yx по значениям X, близким к x, то ин­тервал тем уже, чем меньше абсолютное отклонение хi от x (рис. 9.5).

Когда оценка осуществляется по значениям X, удаленным от среднего x, то длина интервала возрастает.

Рассчитаем 95%-й доверительный интервал для среднего значения выручки во всех магазинах с числом посетителей, равным 600. По данным на­шего примера уравнение регрессии имеет вид

yx = 2,423 + 0,00873x:

и для xi = 600 получим yi; =7,661, а также

По таблице Стьюдента (приложение 5)

t18 = 2,10.

Отсюда, используя формулы (9.31) и (9.32), рас­считаем границы искомого доверительного интер­вала для yx

Итак, 7,369  yx 7,953.

Следовательно, наша оценка состоит в том, что средняя дневная выручка находится между 7,369 и 7,953 у. е. для всех магазинов с 600 посетителями.

Для построения доверительного интервала для индивидуальных значений Yx, лежащих на линии регрессии, используется доверительный интервал регрессии вида


где hi yi, , Syx ,п и хi определяются, как и в формулах (9.31) и (9.32).

Определим 95% -и доверительный интервал для оценки дневных продаж отдельного магазина с 600посетителями

В результате вычислений получим

Итак, 6,577yi 8,745.

Следовательно, с 95%-й уверенностью можно ут­верждать, что ежедневная выручка отдельного магазина, который посетили 600 покупателей, нахо­дится в пределах от 6,577 до 8,745 у. е. Длина это­го интервала больше чем длина интервала, полу­ченного ранее для оценки среднего значения Y.

1   …   21   22   23   24   25   26   27   28   …   32

9.10. Стандартная ошибка оценки уравнения регрессии

© nashaucheba.ru
При копировании укажите ссылку.
обратиться к администрации

admin