Что понимается под мультиколлинеарностью

Поиск Лекций

Понятие мультиколлинеарности факторов. Способы устранения

Под мультиколлинеарностью понимается высокая взаимная коррелированность объясняющих переменных. Мультиколлинеарность может проявляться в функциональной (явной) и стохастической (скрытой) формах. При функциональной форме мультиколлинеарности по крайней мере одна из парных связей между объясняющими переменными является линейной функциональной зависимостью. В этом случае матрица X`X особенная, так как содержит линейно зависимые векторы-столбцы, и её определитель равен нулю, т.е. нарушается предпосылка регрессионного анализа, это приводит к невозможности решения соответствующей системы нормальных уравнений и получения оценок параметров регрессионной модели. Однако в экономических исследованиях мультиколлинеарность чаще проявляется в стохастической форме, когда между хотя бы двумя объясняющими переменными существует тесная корреляционная связь. Матрица X`X в этом случае является неособенной, но её определитель очень мал. В то же время вектор оценок b и его ковариционная матрица ∑b пропорциональны обратной матрице (X`X)-1, а значит, их элементы обратно пропорциональны величине определителя |X`X|. В результате получаются значительные средние квадратические отклонения (стандартные ошибки) коэффициентов регрессии b0, b1,…,bp и оценка их значимости по t-критерию не имеет смысла, хотя в целом регрессионная модель может оказаться значимой по F-критерию. Оценки становятся очень чувствительными к незначительному изменению результатов наблюдений и объёма выборки. Уравнения регрессии в этом случае, как правило, не имеют реального смысла, так как некоторые из его коэффициентов могут иметь неправильные с точки зрения экономической теории знаки и неоправданно большие значения. Существует два основных метода устранения мультиколлинарности факторов: 1.Метод дополнительных регрессий: -Строятся уравнения регрессии, которые связывают каждый из регрессоров со всеми остальными; — Вычисляются коэффициенты детерминации для каждого уравнения регрессии; — Проверяется статистическая гипотеза с помощью F-теста. Вывод: если гипотеза не отвергается, то данный регрессор не приводит к мультиколлинеарности. 2. Метод последовательного присоединения: — Строится регрессионная модель с учетом всех предполагаемых регрессоров. По признакам делается вывод о возможном присутствии мультиколлинеарности; — Рассчитывается матрица корреляций и выбирается регрессор, имеющий наибольшую корреляцию с выходной переменной; — К выбранному регрессору последовательно добавляются каждый из оставшихся регрессоров и вычисляются скорректированные коэффициенты детерминации для каждой из моделей. К модели присоединяется тот регрессор, который обеспечивает наибольшее значение скорректированного . Процесс присоединения регрессоров прекращается, когда значение скорректированного становится меньше достигнутого на предыдущем шаге. Каким бы образом не осуществлялся отбор факторов, уменьшение их числа приводит к улучшению обусловленности матрицы , а, следовательно, и к повышению качества оценок параметров модели. Помимо перечисленных методов существует ещё один, более простой, дающий достаточно хорошие результаты — это метод предварительного центрирования.

Понятие мультиколлинеарности. Методы обнаружения и устранения мультиколлинеарности.

Суть метода сводится к тому, что перед нахождением параметров математической модели проводится центрирование исходных данных: из каждого значения в ряде данных вычитается среднее по ряду: . Эта процедура позволяет так развести гиперплоскости условий МНК, чтобы углы между ними были перпендикулярны. В результате этого оценки модели становятся устойчивыми

©2015-2018 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Нарушение авторских прав и Нарушение персональных данных

Федеральное агентство по образованию и науке РФ

Костромской государственный технологический университет.

Кафедра высшей математики

Реферат

по эконометрике на тему:

Мультиколлинеарность

Выполнила

студент 1 курса

заочного факультета

сп-ть «Бухгалтерский учёт,

анализ и аудит».

Проверила

Катержина С.Ф.

Кострома 2008 г

Мультиколлинеарность

Под мультиколлинеарностью понимается высокая взаимная коррелированность объясняющих переменных. Мультиколлинеарность может проявляться в функциональной (явной) и стохастической (скрытой) формах.

При функциональной форме мультиколлинеарности по крайней мере одна из парных связей между объясняющими переменными является линейной функциональной зависимостью. В этом случае матрица X`X особенная, так как содержит линейно зависимые векторы-столбцы, и её определитель равен нулю, т.е. нарушается предпосылка регрессионного анализа, это приводит к невозможности решения соответствующей системы нормальных уравнений и получения оценок параметров регрессионной модели.

Однако в экономических исследованиях мультиколлинеарность чаще проявляется в стохастической форме, когда между хотя бы двумя объясняющими переменными существует тесная корреляционная связь. Матрица X`X в этом случае является неособенной, но её определитель очень мал.

В то же время вектор оценок b и его ковариционная матрица ∑b пропорциональны обратной матрице (X`X)-1 , а значит, их элементы обратно пропорциональны величине определителя |X`X|. В результате получаются значительные средние квадратические отклонения (стандартные ошибки) коэффициентов регрессии b0 , b1 ,…,bp и оценка их значимости по t-критерию не имеет смысла, хотя в целом регрессионная модель может оказаться значимой по F-критерию.

Оценки становятся очень чувствительными к незначительному изменению результатов наблюдений и объёма выборки. Уравнения регрессии в этом случае, как правило, не имеют реального смысла, так как некоторые из его коэффициентов могут иметь неправильные с точки зрения экономической теории знаки и неоправданно большие значения.

Точных количественных критериев для определения наличия или отсутствия мультиколлинеарности не существует. Тем не менее, имеются некоторые эвристические подходы по её выявлению.

Один из таких подходов заключается в анализе корреляционной матрицы между объясняющими переменными X1 ,X2 ,…,Xp и выявлении пар переменных, имеющих высокие переменные корреляции (обычно больше 0,8).

Если такие переменные существуют, говорят о мультиколлинеарности между ними. Полезно также находить множественные коэффициенты детерминации между одной из объясняющих переменных и некоторой группой из них. Наличие высокого множественного коэффициента детерминации (обычно больше 0,6) свидетельствует о мультиколлинеарности.

Другой подход состоит в исследовании матрицы X`X. Если определитель матрицы X`X либо её минимальное собственное значение λmin близки к нулю ( например одного порядка с накапливающимися ошибками вычислений), то это говорит о наличии мультиколлинеарности. о том же может свидетельствовать и значительное отклонение максимального собственного значения λmax матрицы X`X от её минимального собственного значения λmin .

Для устранения или уменьшения мультиколлинеарности используется ряд методов. Самый простой из них (но далеко не всегда возможный) состоит в том, что из двух объясняющих переменных, имеющих высокий коэффициент корреляции (больше 0,8), одну переменную исключают из рассмотрения. При этом, какую переменную оставить, а какую удалить из анализа, решают в первую очередь на основании экономических соображений. Если с экономической точки зрения ни одной из переменных нельзя отдать предпочтение, то оставляют ту из двух переменных, которая имеет больший коэффициент корреляции с зависимой переменной.

Другой метод устранения или уменьшения мультиколлинеарности заключается в переходе от несмещённых оценок, определённых по методу наименьших квадратов, к смещённым оценкам, обладающим, однако, меньшим рассеянием относительно оцениваемого параметра, т.е. меньшим математическим ожиданием квадрата отклонения оценки bj от параметра βj или M (bj — βj )2 .

Оценки, определяемые вектором, обладают в соответствии с теоремой Гаусса-Маркова минимальными дисперсиями в классе всех линейных несмещённых оценок, но при наличии мультиколлинеарности эти дисперсии могут оказаться слишком большими, и обращение к соответствующим смещённым оценкам может повысить точность оценивания параметров регрессии. На рисунке показан случай, когда смещённая оценка βj^ , выборочное распределение которой задаётся плотностью φ ( βj^ ).

Действительно, пусть максимально допустимый по величине доверительный интервал для оцениваемого параметра βj есть (βj -Δ, βj +Δ). Тогда доверительная вероятность, или надёжность оценки, определяемая площадью под кривой распределения на интервале (βj -Δ, βj +Δ), как нетрудно видеть из рисунка, будет в данном случае больше для оценки βj по сравнению с bj ( на рисунке эти площади заштрихованы). Соответственно средний квадрат отклонения оценки от оцениваемого параметра будет меньше для смещённой оценки, т.е.:

M ( βj^ — βj )2 < M ( bj — βj )2

При использовании «ридж-регрессии» (или «гребневой регрессии») вместо несмещённых оценок рассматривают смещённые оценки, задаваемые вектором

βτ^ =( X`X+τ Ep+1 )-1 X`Y,

где τ – некоторое положительное число, называемое «гребнем» или «хребтом»,

Ep+1 – единичная матрица (р+1) –го порядка.

Добавление τ к диагональным элементам матрицы X`X делает оценки параметров модели смещёнными, но при этом увеличивается определитель матрицы системы нормальных уравнений – вместо (X`X) от будет равен

|X`X+τ Ep+1 |

Таким образом, становится возможным исключение мультиколлинеарности в случае, когда определитель |X`X| близок к нулю.

Для устранения мультиколлинеарности может быть использован переход от исходных объясняющих переменных X1 ,X2 ,…,Xn , связанных между собой достаточно тесной корреляционной зависимостью, к новым переменным, представляющим линейные комбинации исходных. При этом новые переменные должны быть слабо коррелированными либо вообще некоррелированными. В качестве таких переменных берут, например, так называемые главные компоненты вектора исходных объясняющих переменных, изучаемые в компонентном анализе, и рассматривают регрессию на главных компонентах, в которой последние выступают в качестве обобщённых объясняющих переменных, подлежащих в дальнейшем содержательной (экономической) интерпритации.

Ортогональность главных компонент предотвращает проявление эффекта мультиколлинеарности. Кроме того, применяемый метод позволяет ограничиться малым числом главных компонент при сранительно большом количестве исходных объясняющих переменных.

Мультиколлинеарность — это понятие, которое используется для описания проблемы, когда нестрогая линейная зависимость между объясняющими переменными приводит к получению ненадежных оценок регрессии. Разумеется, такая зависимость совсем необязательно дает неудовлетворительные оценки. Если все другие условия благоприятствуют, т. е. если число наблюдений и выборочные дисперсии объясняющих переменных велики, а дисперсия случайного члена —мала, то в итоге можно получить вполне хорошие оценки.

Итак, мультиколлинеарность должна вызываться сочетанием нестрогой зависимости и одного (или более) неблагоприятного условия, и это — вопрос

степени выраженности явления, а не его вида. Оценка любой регрессии будет страдать от нее в определенной степени, если только все независимые переменные не окажутся абсолютно некоррелированными. Рассмотрение данной проблемы начинается только тогда, когда это серьезно влияет на результаты оценки регрессии.

Эта проблема является обычной для регрессий временных рядов, т. е. когда данные состоят из ряда наблюдений в течение какого-то периода времени.

Мультиколлинеарность (стр. 1 из 2)

Если две или более независимые переменные имеют ярко выраженный временной тренд, то они будут тесно коррелированы, и это может привести к мультиколлинеарности.

Что можно предпринять в этом случае?

Различные методы, которые могут быть использованы для смягчения мультиколлинеарности, делятся на две категории: к первой категории относятся попытки повысить степень выполнения четырех условий, обеспечивающих надежность оценок регрессии; ко второй категории относится использование внешней информации. Если сначала использовать возможные непосредственно получаемые данные, то, очевидно, было бы полезным увеличить число наблюдений.

Если вы применяете данные временных рядов, то это можно сделать путем сокращения продолжительности каждого периода времени. Например, при оценивании уравнений функции спроса в упражнениях 5.3 и 5.6 можно перейти с использования ежегодных данных на поквартальные данные.

После этого вместо 25 наблюдений их станет 100. Это настолько очевидно и так просто сделать, что большинство исследователей, использующих временные ряды, почти автоматически применяют поквартальные данные, если они имеются, вместо ежегодных данных, даже если проблема мультиколлинеарности не стоит, просто для сведения к минимуму теоретических дисперсий коэффициентов регрессии. В таком подходе существуют, однако, и потенциальные проблемы. Можно привнести или усилить автокорреляцию, но она может быть нейтрализована. Кроме того, можно привнести (или усилить) смещение, вызванное ошибками измерения, если поквартальные данные измерены с меньшей точностью, чем соответствующие ежегодные данные. Эту проблему не так просто решить, но она может оказаться несущественной.

3.2.2. Мультиколлинеарность

Мультиколлинеарность

Под мультиколлинеарностью понимается высокая взаимная коррелированность объясняющих переменных.

Следствием мультиколлинеарности является линейная зависимость между столбцами наблюдений в таблице 14.1 или между столбцами матрицы X . В результате, матрица становится плохо обусловленной, что приводит к неустойчивости оценок коэффициентов регрессии, когда незначительные изменения данных наблюдений приводят к значительным изменениям оценок.

Проверка наличия мультиколлинеарности основывается на анализе матрицы парных корреляций между факторами

(14.3)

Коэффициенты парной корреляции между объясняющими переменными используются для выявления дублирующих факторов. Линейная зависимость между объясняющими переменными и считается установленной, если выполняется условие , а сами факторы называются явно коллинеарными (эмпирическое правило). Один из факторов должен быть исключен из модели. Предпочтение при этом отдается тому фактору, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами.

Наряду с парной коллинеарностью может иметь место линейная зависимость между боле, чем двумя переменными. Для оценки мультиколлинеарности факторов в этом случае может использоваться величину определителя матрицы парных коэффициентов корреляции между факторами либо ее минимального собственного значения.

Чем ближе к нулю определитель (минимальное собственное значение) матрицы межфакторной корреляции, тем сильнее мультиколлинеарность между факторами и тем ненадежнее результаты множественной регрессии.

Для оценки статистической значимости мультиколлинеарности факторов может быть использован тот факт, что величина имеет приближенное распределение степенями свободы.

Выдвигается гипотеза о независимости переменных, т. е. . Если фактическое значение превосходит табличное (критическое) , то гипотеза отклоняется и мультиколлинеарность считается доказанной. Для выявления мультиколлинеарности факторов можно использовать коэффициенты множественной детерминации , полученные по уравнениям регрессии, в которых качестве зависимой переменной рассматривается один из факторов. Чем ближе значение коэффициента детерминации к единице, тем сильнее проявляется мультиколлинеарность факторов. Согласно эмпирическому правилу, при значении коэффициента множественной детерминации мультиколлинеарность факторов считается установленной. Оставляя в уравнении регрессии факторы с минимальной величиной коэффициента множественной детерминации, можно исключить мультиколлинеарность факторов.

Для преодоления явления линейной зависимости между факторами используются такие способы, как:

— исключение одного из коррелирующих факторов;

— переход с помощью линейного преобразования к новым некоррелирующим независимым переменным. Например, переход к главным компонентам вектора исходных объясняющих переменных (что позволяет также уменьшить количество рассматриваемых факторов), переход к последовательным разностям во временных рядах и т. п.;

— переход к смещенным оценкам, имеющим меньшую дисперсию. В частности, при использовании «ридж-регрессии» применяются смещенные оценки вектора параметров , где — некоторое положительной число, единичная матрица порядка p+1. Такое преобразование увеличивает определитель матрицы системы нормальных уравнений и повышает устойчивость результатов (снижает дисперсию оценок, которые становятся смещенными).

Следует также учитывать ограничение, накладываемое на количество факторов, имеющимся числом наблюдений. Количество наблюдений должно превышать количество факторов более чем в 6-7 раз.

Дата добавления: 2015-11-06; просмотров: 682;

admin