Говорит об отсутствии мультиколлинеарности более. Понятие мультиколлинеарности

Офисные 28.11.2023
Офисные

Основные положения

Если регрессоры в модели связаны строгой функциональной зависимостью, то имеет место полная (совершенная) мультиколлинеарность . Данный вид мультиколлинеарности может возникнуть, например, в задаче линейной регрессии, решаемой методом наименьших квадратов , если определитель матрицы будет равен нулю. Полная мультиколлинеарность не позволяет однозначно оценить параметры исходной модели и разделить вклады регрессоров в выходную переменную по результатм наблюдений.

В задачах с реальными данными случай полной мультиколлинеарности встречается крайне редко. Вместо этого в прикладной области часто приходится иметь дело с частичной мультиколлинеарностью , которая характеризуется коэффициентами парной корреляции между регрессорами. В случае частичной мультиколлинеарности матрица будет иметь полный ранг, но ее определитель будет близок к нулю. В этом случае формально можно получить оценки параметров модели и их точностные показатели, но все они будут неустойчивыми.

Среди последствий частичной мультиколлинеарности можно выделить следующие:

  • увеличение дисперсий оценок параметров
  • уменьшение значений t-статистик для параметров, что приводит к неправильному выводу об их статистической значимости
  • получение неустойчивых оценок параметров модели и их дисперсий
  • возможность получения неверного с точки зрения теории знака у оценки параметра

Точные количественные критерии для обнаружения частичной мультиколлинеарности отсутствуют. В качестве признаков ее наличия чаще всего используют следующие:

Методы устранения мультиколлинеарности

Существует два основных подхода к решению этой задачи.

Каким бы образом не осуществлялся отбор факторов, уменьшение их числа приводит к улучшению обусловленности матрицы , а, следовательно, и к повышению качества оценок параметров модели.

Помимо перечисленных методов существует ещё один, более простой, дающий достаточно хорошие результаты - это метод предварительного центрирования . Суть метода сводится к тому, что перед нахождением параметров математической модели проводится центрирование исходных данных: из каждого значения в ряде данных вычитается среднее по ряду: . Эта процедура позволяет так развести гиперплоскости условий МНК, чтобы углы между ними были перпендикулярны. В результате этого оценки модели становятся устойчивыми (Построение многофакторных моделей в условиях мультиколлинеарности).

Под полной мультиколлинеарностью понимается существование между некоторыми из факторов линейной функциональной связи. Количественным выражением этого служит то обстоятельство, ранг матрицы Х меньше, чем (р +1), а матрица (Х’Х ) будет вырожденной, т.е. её определитель равен нулю, а обратной матрицы к ней не существует. В практике статистических исследований полная мультиколлинеарность встречается достаточно редко, т.к. её несложно избежать уже на предварительной стадии анализа и отбора множества объясняющих переменных.

Реальная (или частичная) мультиколлинеарность возникает в случаях существования достаточно тесных линейных статистических связей между объясняющими переменными. Точных количественных критериев для определения наличия или отсутствия реальной мультиколлинеарности не существует. Тем не менее, существуют некоторые эвристические рекомендации по выявлению мультиколлинеарности.

В первую очередь анализируют матрицу парных коэффициентов корреляции:

точнее, ту её часть, которая относится к объясняющим переменным. Считается, что две переменные явно коллинеарны, если . В этом случае факторы дублируют друг друга, и один из них рекомендуется исключить из регрессии. Предпочтение при этом отдаётся фактору, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами.

Пусть, например, при изучении зависимости матрица парных коэффициентов корреляции оказалась следующей:

Очевидно, что факторы х 1 и х 2 дублируют друг друга (). Однако в модель следует включить фактор х 2 , а не х 1 , поскольку корреляция фактора х 2 с у достаточно высокая (), а с фактором х 3 слабая ().

Другим методом оценки мультиколлинеарности факторов может служить определитель матрицы парных коэффициентов корреляции между факторами (37). Обоснованием данного подхода служат такие рассуждения. Если бы факторы не коррелировали между собой, то в определителе (37) все внедиагональные элементы равнялись бы нулю, а на диагонали стояли бы единицы. Такой определитель равен единице. Если же, наоборот, между факторами существует полная линейная зависимость и все коэффициенты межфакторной корреляции равны единице, то определитель такой матрицы равен нулю. Следовательно, чем ближе к нулю определитель (37), тем сильнее мультиколлинеарность факторов и ненадежнее результаты множественной регрессии. И наоборот, чем ближе к единице величина (37), тем меньше мультиколлинеарность факторов.

Для оценки значимости мультиколлинеарности факторов выдвигается гипотеза Н 0:Δr 11 =1. Доказано, что величина имеет приближенное распределение χ 2 с степенями свободы. Если , то гипотеза Н 0 отклоняется, мультиколлинеарность считается доказанной.

Другим методом выявления мультиколлинеарности является анализ коэффициентов множественной детерминации факторов. Для этого в качестве зависимой переменной рассматривается каждый из факторов. Например, коэффициент рассчитывается по следующей регрессии:

где первый фактор взят в качестве результативного признака, а остальные факторы – как независимые переменные, влияющие на первый фактор. Чем ближе такой R 2 к единице, тем сильнее проявляется мультиколлинеарность факторов. Оставляя в уравнении регрессии факторы с минимальной R 2 , можно решить проблему отбора факторов.

При этом рассчитывается статистика:

(39)

Если коэффициент статистически значим, то . В этом случае x j является линейной комбинацией других факторов, и его можно исключить из регрессии.

Основные последствия мультиколлинеарности:

1. Большие дисперсии оценок. Это затрудняет нахождение истинных значений определяемых величин и расширяет интервальные оценки, ухудшая их точность.

2. Уменьшаются t – статистики коэффициентов, что может привести к неоправданному выводу о несущественности влияния соответствующего фактора на зависимую переменную.

3. Оценки коэффициентов по МНК и их стандартные ошибки становятся очень чувствительными к малейшим изменениям данных, т.е. они становятся неустойчивыми.

4. Затрудняется определение вклада каждой из объясняющих переменных в объясняемую уравнением регрессии дисперсию зависимой переменной.

5. Возможно получение неверного знака у коэффициента регрессии.

Единого подхода к устранению мультиколлинеарности не существует. Существует ряд методов, которые не являются универсальными и применимы в конкретных ситуациях.

Простейшим методом устранения мультиколлинеарности является исключение из модели одной или нескольких коррелированных переменных. Здесь необходима осторожность, чтобы не отбросить переменную, которая необходима в модели по своей экономической сущности, но зачастую коррелирует с другими переменными (например, цена блага и цены заменителей данного блага).

Иногда для устранения мультиколлинеарности достаточно увеличить объем выборки. Например, при использовании ежегодных данных можно перейти к поквартальным данным. Это приведёт к сокращению дисперсии коэффициентов регрессии и увеличению их статистической значимости. Однако при этом можно усилить автокорреляцию, что ограничивает возможности такого подхода.

В некоторых случаях изменение спецификации модели, например, добавление существенного фактора, решает проблему мультиколлинеарности. При этом уменьшается остаточная СКО, что приводит к уменьшению стандартных ошибок коэффициентов.

В ряде случаев минимизировать либо вообще устранить проблему мультиколлинеарности можно с помощью преобразования переменных.

Например, пусть эмпирическое уравнение регрессии имеет вид:

где факторы коррелированы. Здесь можно попытаться определить отдельные регрессии для относительных величин:

Возможно, что в моделях, аналогичных (40), проблема мультиколлинеарности будет отсутствовать.

Частная корреляция

С помощью частных коэффициентов корреляции проводится ранжирование факторов по степени их влияния на результат. Кроме того, частные показатели корреляции широко используются при решении проблем отбора факторов: целесообразность включения того или иного фактора в модель доказывается величиной показателя частной корреляции.

Частные коэффициенты корреляции характеризуют тесноту связи между результатом и соответствующим фактором при устранении влияния других факторов, включенных в уравнение регрессии.

Показатели частной корреляции представляют собой отношение сокращения остаточной дисперсии за счет дополнительного включения в модель нового фактора к остаточной дисперсии, имевшей место до введения его в модель.

Высокое значение коэффициента парной корреляции между исследуемой зависимой и какой-либо независимой переменной может означать высокую степень взаимосвязи, но может быть обусловлено и другой причиной, например, третьей переменной, которая оказывает сильное влияние на две первые, что и объясняет их высокую коррелированность. Поэтому возникает задача найти «чистую» корреляцию между двумя переменными, исключив (линейное) влияние других факторов. Это можно сделать с помощью коэффициента частной корреляции.

Коэффициенты частной корреляции определяются различными способами. Рассмотрим некоторые из них.

Для простоты предположим, что имеется двухфакторная регрессионная модель:

и имеется набор наблюдений . Тогда коэффициент частной корреляции между у и, например, х 1 после исключения влияния х 2 определяется по следующему алгоритму:

1. Осуществим регрессию у на х 2 .

2. Осуществим регрессию х 1 на х 2 и константу и получим прогнозные значения .

3. Удалим влияние х 2 , взяв остатки и .

4. Определим выборочный коэффициент частной корреляции между у и х 1 при исключении х 2 как выборочный коэффициент корреляции между e y и e 1 :

(42)

Значения частных коэффициентов корреляции лежат в интервале [-1,1], как у обычных коэффициентов корреляции. Равенство нулю означает отсутствие линейного влияния переменной х 1 на у .

Существует тесная связь между коэффициентом частной корреляции и коэффициентом детерминации R 2 :

(43)

где - обычный коэффициент корреляции.

Описанная выше процедура обобщается на случай, когда исключается влияние нескольких переменных. Для этого достаточно переменную х 2 заменить на набор переменных Х 2 , сохраняя определение (42) (при этом можно в число исключаемых переменных вводить и у , определяя частную корреляцию между факторами).

Другой способ определения коэффициентов частной корреляции – матричный. Обозначив для удобства зависимую переменную как х 0 , запишем определитель матрицы парных коэффициентов корреляции в виде:

(44)

Тогда частный коэффициент корреляции определяется по формуле:

, (45)

где R ii - алгебраическое дополнение для элемента r ii в определителе (44).

Существует ещё один способ расчета – по рекуррентной формуле. Порядок частного коэффициента корреляции определяется количеством факторов, влияние которых исключается. Например, - коэффициент частной корреляции первого порядка. Соответственно коэффициенты парной корреляции называются коэффициентами нулевого порядка. Коэффициенты более высоких порядков можно определить через коэффициенты более низких порядков по рекуррентной формуле:

(46)

Если исследователь имеет дело лишь с тремя – четырьмя переменными, то удобно пользоваться соотношениями (46). При больших размерностях задачи удобнее расчет через определители, т.е. по формуле (45). В соответствии со смыслом коэффициентов частной корреляции можно записать формулу:

(47)

При исследовании статистических свойств выборочного частного коэффициента корреляции порядка k следует воспользоваться тем, что он распределен точно так же, как и обычный парный коэффициент корреляции, с единственной поправкой: объём выборки надо уменьшить на k единиц, т.е. полагать его равным n-k , а не n .

Пример . По итогам года 37 однородных предприятий легкой промышленности были зарегистрированы следующие показатели их работы: у – среднемесячная характеристика качества ткани (в баллах), х 1 – среднемесячное количество профилактических наладок автоматической линии; х 2 – среднемесячное количество обрывов нити.

По исходным данным были подсчитаны выборочные парные коэффициенты корреляции:

Проверка статистической значимости этих величин показала отсутствие значимой статистической связи между результативным признаком и каждым из факторов, что не согласуется с профессиональными представлениями технолога. Однако расчет частных коэффициентов корреляции дал значения:

которые вполне соответствуют нашим представлениям о естественном характере связей между изучаемыми показателями.

Для оценки значимости фактора, дополнительно вводимого в модель, используется частный F- критерий . Не каждый фактор, вошедший в модель, существенно увеличивает долю объясненной дисперсии в общей дисперсии результата. Кроме того, при наличии в модели нескольких факторов они могут вводиться в модель в разной последовательности. Ввиду корреляции между факторами значимость одного и того же фактора может быть разной в зависимости от последовательности его введения в модель. Для частного F – критерия используется формула:

, (50)

которая является частным случаем формулы (32). Здесь в числителе – разность между коэффициентом детерминации модели с полным набором факторов и коэффициентом детерминации модели до введения в неё фактора x j .

С помощью частного F – критерия можно проверить значимость всех коэффициентов регрессии в предположении, что соответствующий фактор x j вводился в уравнение регрессии последним. Процедура проверки не отличается от таковой для статистики (32).

Зная величину , можно определить и t – критерий для коэффициента регрессии при x j :

Существует взаимосвязь между квадратом частного коэффициента корреляции и частным F – критерием:

Частный F – критерий широко используется при построении модели методом включения переменных.

Еще одной серьезной проблемой при построении моделей множественной линейной регрессии по МНК является мультиколлинеарность − линейная взаимосвязь двух или нескольких объясняющих переменных. Причем, если объясняющие переменные связаны строгой функциональной зависимостью, то говорят о совершенной мультиколлинеарности . На практике можно столкнуться с очень высокой (или близкой к ней) мультиколлинеарностью − сильной корреляционной зависимостью между объясняющими переменными. Причины мультиколлинеарности и способы ее устранения анализируются ниже.

10.1. Суть мультиколлинеарности

Мультиколлинеарность может быть проблемой лишь в случае множественной регрессии. Ее суть можно представить на примере совершенной мультиколлинеарности.

Пусть уравнение регрессии имеет вид

Y = β 0 + β 1 X1 + β 2 X2 + ε .

Пусть также между объясняющими переменными существует

строгая линейная зависимость:

X2 = γ 0 + γ 1 X1 .

Подставив (10.2) в (10.1), получим:

Y = β 0 + β 1 X1 +β 2 (γ 0 + γ 1 X1 ) + ε

или Y = (β 0 + β 2 γ 0 ) + (β 1 + β 2 γ 1 )X1 + ε .

Обозначив β 0 + β 2 γ 0 = a, β 1 + β 2 γ 1 = b, получаем уравнение парной линейной регрессии:

Y = a + b X1 + ε .

По МНК нетрудно определить коэффициенты a и b. Тогда получим систему двух уравнений:

В 2 г 1

В систему (10.4) входят три неизвестные β 0 , β 1 , β 2 (коэффициенты γ 0 и γ 1 определены в (10.2)). Такая система в подавляющем числе случаев имеет бесконечно много решений. Таким образом, совершен-

ная мультиколлинеарность не позволяет однозначно определить коэффициенты регрессии уравнения (10.1) и разделить вклады объясняющих переменных X1 и X2 в их влиянии на зависимую переменную Y. В этом случае невозможно сделать обоснованные статистические выводы об этих коэффициентах. Следовательно, в случае мультиколлинеарности выводы по коэффициентам и по самому уравнению регрессии будут ненадежными.

Совершенная мультиколлинеарность является скорее теоретическим примером. Реальна же ситуация, когда между объясняющими переменными существует довольно сильная корреляционная зависимость, а не строгая функциональная. Такая зависимость называется

несовершенной мультиколлинеарностью. Она характеризуется высо-

ким коэффициентом корреляции ρ между соответствующими объясняющими переменными. Причем, если значение ρ по абсолютной величине близко к единице, то говорят о почти совершенной мультиколлинеарности. В любом случае мультиколлинеарность затрудняет разделение влияния объясняющих факторов на поведение зависимой переменной и делает оценки коэффициентов регрессии ненадежными. Данный вывод наглядно подтверждается с помощью диаграммы Вен-

на (рис. 10.1).

X 1 X 2

X 1 X 2

На рис. 10.1, а коррелированность между объясняющими переменными Х1 и Х2 отсутствует и влияние каждой из них на Y находит отражение в наложении кругов Х1 и Х2 на круг Y. По мере усиления линейной зависимости между Х1 и Х2 соответствующие круги все больше накладываются друг на друга. Заштрихованная область отра-

жает совпадающие части влияния Х1 и Х2 на Y. На рис. 10.1, г при совершенной мультиколлинеарности невозможно разграничить степени индивидуального влияния объясняющих переменных Х1 и Х2 на зависимую переменную Y.

10.2. Последствия мультиколлинеарности

Как известно, при выполнении определенных предпосылок МНК дает наилучшие линейные несмещенные оценки (BLUE-оценки). Причем свойство несмещенности и эффективности оценок остается в силе даже, если несколько коэффициентов регрессии оказываются статистически незначимыми. Однако несмещенность фактически означает лишь то, что при многократном повторении наблюдений (при постоянных объемах выборок) за исследуемыми величинами средние значения оценок стремятся к их истинным значениям. К сожалению, повторять наблюдения в одинаковых условиях в экономике практически невозможно. Поэтому это свойство ничего не гарантирует в каждом конкретном случае. Наименьшая возможная дисперсия вовсе не означает, что дисперсия оценок будет мала по сравнению с самими оценками. В ряде случаев такая дисперсия достаточно велика, чтобы оценки коэффициентов стали статистически незначимыми.

Обычно выделяются следующие последствия мультиколлинеарности:

1. Большие дисперсии (стандартные ошибки) оценок. Это затрудняет нахождение истинных значений определяемых величин и расширяет интервальные оценки, ухудшая их точность.

2. Уменьшаются t-статистики коэффициентов, что может привести к неоправданному выводу о существенности влияния соответствующей объясняющей переменной на зависимую переменную.

3. Оценки коэффициентов по МНК и их стандартные ошибки становятся очень чувствительными к малейшим изменениям данных, т. е. они становятся неустойчивыми.

4. Затрудняется определение вклада каждой из объясняющей переменных в объясняемую уравнением регрессии дисперсию зависимой переменной.

5. Возможно получение неверного знака у коэффициента регрессии. Причину последствий 3, 4 можно наглядно проиллюстрировать

на примере регрессии (10.1). Данную регрессию можно рассматривать

как проекцию вектора Y на плоскость векторов X1 и X2 . Если между этими векторами существует тесная линейная зависимость, то угол между векторами X1 и X2 мал. В силу этого операция проектирования становится неустойчивой: небольшое изменение в исходных данных может привести к существенному изменению оценок. На рис. 10.2 векторы Y и Y′ различаются незначительно, но в силу малого угла между X1 и X2 координаты векторов Y и Y′ не только значительно различаются по величине, но и по знаку.

Y ′

10.3. Определение мультиколлинеарности

Существует несколько признаков, по которым может быть установлено наличие мультиколлинеарности.

1. Коэффициент детерминации R 2 достаточно высок, но некоторые из коэффициентов регрессии статистически незначимы, т.е. они имеют низкие t-статистики.

2. Парная корреляция между малозначимыми объясняющими переменными достаточно высока.

Однако данный признак будет надежным лишь в случае двух объясняющих переменных. При большем их количестве более целесообразным является использование частных коэффициентов корреляции.

3. Высокие частные коэффициенты корреляции.

Частные коэффициенты корреляции определяют силу линейной зависимости между двумя переменными без учета влияния на них других переменных. Однако при изучении многомерных связей в ряде случаев парные коэффициенты корреляции могут давать совершенно неверные представления о характере связи между двумя переменными. Например, между двумя переменными Х и Y может быть высокий положительный коэффициент корреляции не потому, что одна из них

стимулирует изменение другой, а оттого, что обе эти переменные изменяются в одном направлении под влиянием других переменных, как учтенных в модели, так и, возможно, неучтенных. Поэтому имеется необходимость измерять действительную тесноту линейной связи между двумя переменными, очищенную от влияния на рассматриваемую пару переменных других факторов. Коэффициент корреляции между двумя переменными, очищенными от влияния других переменных, на-

зывается частным коэффициентом корреляции.

Например, при трех объясняющих переменных X1 , X2 , X3 частный коэффициент корреляции между X1 и X2 рассчитывается по формуле:

r 12.3

r 12 − r 13r 23

− r2 )(1

− r 2

Опираясь на данную формулу, нетрудно заметить, что частный коэффициент корреляции может существенно отличаться от “обычного” коэффициента корреляции r12 . Пусть, например, r12 = 0.5; r13 = 0.5; r23 = − 0.5. Тогда частный коэффициент корреляции r12.3 = 1, т. е. при относительно невысоком коэффициенте корреляции r12 частный коэффициент корреляции r12.3 указывает на высокую зависимость (коллинеарность) между переменными X1 и X2 . Нетрудно показать, что возможна и обратная ситуация. Другими словами, для более обоснованного вывода о корреляции между парами объясняющих переменных необходимо рассчитывать частные коэффициенты корреляции.

В общем случае выборочный частный коэффициент корреляции межу переменными Xi и Xj (1 ≤ i < j ≤ m), очищенный от влияния остальных (m − 2) объясняющих переменных, символически обозначается

r ij. 1 2 … (i − 1)(i+1)…(j − 1)(j+1)…m .

Приведем без доказательства формулу расчета данного коэффициента.

Пусть эмпирические парные коэффициенты корреляции между всевозможными парами объясняющих переменных Х1 , Х2 , …, Хm представлены в виде корреляционной матрицы

R = r

R3m .

... ...

−1

c mm

С * − обратная матрица к матрице R . Тогда

r ij. 1 2 … (i − 1)(i +1)…(j − 1)(j +1)…m =

− c * ij

c * ii c * jj

Из общей формулы (10.6) легко получаются частные формулы

(10.5) для трех переменных и (10.7) для четырех переменных:

r ij. kl =

r ij. k − r il. k r jl. k

(1− r2

)(1 − r2

il. k

jl. k

Пусть rj = ryj . 1 2 …(j − 1)(j +1)…m − частный коэффициент корреляции между зависимой переменной Y и переменной Хj , очищенный от

влияния всех остальных объясняющих переменных. Тогда rj 2 − част-

ный коэффициент детерминации, который определяет процент дисперсии переменной Y, объясняемый влиянием только переменной Хj .

Другими словами, rj 2 , j = 1, 2, …,m позволяет оценить вклад каждой переменной Xj на рассеивание переменной Y.

4. Сильная вспомогательная (дополнительная) регрессия.

Мультиколлинеарность может иметь место вследствие того, что какая-либо из объясняющих переменных является линейной (или близкой к линейной) комбинацией других объясняющих переменных. Для данного анализа строятся уравнения регрессии каждой из объясняющих переменных Xj , j = 1, 2, … , m на оставшиеся объясняющие переменные вспомогательные регрессии. Вычисляются соответствующие коэффициенты детерминации Rj 2 и рассчитывается их статистическая значимость на основе F-статистики

R2 j

n − m

− R 2 j

m − 1

Здесь n − число наблюдений, m − число объясняющих переменных в первоначальном уравнении регрессии. Статистика F имеет распределение Фишера с ν 1 = m − 1 и ν 2 = n − m степенями свободы. Данная формула аналогична формуле (6.36). Если коэффициент Rj 2 статистически незначим, то Xj не является линейной комбинацией других переменных и ее можно оставить в уравнении регрессии. В противном случае есть основания считать, что Xi существенно зависит от других объясняющих переменных, и имеет место мультиколлинеарность.

Существует и ряд других методов определения мультиколлинеарности, описание которых выходит за рамки данной книги.

10.4. Методы устранения мультиколлинеарности

Прежде чем указать основные методы устранения мультиколлинеарности, отметим, что в ряде случаев мультиколлинеарность не является таким уж серьезным злом, чтобы прилагать серьезные усилия по ее выявлению и устранению. Ответ на этот вопрос в основном зависит от целей исследования.

Если основная задача модели − прогноз будущих значений зависимой переменной, то при достаточно большом коэффициенте детерминации R2 (≥ 0.9) наличие мультиколлинеарности зачастую не сказывается на прогнозных качествах модели. Хотя это утверждение будет обоснованным лишь в том случае, что и в будущем между коррелированными переменными будут сохраняться те же отношения, что и ранее.

Если же целью исследования является определение степени влияния каждой из объясняющих переменных на зависимую переменную, то наличие мультиколлинеарности, приводящее к увеличению стандартных ошибок, скорее всего, исказит истинные зависимости между переменными. В этой ситуации мультиколлинеарность представляется серьезной проблемой.

Отметим, что единого метода устранения мультиколлинеарности, годного в любом случае, не существует. Это связано с тем, что причины и последствия мультиколлинеарности неоднозначны и во многом зависят от результатов выборки.

10.4.1. Исключение переменной(ых) из модели

Простейшим методом устранения мультиколлинеарности является исключение из модели одной или ряда коррелированных переменных.

Однако необходима определенная осмотрительность при применении данного метода. В этой ситуации возможны ошибки спецификации. Например, при исследовании спроса на некоторое благо в качестве объясняющих переменных можно использовать цену данного блага и цены заменителей данного блага, которые зачастую коррелируют друг с другом. Исключив из модели цены заменителей, мы, скорее всего, допустим ошибку спецификации. Вследствие этого возможно получение смещенных оценок и осуществление необоснованных выводов. Таким образом, в прикладных эконометрических моделях желательно не исключать объясняющие переменные до тех пор, пока коллинеарность не станет серьезной проблемой.

10.4.2. Получение дополнительных данных или новой выборки

Поскольку мультиколлинеарность напрямую зависит от выборки, то, возможно, при другой выборке мультиколлинеарности не будет либо она не будет столь серьезной.

Иногда для уменьшения мультиколлинеарности достаточно увеличить объем выборки. Например, при использовании ежегодных данных можно перейти к поквартальным данным. Увеличение количества данных сокращает дисперсии коэффициентов регрессии и тем самым увеличивает их статистическую значимость. Однако получение новой выборки или расширение старой не всегда возможно или связано с серьезными издержками. Кроме того, данный подход может усилить автокорреляцию. Эти проблемы ограничивают возможность использования данного метода.

10.4.3. Изменение спецификации модели

В ряде случаев проблема мультиколлинеарности может быть решена изменением спецификации модели: либо изменением формы модели, либо добавлением объясняющих переменных, которые не учтены в первоначальной модели, но существенно влияющие на зависимую переменную. Если данный метод имеет основания, то его использование уменьшает сумму квадратов отклонений, тем самым сокращая стандартную ошибку регрессии. Это приводит к уменьшению стандартных ошибок коэффициентов.

10.4.4. Использование предварительной информации

о некоторых параметрах

Иногда при построении модели множественной регрессии можно воспользоваться некоторой предварительной информацией, в частно-

сти, известными значениями некоторых коэффициентов регрессии. Вполне вероятно, что значения коэффициентов, полученные для ка- ких-либо предварительных (обычно более простых) моделей, либо для аналогичной модели по ранее полученной выборке, могут быть использованы для разрабатываемой в данный момент модели.

Для иллюстрации приведем следующий пример. Строится регрессия вида (10.1). Предположим, что переменные X1 и X2 коррелированны. Для ранее построенной модели парной регрессии Y = γ 0 +

+ γ 1 X1 +υ был определен статистически значимый коэффициент γ 1 (для определенности пусть γ 1 = 0.8), связывающий Y с X1 . Если есть основания думать, что связь между Y и X1 останется неизменной, то можно положить γ 1 = β 1 = 0.8. Тогда (10.1) примет вид:

Y = β 0 + 0.8X1 + β 2 X2 + ε .

Y – 0.8X1 = β 0 + β 2 X2 + ε .

Уравнение (10.9) фактически является уравнением парной регрессии, для которого проблема мультиколлинеарности не существует.

Ограниченность использования данного метода обусловлена тем, что, во-первых, получение предварительной информации зачастую затруднительно, а во-вторых, вероятность того, что выделенный коэффициент регрессии будет одним и тем же для различных моделей, невысока.

10.4.5. Преобразование переменных

В ряде случаев минимизировать либо вообще устранить проблему мультиколлинеарности можно с помощью преобразования переменных.

Например, пусть эмпирическое уравнение регрессии имеет вид

Y = b0 + b1 X1 + b2 X2 ,

причем X1 и X2 − коррелированные переменные. В этой ситуации можно попытаться определять регрессионные зависимости относительных величин

1 X 1

1 X 2

Вполне вероятно, что в моделях, аналогичных (10.11), проблема мультиколлинеарности будет отсутствовать.

Возможны и другие преобразования, близкие по своей сути к вышеописанным. Например, если в уравнении рассматриваются взаимосвязи номинальных экономических показателей, то для снижения мультиколлинеарности можно попытаться перейти к реальным показателям и т. п.

Вопросы для самопроверки

1. Объясните значение терминов “коллинеарность” и “мультиколлинеарность”.

2. В чем различие между совершенной и несовершенной мультиколлинеарностью?

3. Каковы основные последствия мультиколлинеарности?

4. Как можно обнаружить мультиколлинеарность?

5. Как оценивается коррелированность между двумя объясняющими переменными?

6. Перечислите основные методы устранения мультиколлинеарности.

7. Какие из следующих утверждений истинны, ложны или не определены? Ответ поясните.

а) При наличии высокой мультиколлинеарности невозможно оценить статистическую значимость коэффициентов регрессии при коррелированных переменных.

б) Наличие мультиколлинеарности не является препятствием для получения по МНК BLUE-оценок.

в) Мультиколлинеарность не является существенной проблемой, если основная задача построенной регрессионной модели состоит в прогнозировании будущих значений зависимой переменной.

г) Высокие значения коэффициентов парной корреляции между объясняю-

щими переменными не всегда являются признаками мультиколлинеарности. д) Так как Х2 является строгой функцией от Х, то при использовании обеих переменных в качестве объясняющих возникает проблема мультиколлинеарности.

е) При наличии мультиколлинеарности оценки коэффициентов остаются не-

смещенными, но их t-статистики будут слишком низкими.

ж) Коэффициент детерминации R2 не может быть статистически значимым, если все коэффициенты регрессии статистически незначимы (имеют низкие t- статистики).

з) Мультиколлинеарность не приводит к получению смещенных оценок коэффициентов, но ведет к получению смещенных оценок для дисперсий коэф-

фициентов.

и) В регрессионной модели Y = β 0 + β 1 X1 + β 2 X2 + ε наличие мультиколлинеарности можно обнаружить, если вычислить коэффициент корреляции между Х1 и Х2 .

8. Пусть по МНК оценивается уравнение регрессии Y = β 0 + β 1 X1 + β 2 X2 + ε . Для большинства выборок наблюдается высокая коррелированность между

X1 и X2 . Пусть коррелированности между этими переменными не наблюдается. Коэффициенты регрессии оцениваются по данной выборке. Будут ли в этом случае оценки несмещенными? Будут ли несмещенными оценки дисперсий найденных эмпирических коэффициентов регрессии?

9. Объясните логику отбрасывания объясняющей переменной с целью устранения проблемы мультиколлинеарности.

10. Пусть в уравнении регрессии Y = β 0 + β 1 X1 + β 2 X2 + ε переменные X1 и X2

сильно коррелированны. Строится уравнение регрессии X2 на X1 , случайные отклонения от которой обозначим через υ . Строится новое уравнение регрес-

сии с зависимой переменной Y и двумя объясняющими переменными − Х2 и υ . Будет ли решена таким образом проблема мультиколлинеарности?

Упражнения и задачи

1. Имеется выборка из 10 наблюдений за переменными X 1 , X2 , Y:

а) Можно ли по этим данным по МНК оценить коэффициенты регрессии с двумя объясняющими переменными. Ответ поясните.

б) В случае отрицательного ответа на вопрос а) предложите преобразования, которые позволят оценить коэффициенты регрессии.

2. По выборке n = 50 для X 1 , Х2 , X3 построена следующая корреляционная матрица

− 0.35

− 0.35

эффициентов корреляции r12.3 , r23.1 , r13.2 .

б) При рассмотрении какой регрессии будет иметь место мультиколлинеарность?

3. После оценки уравнения регрессии Y = b 0 + b1 X1 + b2 X2 + e был рассчитан коэффициент корреляции rx 1 x 2 = 0. Были рассчитаны уравнения парной

регрессии: Y = с0 + с1 X1 + υ ; Y = d0 + d2 X2 + ϖ .

Можно ли ожидать, что будут выполняться следующие соотношения:

а) b1 = с1 ; b2 = d2 ;

б) b0 равен либо с0 , либо d0 , либо некоторой их комбинации;

в) S(b1 ) = S(с1 ); S(b2 ) = S(d2 ) .

а) Постройте уравнение регрессии INV = b0 + b1 GNP + b2 CONS + e. б) Оцените качество построенного уравнения.

в) Можно ли было ожидать при построении данного уравнения наличия мультиколлинеарности? Ответ поясните.

г) Имеет ли место мультиколлинеарность для построенного вами уравнения? Как вы это определили?

д) Постройте уравнения регрессии INV на GNP и INV на CONS. Какие выводы можно сделать по построенным моделям?

е) Постройте уравнение регрессии CONS на GNP. Что обнаруживает построенная модель?

ж) Как можно решить проблему мультиколлинеарности для первоначальной модели?

5. Пусть исследуется вопрос о среднем спросе на кофе AQ (в граммах на одно-

го человека). В качестве объясняющих переменных предполагается использовать следующие переменные: PC − индекс цен на кофе, lnYD − логарифм от реального среднедушевого дохода, POP − численность населения, PT − индекс цен на чай. Можно ли априори предвидеть, будут ли в этом случае

значимыми все t-статистики и будет ли высоким коэффициент детерминации R2 ? Какими будут ваши предложения по уточнению состава объясняющих переменных.

6. Пусть рассматривается следующая модель:

CONSt = β 0 + β 1 GNPt + β 2 GNPt − 1 +β 3 (GNPt − GNPt − 1 ) + ε ,

где CONSt − объем потребления в момент времени t; GNPt , GNPt − 1 − объемы ВНП в моменты времени t и t− 1 соответственно.

а) Что утверждается в данной модели?

б) Можно ли по МНК оценить все коэффициенты указанного уравнения регрессии?

в) Какой из коэффициентов и вследствие чего нельзя оценить?

г) Решит ли проблему оценки исключение из модели переменной GNPt или переменной GNPt − 1 ? Ответ поясните.

На практике при количественной оценке параметров эконометрической модели довольно часто сталкиваются с проблемой взаимосвязи между объясняющими переменными. Если взаимосвязь довольно тесная, то оценка параметров модели может иметь большую погрешность. Такая взаимосвязь между объясняющими переменными называется мультиколлинеарностью . Проблема мультиколлинеарности возникает только для случая множественной регрессии, поскольку в парной регрессии одна объясняющая переменная. Оценка коэффициента регрессии может оказаться незначимой не только из-за несущественности данного фактора, но и из-за трудностей, возникающих при разграничении воздействия на зависимую переменную двух или нескольких факторов. Это проявляется, когда факторы изменяются синхронно. Связь зависимой переменной с изменениями каждого из них можно определить, только если в число объясняющих переменных включается только один из этих факторов.

Природа мультиколлинеарности нагляднее всего проявляется, когда между объясняющими переменными существует строгая линейная связь. Это строгая мультиколлинеарность, когда невозможно разделить вклад каждой переменной в объяснение поведения результативного показателя. Чаще встречается нестрогая, или стохастическая мультиколлинеарность, когда объясняющие переменные коррелированы между собой. В этом случае проблема возникает только тогда, когда взаимосвязь переменных влияет на результаты оценки регрессии.

Основные последствия мультиколлинеарности:

· понижается точность оценки параметров регрессии, что проявляется в трех аспектах:

Ошибки некоторых оценок становятся очень большими;

Эти ошибки сильно коррелированными друг с другом;

Выборочные дисперсии сильно возрастают;

· коэффициенты некоторых введенных в регрессию переменных оказываются незначимыми, но в силу экономических соображений именно эти переменные должны оказывать заметное влияние объясняемую переменную;

· оценки коэффициентов становятся очень чувствительными к выборочным наблюдениям (небольшое увеличение объема выборки приводит к очень сильным сдвигам в значениях оценок).

Причины возникновения мультиколлинеарности:

· в модель включены факторные признаки, характеризующие одну и ту же сторону явления;

· уравнение регрессии содержит в качестве факторных признаков такие показатели, суммарное значение которые представляет собой постоянную величину;

· в модели использованы факторные признаки, являющиеся составными элементами друг друга;

· в моделирующую функцию включены факторные признаки, по смыслу дублирующие друг друга.

Проблема мультиколлинеарности является обычной для регрессии временных рядов, т.е. когда данные состоят из ряда наблюдений в течение некоторого периода времени. Если две или более объясняющие переменные имеют ярко выраженной временной тренд, то они будут тесно коррелированы, и это может привести к мультиколлинеарности.

Если среди парных коэффициентов корреляции независимых переменных существуют такие, значение которых приближается или равно множественному коэффициенту корреляции, то это говорит о возможности существования мультиколлинеарности.

Если в эконометрической модели получено малое значение параметра при большом коэффициенте детерминации и при этом -критерий существенно отличается от нуля, то это говорит о наличии мультиколлинеарности.

Методы исследования мультиколлинеарности

· нахождение и анализ корреляционной матрицы

Стохастическая связь между переменными характеризуется величиной коэффициента корреляции между ними. Чем ближе по абсолютной величине значение коэффициента корреляции к единице, тем сильнее мультиколлинеарность. В общем случае, если при оценке уравнения регрессии несколько факторов оказались незначимыми, то нужно выяснить нет ли среди них коррелированных между собой. Для этого формируется матрица коэффициентов парной корреляции, которая является симметричной и называется корреляционной матрицей. Она имеет вид:

где - коэффициенты парной корреляции между переменной у и одним из факторов, - коэффициенты парной корреляции между факторами, которые вычисляются по формуле

Анализ корреляционной матрицы позволяет оценить, во-первых, степень влияния отдельных факторов на результативный показатель, во-вторых, взаимосвязь факторов между собой.

Если коэффициенты парной корреляции между некоторыми факторами близки к единице, это указывает на тесную взаимосвязь между ними, т.е. на наличие мультиколлинеарности. В этом случае один из факторов необходимо исключить из дальнейшего рассмотрения. Встает вопрос, какой именно. Это зависит от конкретной ситуации. Чаще всего для моделирования оставляют тот фактор, который с экономической точки зрения более весом для изучаемого процесса. Можно также оставить фактор, который имеет большее влияние на результативный показатель (т.е. коэффициент корреляции которого с результативным показателем больше). Такого рода анализ проводится для каждой пары факторов. Результатом анализа корреляционной матрицы является установление группы факторов, мало зависимых между собой – они и должны входить в модель.

· вычисление определителя корреляционной матрицы

Если в модели больше двух факторов, вопрос о мультиколлинеарности не может ограничиваться информацией, которую дает корреляционная матрица. Более широкая проверка предусматривает вычисление определителя матрицы , . Если , то существует полная мультиколлинеарность. Если , то мультиколлинеарности нет. Чем ближе к нулю, тем увереннее можно утверждать о существовании между переменными мультиколлинеарности.

· метод Феррара-Глаубера

Для исследования общей мультиколлинеарности и мультиколлинеар-ности между отдельными факторами используется корреляционная матрица , вычисляемая по формуле (3.3.2).

Для исследования общей мультиколлинеарности используется критерий . Рассчитывается величина

имеющая - распределение с степенями свободы.

По данной надёжности и числу степеней свободы находят табличное значение (приложение А). Если , то можно считать, что мультиколлинеарность между объясняющими переменными отсутствует.

Для выяснения вопроса, между какими факторами существует мультиколлинеарность, используется -статистика или -статистика. Для этой цели используют частные коэффициенты парной корреляции между объясняющими переменными, которые вычисляют по формуле

где – элементы обратной матрицы .

В качестве критерия используется величина

имеющая распределение Стьюдента с степенями свободы.

По таблицам Стьюдента (приложение Д) находят критическое значение . Сравнивают критическое значение с расчетным :

· если , то между объясняющими переменными и коллинеарности нет.

· если , то между объясняющими переменными и существует значительная коллинеарность..

Методы устранения мультиколлинеарности

Если мультиколлинеарность выявлена, необходимо предпринять ряд мер по ее уменьшению и возможному устранению. Необходимо знать, что безошибочных и абсолютно правильных рекомендаций нет, это процесс творческого поиска. Все зависит от степени мультиколлинеарности, от набора факторов, от характера данных.

Различные методы, которые могут быть использованы для смягчения мультиколлинеарности, связаны с информационной базой и делятся на две категории. К первой относятся попытки повысить степень надежности оценок регрессии – увеличить число наблюдений в выборке, за счет сокращения временного периода увеличить дисперсию объясняющих переменных и снизить вариацию случайного числа, уточнить набор объясняющих переменных, включаемых в модель. Ко второй категории относится использование внешней информации, т.е. сбор дополнительных данных и оценок.

· метод исключения переменных

Этот метод заключается в том, что высоко коррелированные объясняющие переменные устраняются из регрессии, и она заново оценивается. Отбор переменных, подлежащих исключению, производится с помощью коэффициентов корреляции. Для этого производится оценка значимости коэффициентов парной корреляции между объясняющими переменными и . Если , то одну из переменных можно исключить. Но какую переменную удалить из анализа, решают исходя из экономических соображений.

· метод линейного преобразования переменных

Этот метод устранения мультиколлинеарности заключается в переходе к регрессии приведенной формы путем замены переменных, которым присуща коллинеарность, их линейной комбинацией. Если между двумя факторами и существует мультиколлинеарность, то заменяют фактор после чего проверяют наличие мультиколлинеарности между факторами и . При отсутствии мультиколлинеарности вместо фактора рассматривается фактор .

· метод пошаговой регрессии

Процедура применения пошаговой регрессии начинается с построения простой регрессии. В анализ последовательно включают по одной объясняющей переменной. На каждом шаге проверяется значимость коэффициентов регрессии и оценивается мультиколлинеарность переменных. Если оценка коэффициента получается незначимой, то переменная исключается и рассматривают другую объясняющую переменную. Если оценка коэффициента регрессии значима, а мультиколлинеарность отсутствует, то в анализ включают следующую переменную. Таким образом, постепенно определяются все составляющие регрессии без нарушения положения об отсутствии мультиколлинеарности.

Меры по устранению мультиколлинеарности:

· необходимо изменить спецификацию модели так, чтобы коллинеарность переменных снизилась до допустимого уровня;

· необходимо применить методы оценки, которые, несмотря на существенную коллинеарность, позволяют избежать ее отрицательных последствий. К этим методам оценивания относятся: методы с ограничениями на параметры (смешанный оценщик и минимальный оценщик), метод главных компонент, двухшаговый МНК, метод инструментальных переменных, метод наибольшего правдоподобия.

Как уже было показано, устранение мультиколлинеарности может достигаться путем исключения одного или нескольких линейно-связанных факторных признаков. Вопрос о том, какой из факторов следует отбросить, решается на основании экономического, логического, качественного анализа явления. Иногда удается уменьшить мультиколлинеарность путем агрегирования или преобразования исходных факторных признаков. В частности, это может быть объединение межотраслевых показателей с рядами динамики или, например, можно перейти к первым разностям и находить уравнение регрессии для разностей.

Хотя надежных методов выявления коллинеарности не существует, есть несколько признаков, ее выявляющих:

· характерным признаком мультиколлинеарности является высокое значение коэффициента детерминации при незначимости параметров уравнения (по t -статистикам);

· в модели с двумя переменными наилучшим признаком мультиколлинеарности является значение коэффициента корреляции;

· в модели с большим числом (чем два) факторов коэффициент корреляции может быть низким из-за наличия мультиколлинеарности, следует брать во внимание частные коэффициенты корреляции;

· если коэффициент детерминации велик, а частные коэффициенты малы, то мультиколлинеарность возможна

Пример 3.6. Исследовать данные на мультиколлинеарность; если обнаружена мультиколлинеарность объясняющих переменных, то исключить из рассмотрения переменную, которая коррелирует с остальными объясняющими переменными.

Y 17,44 17,28 17,92 18,88 17,12 21,12 20,64 19,68 18,4
Х 1 22,95 24,84 29,97 28,08 24,3 32,4 29,97 33,48 29,7 26,73
Х 2 1,56 2,88 2,28 1,2 2,64 3,48 2,28 2,52 2,4
Х 3 2,8 1,148 2,66 1,96 0,77 2,38 3,36 2,17 2,24 2,03

Решение. Для исследования общей мультиколлинеарности применим метод Фаррара-Глаубера.

Для нахождения корреляционной матрицы R построим вспомогательную таблицу 3.13.

Таблица 3.13

Расчет элементов корреляционной матрицы

17,44 22,95 2,8 526,70 9,00 7,84 68,85 64,26 8,40 22,95 2,8 304,15
17,28 24,84 1,56 1,14 617,03 2,43 1,32 38,75 28,52 1,79 24,84 1,56 1,14 298,60
17,92 29,97 2,88 2,66 898,20 8,29 7,08 86,31 79,72 7,66 29,97 2,88 2,66 321,13
18,88 28,08 2,28 1,96 788,49 5,20 3,84 64,02 55,04 4,47 28,08 2,28 1,96 356,45
17,12 24,3 1,2 0,77 590,49 1,44 0,59 29,16 18,71 0,92 24,3 1,2 0,77 293,09
21,12 32,4 2,64 2,38 1049,76 6,97 5,66 85,54 77,11 6,28 32,4 2,64 2,38 446,05
29,97 3,48 3,36 898,20 12,11 11,29 104,3 100,7 11,69 29,97 3,48 3,36 400,00
20,64 33,48 2,28 2,17 1120,91 5,20 4,71 76,33 72,65 4,95 33,48 2,28 2,17 426,01
19,68 29,7 2,52 2,24 882,09 6,35 5,02 74,84 66,53 5,64 29,7 2,52 2,24 387,30
18,4 26,73 2,4 2,03 714,49 5,76 4,12 64,15 54,26 4,87 26,73 2,4 2,03 338,56
188,48 282,42 24,24 21,52 8086,36 62,76 51,47 692,26 617,5 56,68 282,42 24,24 21,5 3571,35
18,848 28,24 2,42 2,15 808,64 6,28 5,15 69,23 61,75 5,67 28,24 2,424 2,15 357,13

В предпоследней строке таблицы 3.12 указаны суммы по столбцам, а в последней – средние значения по столбцам.

Найдем средние квадратические отклонения:

Аналогично имеем , , .

Найденные значения средних квадратических отклонений подставим в формулы (3.3.3) для вычисления парных коэффициентов корреляции:

Аналогично , , , , .

Можно сделать вывод о наличии определенной связи между каждой парой факторов. Для данной задачи корреляционная матрица (3.3.1) имеет вид:

Замечание. Если команда Анализ данных отсутствует в менюСервис, то необходимо запустить программу установки Microsoft Excel и установить Пакет анализа. После установки Пакета анализа его необходимо выбрать и активизировать с помощью команды Надстройки.

Найдем определитель корреляционной матрицы :

Значение определителя корреляционной матрицы близко к нулю, что свидетельствует о наличии значительной мультиколлинеарности.

. и существует мультиколлинеарность и одна из переменных должна быть исключена. Исключим из рассмотрения переменную , поскольку .

После изучения данной главы студент должен: знать

  • основные проблемы, возникающие при нарушении предположения МНК об отсутствии мультиколлинеарности;
  • методы обнаружения и устранения мультиколлинеарности; уметь
  • выявлять нарушения классической предпосылки МИК - мультиколлинеарности;

владеть

  • методами выявления наличия нарушений предпосылок МИК;
  • методами устранения мультиколлинеарности.

Понятие мультиколлинеарности

Мультиколлинеарностью называется высокая степень коррелированное™ двух или нескольких объясняющих переменных в уравнении множественной регрессии. Крайним случаем мультиколлинеарности является линейная зависимость между объясняющими переменными. Считается, что две переменные X,- и X сильно коррелированы, если выборочный коэффициент корреляции двух объясняющих переменных г хх. >0,7.

Рассмотрим виды мультиколлинеарности.

1. Строгая мультиколлинеарность - наличие линейной функциональной связи между объясняющими переменными (иногда также линейная связь с зависимой переменной). Связь между объясняющими переменными - функциональная.

Строгая мультиколлинеарность не позволяет однозначно определить коэффициенты регрессии b t и bj и разделить вклады объясняющих переменных Xj и Xj в зависимую переменную У.

2. Нестрогая мультиколлинеарность - наличие сильной линейной корреляционной связи между объясняющими переменными (иногда также и зависимой переменной). При нестрогой мультиколлинеарности связь между объясняющими переменными корреляционная.

Сложность проблемы мультиколлинеарности состоит в следующем.

  • 1. Корреляционные связи есть всегда. Проблема мультиколлинеарности - сила проявления корреляционных связей.
  • 2. Однозначных критериев определения мультиколлинеарности не существует.
  • 3. Строгая мультиколлинеарность нарушает предпосылку 5 теоремы Гаусса - Маркова и делает построение регрессии невозможным (см. гл. 4, параграф 4.1), так как согласно теореме Кронекера - Капелли система уравнений имеет бесчисленное множество решений.
  • 4. Нестрогая мультиколлинеарность затрудняет работу, но не препятствует получению правильных выводов.

Поясним сказанное о проблеме мультиколлинеарности. Пусть имеется т объясняющих факторов Х { , Х 2 , ..., Х т. Матрица межфакторной корреляции состоит из парных коэффициентов корреляции и имеет вид

Парный коэффициент корреляции г х. х. определяется по формуле 1

Отметим, что так как r xx = 1, i = 1,2,..., т, и г х х. = г х х., то данная матрица является симметрической.

Если связь между факторами полностью отсутствует, то недиагональные элементы матрицы межфакторной корреляции будут равны нулю, а ее определитель будет равен единице: | R xx = 1.

Пример 7.1

Пусть имеется четыре объясняющие переменные Х ь Х->, Х 3 , Аф При отсутствии взаимной корреляции между переменными (> хх = 0) определитель матрицы межфакторной корреляции будет равен

Противоположный случай: если связь между факторами является очень тесной (практически функциональной), то определитель матрицы межфакторной корреляции будет равен нулю.

Пример 7.2

Имеется четыре объясняющие переменные X lt Х 2 , Х 3 , Х 4 , между всеми переменными сильная функциональная связь (г х. х. =1). Тогда

Вывод. Наличие мультиколлинеарности можно подтвердить, найдя определитель матрицы межфакторной корреляции. Если |R xx . | ~1, то мультиколлинеарность отсутствует, а если | Л |

Совершенная мультиколлинеарность - равенство определителя матрицы межфакторной корреляции нулю - проявляется скорее в теории, а практически между некоторыми объясняющими переменными существует очень сильная корреляционная зависимость г х. х > 0,7, а не функциональная г х. х =1.

Замечание 7.1. Существует истинная мультиколлинеарность при отсутствии зависимости между переменными, что показано в примере 7.3.

Пример 7.3

Имеется выборка из 10 групп наблюдений (табл. 7.1).

Таблица 7.1

Данные к примеру 7.3

В данной выборке существует строгая мультиколлинеарность при отсутствии зависимости между переменными: х, * f(xj), г *j.

Матрица парных коэффициентов корреляции

Определитель этой матрицы равен -0,003402, т.е. практически равен нулю. Это говорит о совершенной мультиколлинеарности в выборке. Коэффициенты парной корреляции.г| 2 и.г 23 очень высоки.

Полная матрица парных коэффициентов корреляции R yx . включает коэффициенты парной корреляции факторов с результатом г 1/х. и факторов между собой г х. х:


Отметим, что в случае мультиколлинеарности в модель регрессии включаются те факторы, которые более сильно связаны с зависимой переменной, но слабо связаны с другими факторами.

Причины возникновения мультиколлинеарности следующие:

  • 1) ошибочное включение в уравнение регрессии двух или более линейно зависимых объясняющих переменных;
  • 2) две (или более) объясняющие переменные, в нормальной ситуации слабо коррелированные, становятся в конкретной выборке сильно коррелированными;
  • 3) в модель включается объясняющая переменная, сильно коррелирующая с зависимой переменной (такая переменная называется доминантной).
  • 2 Термин коллинеарность характеризует линейную связь между двумя объясняющими переменными. Мультиколлинеарность означает линейную связь между более чем двумя объясняющими переменными. На практике всегда используется один термин - мультиколлинеарность.
  • В гл. 2 соответствующая формула - это формула (2.9).

Рекомендуем почитать

Наверх