Главная > Математика > Линейная и нелинейная регрессии
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

2.6. Вычислительные трудности МНК

Оценка МНК является решением системы нормальных уравнений

Таким образом, вычисление оценки МНК соответствует решению системы линейных уравнений. В настоящее время число методов решения линейных систем очень велико, исследованы свойства этих методов, разработаны многочисленные программы. В регрессионном анализе вычисляется не только оценка МНК, но и ее матрица ковариаций Поэтому задачу нахождения а в системе (2.57) целесообразно решать обращением матрицы плана что ведет к отысканию эффективного алгоритма обращения симметричной матрицы. Основные трудности МНК возникают, когда матрица плана плохо обусловлена. В параграфе 6.1 введены меры плохой обусловленности матрицы Под плохой обусловленностью матрицы можно понимать, например, близость ее определителя к нулю. Показателем обусловленности служит также отношение максимального характеристического числа матрицы к минимальному (см. [165]), т. е.

Чем больше отношение (2.58), тем хуже обусловленность матрицы Вычисление обратной матрицы, производится ли оно вручную или на ЭВМ, несет на себе ошибки

округления промежуточных результатов. В [165] показано, что чем хуже обусловленность матрицы тем сильнее ошибки округления влияют на конечный результат Это заставляет плохо обусловленные матрицы обращать с большим количеством знаков в промежуточных вычислениях. Часто точности в 8 знаков не хватает для нахождения хорошего приближения оценки МНК в регрессиях. Так, уже при расчетах оценки МНК в параболическом тренде

на ЭВМ с обычной точностью (8 знаков) результаты оказываются очень грубыми. Только счет с двойной точностью (16 знаков) позволяет найти приемлемое приближение к истинной оценке МНК на ЭВМ.

Проверка различных программ, реализующих МНК, дана в [154]. Рассмотрена линейная регрессия от семи факторов: у — общее число занятых в экономике США (тыс. чел.); - дефлятор (индекс) цен валовой национальный продукт (млрд. -общее число безработных (тыс. чел.); - число военнослужащих (тыс. чел.); - неработающее население от 14 лет (тыс. чел.); - год; табл. 2.1 приведены статистические данные регрессии Дж. Лонгли [154]. Расчеты проводились на разных ЭВМ по разным алгоритмам. Часто результаты, т. е.

Таблица 2.1 (см. скан)

оценки МНК, отличались не только первыми и вторыми значащими цифрами, но и знаками. Даже вычисления с двойной точностью не приводили к удовлетворительному результату. Истинное значение оценки МНК для данной регрессии удалось получить с помощью специального настольного калькулятора, работавшего с 40 значащими цифрами. Оцененная регрессия на этом калькуляторе имела следующий вид

В большинстве программ, рассмотренных Дж. Лонгли, матрица плана вычислялась по формуле

При переходе к эквивалентной записи

удалось число верных значащих цифр в оценке МНК увеличить в некоторых случаях на две.

Как мы уже говорили, вычислительные трудности МНК связаны с обращением матрицы плана. Обращению матриц посвящена обширная литература (см., в частности, [68]). Существует много методов обращения матриц. Лонгли обнаружил, что в регрессионных задачах лучше работает алгоритм ортогонализации Грамма — Шмидта, в частности алгоритм обращения матриц, основанный на исключении по Гауссу. Основной причиной расхождения результатов для разных алгоритмов и ЭВМ Лонгли считает то обстоятельство, что алгоритмы обращения матриц, реализованных на ЭВМ, предназначены для ручных вычислений или с применением калькуляторов. При переходе на ЭВМ алгоритмы теряют свою эффективность.

Часто исследователь не подозревает, что «машинное решение» неверно. Хорошим индикатором правильного решения в случае регрессий со свободным членом является сумма отклонений регрессии где Как следует из параграфа 1.6, эта сумма должна быть равна нулю. Если значение отличается от нуля достаточно заметно, то регрессия оценена неверно. Однако

равенство нулю еще не означает, что регрессия оценена правильно. Часто для проверки правильности решения бывает полезно поменять местами независимые переменные и сравнить результаты. Решения будут содержать меньшие ошибки, если матрицу плана перед обращением привести к корреляционной, т. е. вычисления производить с матрицей Этот метод будет наиболее эффективен, если независимые переменные имеют разные масштабы измерения.

Результаты, полученные Дж. Лонгли, а также практика автора показывают, что к полученным с помощью ЭВМ оценкам МНК, особенно для многофакторных регрессий, следует относится осторожно, не делая скоропалительных выводов. В любом случае вычисления следует проводить с двойной точностью.

В работе [84] вновь обращено внимание на регрессию Лонгли (2.60). Был поставлен следующий вопрос: является ли решение Лонгли, проведенное с 40 значащими цифрами, в действительности удовлетворительным? Авторы [84] справедливо заметили, что поскольку данные представляют собой результат округления и если то истинное значение вполне может находиться в интервале (82,5; 83,4). Аналогичное замечание верно для всех независимых переменных Авторы просчитали 1000 регрессий. В каждом варианте значения независимых переменных отличались от опубликованных (табл. 2.1) на случайную величину с равномерным распределением в разряде, следующем за истинным значением. Так, для значение независимой переменной выбиралось на интервале (82,5; 83,499). Результаты 1000 регрессий превзошли все ожидания. В табл. 2.2 приводится выдержка табл. 4 из [84]. Как видим, средние значения 1000 регрессий далеки от «истинных» значений, найденных Лонгли. Значения оценок МНК лежат в очень широких границах. Результаты испытаний говорят сами за себя. Регрессию (2.60) нельзя считать удовлетворительной. Вероятно, регрессию Лонгли вообще не имеет смысла оценивать методом наименьших квадратов, так как в данных присутствует мультиколлинеарность.

Идея проверки регрессии на устойчивость относительно ошибок округления, примененная в [84] к регрессии (2.60), заслуживает внимания. Аналогичные расчеты могут быть проделаны для любой другой регрессии. Для каждого числа (конечной десятичной дроби) может быть указан интервал чисел, каждое из которых после округления дает

(см. скан)

число Так, если то таким интервалом будет [25,25; 25,35). Аналогичный интервал может быть построен для каждого Таким образом, матрице независимых переменных X соответствует целое множество матриц, каждая из которых после округления дает Обозначим это множество множество матриц На место оценки приходит семейство оценок Вообще говоря, матрица X равноправна с любой другой матрицей из поэтому имеет смысл найти минимальные и максимальные координаты оценки МНК при Итак, обозначим через координату оценки МНК, тогда можно определить

Вообще говоря, можно найти более общее множество

Прежде всего необходимо выяснить, существует ли матрица для которой Ясно, что если такая матрица существует, то оценка МНК будет некорректной. Далее, если для всех могут быть найдены значения (2.62). Однако отыскание этих значений весьма сложно. Для их приближенного определения можно применить процедуру статистических испытаний: случайным образом отбирать и вычислять значения (2.62). Минимальное значение координаты оценки МНК по всем испытаниям соответствует максимальное значение — Эта процедура может служить хорошей проверкой устойчивости оценки МНК по матрице независимых переменных.

Перейдем к определению эффекта от округления значений независимых переменных. В [84] введен «индекс возмущения» (perturbation index) следующим образом. Пусть, как и прежде, матрица X — матрица независимых переменных регрессии. На основе имеющейся матрицы X будем образовывать новые матрицы так что после округления матрица превращается в матрицу отклонений, причем

Пусть имеется матриц Обозначим

— составные матрицы независимых и зависимой переменных размерности соответственно. Найдем

Найдем вероятностный предел а:

в силу закона больших чисел. Тогда

Ясно, что чем ближе матрица к нулю, тем меньше будет разность (2.60), т. е. тем менее будет отличаться а от а. Индексом возмущения авторы [84] назвали след матрицы т. е.

Если регрессия устойчива к округлениям независимых переменных, то должен быть близким к нулю. Для регрессии (2.60) индекс (2.61) был равен 2,98.

С окончательным выводом авторов [84] о том, что вычислительная программа часто является далеко не самым важным фактором при вычислении регрессий, в некоторых случаях целесообразнее вообще отказаться от вычислений, нельзя не согласиться. Часто ошибки в данных на порядок выше ошибок, привносимых программой. Для устойчивых регрессий даже самые плохие программы давали хорошие результаты. Одним из примеров, когда необходимо вообще отказаться от вычислений по методу наименьших квадратов, как показано в [84], является регрессия Лонгли.

<< Предыдущий параграф Следующий параграф >>
Оглавление