Главная > Математика > Линейная и нелинейная регрессии
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

2.4. Перебор и недобор факторов в регрессии

Как правило, исследователю неизвестна истинная модель регрессии, т. е. неизвестно, какие факторы входят в регрессию. Поэтому ошибка перебора факторов или их недобора является весьма вероятной. Исследуем, к чему приводят эти ошибки спецификации, а также выясним, какие из них ведут к более серьезным последствиям. Перебор. Истинная модель есть

или

относительно которой выполнены все предположения Мы предполагаем, что

или

где Оценкой МНК в (2.33) является

Докажем, что несмещенно оценивает а. Другими словами, если обозначим то вектор-столбцы размерности соответственно. Обозначим тогда по формуле Фробениуса ХРТГХХ]

что доказывает несмещенность (2.34). Математическое ожидание оценок «лишних» параметров равно нулю, т. е. они также оцениваются несмещенно.

Можно доказать, что оценка является несмещенной оценкой

Докажем, что оценка МНК в случае перебора является также состоятельной. Для этого предположим, что матрица сильно регулярна. Таким образом, накладываем ограничение на матрицу дополнительных переменных Р: в пределе лишние переменные линейно независимы с истинными переменными Итак, пусть

при Найдем сначала предельную ковариационную матрицу «лишних» параметров Учитывая формулу 2.35), получим

Корректность этого выражения следует из того, что Далее, предельная матрица для невырождена в силу разложения определителя по формуле Таким образом,

Теперь распишем ковариационную матрицу для параметров

это также невырожденная матрица, т. е.

Итак, вектор в среднем квадратичном сходится к истинному значению

Оценка, получаемая в регрессиях с «лишними» независимыми переменными, как было показано, обладает по-прежнему рядом оптимальных свойств. Однако точность при переборе теряется. Покажем, почему это происходит. Матрица ковариаций оценки МНК для истинной модели равна а матрица ковариаций оценки для модели (2.33) с использованием (2.35) равна:

Матрица неотрицательно определена, так как где симметричная идемпотентная, а значит, и неотрицательно определенная матрица. Неотрицательная определенность влечет и неотрицательную неопределенность второго слагаемого в (2.36), т. е.

Нетрудно заметить, что если «лишнее» множество независимых переменных ортогонально истинному набору переменных, т. е. то Отсюда можно сделать вывод: если круг основных независимых переменных очерчен, то дополнительные переменные (которые могут оказаться лишними) надо стараться вводить в уравнение (2.32) так, чтобы они не «коррелировали» сильно с основным множеством переменных. Тогда потери точности

при переборе будут незначительны. Наоборот, если лишние переменные сильно сопряжены с исходным множеством переменных то потери точности будут велики (матрица а значит и будет принимать большие значения).

Недобор. В этом случае истинным уравнением является (2.32), а мы оцениваем регрессию

или

другими словами, входят в регрессию (2.37), а остальные переменных в регрессии отсутствуют. Докажем, что тогда используемая оценка

в общем случае является смещенной. Действительно,

где подвекторы вектора размерности соответственно. Перемножая члены в последнем равенстве, получим

Поскольку второе слагаемое в уравнении (2.39) отлично от нуля, делаем вывод, что оценка (2.38), т. е. оценка МНК для регрессии с недобором (2.37), является смещенной оценкой подвектора Оценка будет несмещенной, когда матрицы переменных ортогональны, т. е.

Случай ортогональности является идеальным для двух рассмотренных возможностей: перебора и недобора. Однако на практике независимые переменные сильно сопряжены. Если же в планируемом эксперименте мы полностью контролируем значения независимых переменных, то их желательно брать близко к ортогональным.

Объясним суть смещения (2.39). Прежде всего заметим, что столбец матрицы формально является оценкой МНК в регрессии Рассмотрим для примера случай Тогда смещение равно где первая вектор-строка матрицы оценка МНК неизвестной в предыдущей регрессии. Ничего нет удивительного в том, что оценка МНК в регрессии с недобором является смещенной: неучтенная часть уравнения регрессии равномерно распределяется в оценке с помощью «довесков». Суть этих «довесков» — регрессия неучтенных факторов на учтенные (2.37).

Теперь сравним, какая из оценок — или является более приемлемой с точки зрения точности оценивания истинного параметра а. Поскольку несмещенно оценивает а, то дается выражением (2.36). В качестве оценки а в регрессии (2.37) фактически выбирается поэтому

Но

поэтому

Окончательно

Сравнивая эту матрицу с матрицей (2.36), делаем вывод: в общем случае нельзя утверждать, что (2.36) меньше или больше (2.40). Например, если то легко видеть, что разница между (2.36) и (2.40) будет положительно

определена. Значит, если достаточно близко к 0, то оценка предпочтительнее. Наоборот, при матрица (2.40) неограниченно возрастает и оценка лучше. Таким образом, единственное, что можно утверждать, это то, что в некоторой окрестности лучше (2.34), вне этой окрестности наоборот (2.34) лучше (2.38). Здесь наблюдается такая же ситуация, как в параграфе 1.4. Для любой несмещенной оценки можно найти тривиальную смещенную оценку, которая в некоторой окрестности неизвестного параметра будет лучше несмещенной.

Докажем, что оценка МНК в случае недобора является несостоятельной. Доказательство для простоты будем проводить в условиях сильной регулярности матрицы Итак, предположим

Тогда

Таким образом,

при и оценка не состоятельна.

Подведем итоги: в случае перебора оценка МНК теряет в эффективности, зато остается несмещенной и состоятельной; в случае же недобора оценка МНК является смещенной и несостоятельной. По изложенным выше причинам недобор считаем более существенной ошибкой спецификации, чем перебор, так как он ведет к более тяжелым последствиям.

Проблема оптимального выбора множества независимых из данного набора переменных исследуется в [114, 93, 157, 182, 28,].

В качестве показателя правильности выбора множества переменных в [61] предлагается брать статистику Результат основывается на следующем: пусть, как и ранее, (2.32) будет истинной моделью, тогда как мы предполагаем, что модель имеет вид:

Строим оценки где — оценки МНК для регрессий (2.41) и (2.32) соответственно. Показано, что Поэтому для неправильно специфицированных моделей в среднем оценка будет больше, чем для правильно специфицированных (см. также [52]). Изложенный результат может быть применен к частным случаям неправильно специфицированных моделей: перебору и недобору. И в том, и в другом случае оценка будет (в среднем) больше оценки

<< Предыдущий параграф Следующий параграф >>
Оглавление