Главная > Математика > Линейная и нелинейная регрессии
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

1.10. Проверка гипотез и доверительное оценивание в линейной регрессии

Сначала построим критерий проверки общей линейной гипотезы относительно параметров регрессии, применяя критерий отношения правдоподобия. На основе критерия проверки гипотез мы сможем найти доверительные множества и интервалы.

Рассмотрим линейную гипотезу в самом общем виде Н:

где известная матрица заданный вектор Таким образом, в гипотезе Н на накладывается линейных независимых ограничений. Будем минимизировать сумму квадратов отклонений при условии (1.55). Другими словами, решаем следующую оптимизационную задачу с ограничениями при условии

Можно показать, что оценка, приводящая сумму квадратов отклонений к минимуму при условии, что гипотеза верна, равна:

где — оценка МНК; вывод оценки дается в параграфе 2.3. Минимальное значение суммы квадратов отклонений равно:

Второе слагаемое равно нулю. Последнее слагаемое после сокращений равно поэтому

где соответствует сумме квадратов отклонений оценки МНК.

Для проверки гипотез и доверительного оценивания необходимо знать вид распределения у. Предположим, что у имеет нормальное распределение В этом

случае плотность распределения у зависит от неизвестных параметров и равна:

Для проверки гипотезы применим критерий отношения правдоподобия. Для этого необходимо найти при условии (1.55). Максимуму соответствует минимум суммы квадратов отклонений что приводит к оценке (1.56). Легко видеть, что значением обращающим в максимум, является

где задается (1.57); без ограничений приводит к обычной оценке МНК а и , равной

Индекс указывает здесь на то, что эта оценка является оценкой метода максимального правдоподобия.

По определению критическое множество критерия отношения правдоподобия равно (1.48), т. е.

С учетом (1.57), (1.58) и (1.59), введя новую константу и разделив числитель на а знаменатель на получим:

где несмещенная оценка

Наша ближайшая задача — найти распределение статистики критерия (1.61). Прежде всего найдем распределение числителя. Имеем

поэтому

где идемпотентная матрица, причем

Применяя формулу приложения, утверждаем, что Ранее было доказано, что

Теперь покажем, что две квадратичные формы независимы. Как следует из для этого достаточно показать, что

Это равенство проверить нетрудно. Учитывая вышесказанное, можно утверждать, что статистика критерия отношения правдоподобия имеет распределение степенями свободы.

Рассмотрим процедуру проверки гипотезы Прежде всего необходимо задаться уровнем значимости Для данного уровня К находим соответствующее значение следующим образом: обозначим плотность распределения Фишера с степенями свободы. Найдем такое чтобы Значение находят из таблиц. Если

то гипотезу отвергаем, в противном случае принимаем.

Рассмотрим прежде всего три специальных случая применения критерия (1.64). Сначала построим критерий проверки гипотезы где некоторое

фиксированное число. Для этой гипотезы где на месте стоит 1. Далее

поэтому

Таким образом,

а

распределение Стъюдента с степенями свободы. С учетом общей формулы (1.61), если

где оценка стандартного отклонения гипотезу о равенстве отвергаем, в противном случае принимаем. Если обозначить через функцию плотности -распределения с степенями свободы, то для данного уровня значимости находится из решения уравнения Значение определяют также из таблиц, например см. [37]. Статистику называют -статистикой.

Для примера вернемся к регрессии (1.6). Рассмотрим поочередно гипотезы . В данном случае значения вычислены в параграфе -статистики для каждого параметра равны: Зададимся -ным уровнем значимости; тогда с учетом того, что степень свободы для нашей регрессии равна: табличное значение -статистики равно: Таким образом, с -ной уверенностью можем утверждать, что гипотезы верны, не верны.

Проверка гипотез имеет большое значение в регрессиях. От ответа на вопрос: «Считать ли параметр нулем?» — зависит, оставлять или выбросить переменную-фактор из уравнения регрессии. Если гипотеза подтвердилась с большой вероятностью, то фактор, как правило, удаляют из регрессии, если нет — оставляют. Подобную процедуру выбора существенных факторов называют иногда процедурой автоматического отсева переменных.

Рассмотрим гипотезы в свете общих идей проверки статистических гипотез. Не теряя общности, остановимся на случае при этом гипотеза В данном случае критическая область; область принятия гипотезы

Ошибка перёого рода: а мы делаем вывод, что и поэтому оставляем в уравнении регрессии. Вероятностью этой ошибки мы задаемся заранее; она составляет Ошибка такого рода ведет к перебору факторов в регрессии.

Ошибка второго рода: мы делаем вывод, что а поэтому исключаем из регрессии. Вероятность совершения этой ошибки не постоянна и зависит от конкретного значения Ошибка второго рода ведет к недобору. Недобор связан со смещением в оценках и является более серьезной ошибкой спецификации регрессии, чем перебор (см. параграф 2.4).

Если при диагнозе тяжелой болезни (см. параграф 1.9) мы стараемся минимизировать ошибку первого рода, то в регрессионном анализе, наоборот, целесообразнее минимизировать ошибку второго рода.

Приведенные соображения показывают, что не следует увлекаться низкими значениями X, так как при этом повышается вероятность недобора, что ведет к смещению в оценках.

Теперь рассмотрим второй специальный случай гипотезы (1.55). Пусть задана линейная регрессия со свободным членом

Проверим линейную гипотезу Другими словами, мы проверяем на взаимную конкуренцию две модели: (1.66) и модель среднего

Неформально мы проверяем, есть ли эффект от введения в уравнение (1.67) факторов Очевидно, Выразим через (уравнение (1.27: поэтому

Таким образом, если для данного наблюдения у выражение (1.68) больше значения, получаемого из распределения с степенями свободы, соответствующего данному уровню значимости X, то гипотеза отвергается, в противном случае принимается.

Рассмотрим проверку линейной гипотезы на нашем примере — регрессии. Для этой регрессии и поэтому Как и прежде, выберем тогда степенями свободы. Поскольку делаем вывод, что гипотезу необходимо отвергнуть.

Рассмотрим третий случай применения линейной гипотезы (1.55). Допустим, кроме данного набора наблюдений имеется дополнительный. Являются ли регрессии, построенные по двум выборкам, одинаковыми? Формально задачу можно записать следующим образом. Имеются две регрессии:

где векторы размерности векторы размерности матрица матрица и «2 — векторы размерности Предполагаем, что независимы, причем Регрессии (1.69) и (1.70) могут быть объединены в одну:

Для этой регрессии проверяется линейная гипотеза

что в терминах означает

Для проверки гипотезы (1.72) необходимо найти и С учетом (1.72) регрессии (1.69) и (1.70) могут быть переписаны следующим образом:

Таким образом, равно сумме квадратов отклонений оценки МНК составной регрессии. Найдем теперь сумму квадратов отклонений оценки МНК регрессии (1.71). Имеем:

Обозначим сумму квадратов отклонений оценки МНК регрессии (1.69), сумму квадратов отклонений регрессии (1.70). Тогда, как следует из предыдущего выражения, минимальное значение т. е. равно Итак, Далее учтем, что

Поэтому если

гипотезу (1.72) отвергаем, в противном случае принимаем.

Остановимся на оптимальности критерия отношения правдоподобия, применяемого для регрессии с нормально распределенными отклонениями. Было показано, что не существует РНМ критерия для проверки общей линейной гипотезы (1.55). Более того, доказано, что не существует и РНМ несмещенного критерия для случая В то же время для критерий отношения правдоподобия является эффективным, т. е. РНМ несмещенным критерием. II тем не менее для критерий отношения правдоподобия является оптимальным в более узком смысле. Вышесказанное позволяет утверждать, что критерий (1.61) является достаточно эффективным.

Для построения доверительных интервалов и областей воспользуемся общим методом построения, изложенным в предыдущем параграфе. Суть его основывается на связи с критерием проверки гипотез. Начнем с индивидуальных доверительных интервалов для параметров регрессии. Как следует из (1.65), множеством принятия решения при проверке гипотезы является Таким образом, оптимальной доверительной областью с коэффициентом доверия является интервал

Оптимальность этого интервала заключается в том, что он является несмещенным и равномерно наиболее точным (см. параграф 1.9). Значение находится так же, как и в случае проверки гипотез.

Доверительные 95%-ные интервалы для рассматриваемой регрессии (1.6) приведены в табл. 1.3.

Таблица 1.3 (см. скан)

Как видим, доверительные интервалы для всех параметров, исключая первый, достаточно широки. Это позволяет выдвинуть гипотезу о преобладающем значении присутствия вещества в реакции с веществом Остальные факторы имеют второстепенное значение (что является вполне естественным).

Найдем совместную доверительную область для всех параметров Для этого необходимо проверить гипотезу т. е. Очевидно, поэтому критическим множеством, как следует из (1.61), является

но

Второе слагаемое равно нулю, поэтому и

— доверительная область с коэффициентом доверия .

Очевидно, есть эллипсоид в Центр его находится в а. Для графическое построение эллипсоида практически невозможно, да и при эта задача весьма затруднительна. Достаточное представление о расположении доверительного эллипсоида дает вычисление характеристических чисел и векторов матрицы плана . В регрессии (1.6) ими будут (расположены в порядке возрастания характеристических чисел):

Величина, характеризующая обусловленность матрицы очень велика; следовательно, матрица плохо обусловлена (подробнее см. параграф 6.1). Отношение максимального характеристического числа к минимальному равно отношению длины максимальной полуоси эллипсоида к минимальной. Таким образом, эллипсоид, соответствующий матрице сильно вытянут в одном направлении и сжат в другом. Направление, в котором вытянут эллипсоид, соответствует вектору . В свою очередь почти совпадает с направлениями оси Следующая ось направлена близко к Таким образом, эллипсоид может быть достаточно хорошо аппроксимирован только одним фактором еще лучшую аппроксимацию даст введение факторов (подробнее см. параграф 6.1).

Действительно, если оставить только первый фактор то регрессия будет не намного хуже первоначальной:

что соответствует сумме квадратов отклонений 173,6 (полной регрессии (1.6) отвечает сумма квадратов отклонений В регрессии у на сумма квадратов отклонений будет уже 4256.

Таким образом, если в рассматриваемом химическом эксперименте температура проведения реакции лежит в окрестности 100°, а количество катализатора, участвующего в реакции, находится в пределах то вместо модели (1.6) возможно использование более грубой модели (1.76). Привлечение дополнительного килограмма вещества приведет к увеличению выхода реакции в среднем на 535 г.

Доверительная область в виде эллипсоида несет на себе большую информацию. Однако, как уже отмечалось, его построение и интерпретация затруднительны уже для Встает вопрос о возможности построения доверительной области, которую легче интерпретировать. В качестве такой области (множества) выберем обобщенный прямоугольник (прямоугольный параллелепипед). Это множество будем строить на основе индивидуальных доверительных интервалов. Рассмотрим один из способов построения совместных доверительных интервалов [63, с. 302], предложенный Тьюки.

Теорема 1.15. Пусть индивидуальные доверительные интервалы для параметров с коэффициентом доверия Эти интервалы будут совместными с коэффициентом доверия не менее

Доказательство. Обозначим через множество тех у, для которых накрывает истинное значение параметров т. е. По условию теоремы Множество одновременного (совместного) накрытия равно: Оценим вероятность этого множества:

где дополнение к множеству

Построим совместную доверительную область в виде обобщенного прямоугольника для регрессии-примера (1.6) с коэффициентом доверия Для этого надо построить индивидуальные доверительные интервалы с коэффициентом доверия Приближенное значение 0,0125 при 11 степенях свободы равно 3, поэтому одновременным -ным доверительным прямоугольником для будет Как видим, границы доверительных интервалов стали весьма широкими. Это результат того, что число степеней свободы в регрессии-примере (1.6) невелико и равно 11. Чем больше значение тем сильнее индивидуальные доверительные интервалы будут отличаться от совместных, построенных по методу Тьюки. В [63] обсуждается еще один метод построения совместных доверительных интервалов.

Важным моментом теории проверок гипотез и построения доверительных интервалов является предположение о нормальном распределении отклонений. Если отклонения регрессии не являются нормально распределенными, но выполняются условия асимптотической нормальности оценки МНК, можно показать, что построенные таким образом доверительные интервалы и критерии проверок гипотез являются асимптотически оптимальными. В некоторых работах исследуется, насколько эффективность проверок гипотез и доверительного оценивания теряется при отклонениях от нормальности. Если отклонения имеют распределения с легкими хвостами (см. гл. 5), то построенные в этом параграфе критерии и интервалы не теряют практически своих свойств. Для распределений с тяжелыми хвостами ситуация меняется. Вопросы устойчивости (робаст-ности) см. в [37].

Можно предложить грубый метод построения доверительных интервалов, не зависящий от распределения основанный на неравенстве Чебышева. Пусть координата вектора оценки МНК, - ее стандартная ошибка (вернее, оценка этой величины), тогда по неравенству Чебышева для любого

Доверительным интервалом для параметра а; является интервал с коэффициентом доверия не менее Так, если положить то коэффициент доверия будет не менее Точность выполнения

неравенства (1.77) зависит оттого, насколько эффективно оценивает истинное значение стандартной ошибки отклонений Применяя процедуру Тьюки, на основе (1.77) можно построить совместные доверительные интервалы.

Упражнение 1.10

<< Предыдущий параграф Следующий параграф >>
Оглавление