Главная > Математика > Линейная и нелинейная регрессии
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

8.3. Проверка статистических гипотез и доверительное оценивание

Начнем с проверок статистических гипотез в нелинейной регрессии.

Имеется нелинейная регрессия (7.2), относительно которой выполнены стандартные предположения: в — априорное множество а компактно, оценка МНК единственна, непрерывны на В дополнение предположим, что имеют нормальное распределение, т. е.

Выдвигается простая статистическая гипотеза

где фиксированная точка в в. Требуется построить критерий проверки гипотезы (8.18). Необходимо отметить, что поскольку мы не ограничиваемся специальным классом нелинейных регрессий, т. е. вообще говоря, могут быть любыми, то оптимальность любого критерия при фиксированном установить невозможно. В лучшем случае говорим об асимптотической оптимальности критерия: асимптотическая несмещенность, асимптотически наиболее мощный критерий и т. д. Даже если класс функций регрессий известен, например функции, линейные в логарифмах,

исследование критериев для данного задача, технически весьма сложная.

Простейший путь проверки статистической гипотезы (8.18) состоит в следующем. Аппроксимируем регрессию (7.2) линейной:

где а — оценка МНК. Уравнение (7.2) с учетом (8.19) в матричном виде может быть переписано следующим образом:

где вектор и матрица производных вычисленных в точке а. Условия (8.4) и (8.6) гарантируют хорошую замену исходной нелинейной регрессии линеаризованной (8.20) при больших Таким образом, первый метод проверки статистических гипотез состоит в том, чтобы вместо исходной нелинейной модели (7.2) рассматривать линеаризованную модель (8.20). Проверка линейных гипотез для линейной регрессии подробно рассмотрена в параграфе 1.10.

Разумеется, подобный метод проверок гипотез является весьма грубым. Он будет тем точнее, чем «линейнее» будет исходная модель.

Более точный метод предложил А. Галлант [104, 108]. Он основан на критерии отношения правдоподобия (см. параграф 1.9). Отношение правдоподобия для гипотезы (8.18) равно:

где плотность равна:

Статистика критерия

Критическим множеством проверки простой гипотезы (8.18) является

где выбрано так, чтобы вероятности совершения ошибки первого рода. Галлаитом доказано, что статистика может быть разложена в сумму двух случайных величин где по вероятности стремится к нулю при а случайная величина х имеет определенное распределение, которое затабулировано для некоторых значений Галлаитом в 1104]. Распределение х весьма сложно, однако с применением ЭВМ оно может быть вычислено для любого Таким образом, отождествляя и х, задаваясь некоторым мы можем найти соответствующий уровень значимости . Расчеты по методу Монте-Карло для регрессии показали, что критерий отношения правдоподобия Галланта приводит к хорошим результатам. В следующей его статье [108] разбирается случлй проверки сложной гипотезы где -фиксированный вектор. Применяя тот же метод, Галлант строит аппроксимацию распределения статистики критерия отношения правдоподобия, но которой для заданного значения может быть вычислено соответствующее значение

Перейдем теперь к построению доверительных интервалов и областей для параметров нелинейной регрессии. Простейший способ доверительного оценивания в этом случае — вместо исходной регрессии рассматривать ее линейный аналог (8.20).

Матрица ковариаций оценки МНК, вычисленная на основе (8.20), приближенно равна Стандартной ошибкой параметра является а -ным доверительным интервалом для будет

где критическая точка -распределения с степенями свободы, т. е. Можно проверять гипотезы о значимости параметров, т. е. Так, есди то гипотезу отвергаем.

А. Галлант исследовал распределен не для регрессии

методом Монте-Карло [105]. Для данных значений были смоделированы распределенные по нормальному закону Затем вычислялись регрессия (8.22) оценивалась модифицированным методом Ньютона — Гаусса и вычислялось значение Такие эксперименты были проделаны 5 тыс. раз. Для заданных значений с были вычислены эмпирические вероятности и теоретические, основанные на -распределении. В табл. 8.1 приведены выдержки из табл. 1 [105], где эмпирические значения вероятностей.

Таблица 8.1 (см. скан)

Как видим, расхождения между весьма малы, что указывает на то, что доверительные интервалы (8.21) для регрессии (8.22), вероятно, будут хорошими, и, в частности, Однако необходимо отметить следующее: во-первых, регрессия (8.22) является «не очень нелинейной»: три из четырех параметров — линейны, а, во-вторых, в эксперименте было взято малое значение при котором расхождение между моделью (8.22) и ее линейным аналогом будет невелико.

Можно предложить другую формулу для вычисления ковариационной матрицы оценки МНК в нелинейной регрессии. В линейной регрессии поэтому

Эту же формулу используем в нелинейной регрессии, но теперь

где матрица вторых производных вычисленная в точке а. Стандартной ошибкой параметра а является

Аналогично (8.21) могут быть построены доверительные интервалы. Как видно из формулы (8.23), матрица ковариаций, построенная на основе гессиана суммы квадратов отклонений, учитывает нелинейность регрессии, которая отражается во вторых производных Если а принадлежит внутренности априорного множества 0, то по крайней мере будет неотрицательно определена (в противном случае в окрестности нашлась бы точка а, в которой Чем островершинней будет поверхность в окрестности точки а, тем меньше будут дисперсии оценки МНК; чем поверхность будет положе, тем дисперсии будут болыне. Чем ближе к вырожденной матрице, тем сложнее «отделить» один параметр от другого. Так, на рис. 8.1 линии уровня 5 вытянуты в одном направлении и сжаты в другом, поэтому матрица близка к вырожденной.

Рис. 8.1. Пример суммы квадратов отклонений, имеющей овражный характер

Перейдем к построению одновременных доверительных областей. Как и прежде, предполагаем, что распределены по нормальному закону. Ранее показано, что критерий отношения правдоподобия проверки простой гипотезы (8.18) приводит к множеству принятия гипотезы

или

В параграфе 1.9 установлена связь между проверкой простой гипотезы и доверительным оцениванием. В частности, если имеется критерий проверки гипотезы, то по нему может быть построен метод доверительного оценивания. Используя (8.24), найдем соответствующее доверительное множество

Значение должно быть выбрано таким образом, чтобы накрывает истинное значение параметра

В линейной регрессии множеству (8.25) соответствует множество (1.75), так как

В случае линейной регрессии

где обозначает -распределение с степенями свободы, такая точка, что

Значение может быть выбрано различными методами и для нелинейной регрессии. Первый метод выбора совпадает с методом выбора в линейной регрессии. Очевидно, в этом случае у нас нет уверенности, что неравенство (8.26) будет выполнено, можно лишь надеяться, что оно выполняется с достаточной точностью.

Второй метод выбора основан на рассмотренной работе А. Галланта [104].

Третий метод нахождения предложен Е. Билом [83]: выбирается как в линейной регрессии (8.27), но с учетом поправки на нелинейность. Рассмотрим этот метод более подробно. Коэффициент нелинейности регрессии

который обозначим определяется следующим образом. Пусть а — оценка МНК; выберем в окрестности произвольных точек которым на образе соответствуют точки После линеаризации регрессия (8.28) превращается в регрессию (8.20), которая соответствует касательному линейному многообразию размерности

Тогда сумма квадратов расстояний в точках будет характеризовать отклонение нелинейной регрессии (8.28) от ее линейного приближения (8.29):

Сумма (8.30) зависит, во-первых, от числа выбранных точек во-вторых, от расстояния точек от Для нормировки суммы (8.30) введем величину Окончательно коэффициентом нелинейности регрессии (8.28) по Билу называется число

где оценка параметра рассчитанная но формуле

Коэффициент отражает нелинейность регрессии относительно параметра а.

Теперь рассмотрим другой коэффициент, выступающий показателем внутренней нелинейности регрессии (8.28) и отражающий степень нелинейности образа При взаимнооднозначных отображениях на себя, т. е. образ остается неизменным, тогда как величина (8.31) меняется. В качестве показателя нелинейности Бил называет минимальное значение при всех преобразованиях параметрического множества (репарамет-ризация а) при условии, что точки остаются неизменными: Очевидно, для нахождения необходимо из точек опустить перпендикуляр на пространство (8.29), сумма этих перпендикуляров составит числитель

где перпендикуляр, опущенный из точки на линейное многообразие (8.29). Практически может быть вычислен как сумма квадратов отклонений в регрессии Билом была установлена тесная взаимосвязь коэффициента с вероятностью множества В [83] предлагаются следующие окончательные рекомендации:

в случае брать равным

в случае вычисляется по формуле (8.27). Бил утверждает, что с большой степенью приближения

Построение доверительных областей (8.25) технически может оказаться весьма сложным. Дело может осложниться тем, что область будет несвязной. Для облегчения построения области можно предложить следующий способ. Разложим функцию в точке в ряд Тейлора до членов второго порядка:

Но если а является внутренней точкой в, то поэтому вместо (8.25) можно найти его приближение

где рассчитывается по формуле (8.23). Об" ласть. представляет собой эллипсоид в пространстве Строить эллипсоид не обязательно, достаточно определить положение его осей и их длины. Направление осей эллипсоида совпадает с характеристическими векторами матрицы Длина полуоси эллипсоида равна где — характеристическое число матрицы

В некоторых случаях нелинейная регрессия после репараметризации превращается в линейную. Нелинейная регрессия (7.2) репараметризуема, если ее функция регрессии представима в виде

где константы, причем матрица, составленная из этих чисел, имеет ранг непрерывные взаимнооднозначные функции, отображающие на Исходная нелинейная регрессия может быть репараметризована следующим образом:

где новые параметры. Ясно, что оценка МНК нелинейной регрессии (7.2) равна где оценка МНК соответствующей линейной регрессии, отображение, обратное к Хартли [122] справедливо замечает, что если доверительное множество с коэффициентом доверия 1 — к для параметров то доверительное множество для параметров исходной регрессии имеет тот же коэффициент доверия.

Коротко остановимся на вопросе оценивания нелинейной регрессии в случае, когда ковариационная матрица отклонений имеет общий вид и известна с точностью до постоянного множителя. Допустим, в регрессии где неизвестный параметр, а известная весовая матрица Так же, как в случае линейной регрессии, обобщенная оценка МНК минимизирует взвешенную сумму квадратов отклонений Пусть такая невырожденная матрица что тогда исходная регрессия преобразуется в новую нелинейную регрессию, у которой ковариационная матрица отклонений пропорциональна единичной. Действительно, положим тогда в нелинейной регрессии Таким образом, случай с известной практически не отличается от обычного предположения

В литературе рассмотрен также случай, когда имеют стационарное распределение. Тогда имеет простую структуру и возможно ее оценивание. В простейшем случае отклонения имеют автокорреляцию первого порядка:

При некоторых условиях регулярности обобщенная оценка МНК также будет состоятельной и асимптотически-нормальной (более подробно см. [120, 178, 106]).

<< Предыдущий параграф Следующий параграф >>
Оглавление