Главная > Математика > Линейная и нелинейная регрессии
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

Глава 5. РОБАСТНЫЕ ОЦЕНКИ

5.1. Робастные оценки параметра положения

В условиях нормальной гипотезы метод наименьших квадратов является оптимальным. Отметим характерную особенность нормального распределения — основная масса распределения сосредоточена на конечном интервале

Вне этого интервала находится лишь распределения Другими словами, нормальное распределение имеет «легкие хвосты».

Таким образом, принимая гипотезу нормальности, мы автоматически предполагаем, что основная масса отклонений сосредоточена на некотором интервале. Вероятность большого отклонения при этом весьма мала. В реальной ситуации эта гипотеза является чересчур жесткой. Дело в том, что предполагаемая модель редко является абсолютно точно специфицированной; в частности, наблюдения могут быть засорены. Разумнее поэтому предположить, что отклонения с большей вероятностью могут принимать и большие значения. Это заставляет нас отказаться от распределения с легкими хвостами (в частности, от нормального распределения) и перейти к распределениям с тяжелыми хвостами. Оценки, ориентированные на распределения с легкими хвостами (в частности, оценка МНК), в новой ситуации оказываются далекими от эффективных. В распределениях с тяжелыми хвостами более эффективными будут менее чувствительные оценки, а именно такие, которые не меняют резко своих значений при возникновении больших отклонений (выбросов). Такие оценки будем называть робастньши (от английского слова robust - устойчивый), или устойчивыми. Робастные оценки устойчивы относительно априорного распределения отклонений. Если отклонения не засорены, т. е. вероятность больших отклонений мала, робастные оценки будут менее эффективны, зато если отклонения содержат выбросы, то эти оценки будут малочувствительны к ним, а потому более удовлетворительными. Таким образом, переходя к распределениям с более тяжелыми хвостами, мы теряем в эффективности, но приобретаем в надежности. Соответствующие методы будут менее чувствительны к ошибкам спецификации отклонений регрессии.

Специально проблеме робастного (устойчивого) оценивания посвящена книга Б. А. Смоляка и Б. П. Титаренко [62], а также работы [56] и [32].

Чтобы не усложнять проблему робастного оценивания техническими деталями, рассмотрим сначала простейший случай: оценивание параметра положения.

Итак, пусть перед нами стоит следующая статистическая задача: наблюдения независимы и одинаково распределены с функцией распределения где параметр положения; . Параметр определяющий «центр» распределения случайной величины, подлежит оцениванию. Для простоты параметр масштаба а считаем равным единице Известно, что если пропорциональна т. е. выборка извлечена из нормальной генеральной совокупности, то средняя является эффективной оценкой в классе несмещенных оценок (см. параграф 1.4). Однако если имеет тяжелые хвосты, оценка у уже не будет эффективной. Действительно, оценка у направлена на минимизацию суммы квадратов отклонений:

Если же имеет тяжелые хвосты, то весьма вероятно получение больших отклонений ; возведение их в квадрат в сумме (5.1) приведет к резкому смещению у в сторону больших отклонений.

Наиболее простой способ нивелировки у состоит в следующем: отбросим минимальное и максимальное наблюдения в выборке На основе оставшихся наблюдений найдем новую среднюю

где ранжированный ряд, составленный из первоначальной выборки. Можно отбросить первые два и последние два члена ранжированного ряда и затем построить новую среднюю и т. д. Наконец, можно задаться долей и отбрасывать члены вариационного ряда, для которых Полученная средняя называется -усеченная средняя и будет робастной (устойчивой) оценкой.

Обычная средняя также будет неэффективной в случае, когда распределены неодинаково, и некоторые наблюдения имеют большую дисперсию, т. е. являются

выбросами. Сильно реагируя на такие выбросы, у будет иметь большую дисперсию.

Другой робастной оценкой является медиана. Напомним, что медиана выборки есть величина, по левую и по правую стороны от которой лежит одинаковое количество наблюдений. Интуитивно ясно, что медиана выборки будет устойчивее к виду распределения генеральной совокупности, чем обычная средняя. Вес наблюдения при построении медианы не зависит от его значения и равен 1. Поэтому даже большие отклонения не так резко изменяют значение медианы, как это произойдет в средней. Мы еще вернемся к медиане как робастной оценке параметра положения при рассмотрении оценок ММП.

П. Хюбер [136] предложил целый класс робастных оценок -оценки). Вместо квадратичной функции в сумме (5.1) он рассмотрел минимизацию суммы вида

где некоторая выпуклая функция. Значение 0, которое обращает (5.2) в минимум для некоторой функции называется -оценкой. Легко видеть, что -оценку можно рассматривать как оценку метода максимального правдоподобия. Действительно, пусть имеют функцию плотности Тогда в силу независимости и одинаковой распределенности функция плотности выборки равна:

Если обозначить то после логарифмирования приходим к выражению

Для того чтобы оценка была робастной, необходимо чтобы была «менее возрастающей», чем Например, Хюбер предложил следующую функцию:

Идея заключалась в том, чтобы вклад значений , которые меньше по абсолютной величине некоторого порогового значения , в сумму измерять в квадратах отклонений (на рис. 5.1 этим значениям соответствует интервал для наблюдений, для которых вклад измерять в более умеренных единицах — пропорционально на рисунке этим значениям соответствует интервал

Рис. 5.1. Функция Хюбера

Очевидно, что если то придем к оценке МНК. Можно рассмотреть целый класс оценок, соответствующих функциям что приводитк минимизации сумм вида (рис. 5.2)

Оценки , получаемые в результате минимизации суммы (5.4), будем называть -оценками. Эти оценки малочувствительны к большим отклонениям Чем меньше значение тем эта чувствительность меньше. В частности, можно показать, что медиана есть -оценка параметра положения. В качестве можно предложить и другие функции. Большой набор функций предлагается в [74]. Там

Рис. 5.2. Различные функции

же исследуется эффективность робастного оценивания для некоторых из вводимых функций.

До сих пор мы считали параметр масштаба о известным. В случае когда он неизвестен, минимизируемая сумма (5.1) трансформируется в

где тоже подлежит оцениванию. Для функции типа введена параметра масштаба не меняет оценки (о выносится за знак суммы). Если же есть, например, функция Хюбер}, то может существенно повлиять на оценку. Для оценившия о можно взять следующую статистику:

медиана где медиан выборки

Помимо -оценок, введенных Хюбером, существуют два других класса робастных оценок: -оценки, основанные на упорядоченной выборке [138], и -оценки. основанные на критериях рангов, впервые предложенное Ходжесом и Леманом [128] (см. также [861, [1411, [70]).

Упражнения 5. 1

(см. скан)

<< Предыдущий параграф Следующий параграф >>
Оглавление