Главная > Математика > Линейная и нелинейная регрессии
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

1.4. Методология статистического оценивания

Кратко остановимся на основных моментах современного подхода к теории оценивания. Это поможет читателю глубже понять статистические свойства оценок, изучаемых в книге. Более подробно соответствующие вопросы изложены в [33].

Допустим, имеется -мерная случайная величина т. е. выборка, распределение которой

неизвестно и зависит от некоторого неизвестного параметра а, про который известно лишь, что он принадлежит некоторому априорному множеству Функцию распределения, соответствующую а, обозначим Статистикой, или оценкой, называют функцию на зависящую от у, но не зависящую от а. Рассмотрим одну из оценок, которую, например, обозначим Для простоты будем считать, что число неизвестных параметров равно единице, т. е. а Как ввести критерий качества оценивания а неизвестного параметра а?

Рис. 1.5. Несравнимые функции риска

Предположим, что а известно, тогда для заданного у можно выбрать квадратичный критерий (квадратичную функцию потерь), т. е. ншзость и а будем измерять величиной для данного а усредненную точность оценивания. Она равна:

Функция называется функцией риска оценки а. Легко видеть, что для несмещенной оценки функция риска есть не что иное, как ее дисперсия. Для каждой оценки функция риска — неотрицательная функция параметра а. Теперь, казалось бы, имеется критерий, по которому можно померять эффективность оценок и возможно определить наилучшую оценку. Однако многие оценки оказываются несравнимыми.

Действительно, рассмотрим функции риска соответствующие оценкам (рис. 1.5).

Какая из них лучше? Однозначно ответить на этот вопрос нельзя. Если истинное значение параметра лежит между 1 и 2, то предпочтительнее пользоваться оценкой в противном случае Но мы как раз и не знаем, лежит ли неизвестный параметр в заданных границах или нет! Благоприятная ситуация для сравнения изображена на рис. 1.6. Здесь видно, что первая оценка лучше. Невозможность сравнения любых функций риска делает задачу нахождения оптимальной оценки в классе всех оценок неразрешимой.

Рис. 1.6. Сравнимые функции риска

Действительно, допустим имеется некоторая «наилучшая» оценка функция риска которой минимальна, т. е. для любой другой оценки имеем для всех а. Очевидно так как в противном случае и в вырождается в точку.

Итак, пусть В качестве новой оценки а положим для всех Найдем функцию риска такой оценки. По формуле (рис. 1.7). Очевидно, в заштрихованной окрестности оценка будет лучше «наилучшей» оценки а.

Существует несколько способов обхождения трудностей, связанных с несравнимостью функций риска.

Байесовский подход. Как правило, не все точки априорного множества параметров для нас одинаковы. Так, если то весьма возможно, что гораздо важнее хорошо оценить неизвестный параметр, лежащий в окрестности 0, 5, чем по краям отрезка Таким образом, можно ввести функцию предпочтения, или весовую функцию. Ее можно рассматривать и как априорное распределение параметра а Так, в нашем случае в качестве функции предпочтения можно взять В общем случае есть неотрицательная функция на

С помощью функции предпочтения можно найти усредненную функцию риска Теперь каждой оценке соответствует фиксированное число — задача сравнения оценок решена. Оптимальная байесовская оценка минимизирует усредненную функцию риска

Минимаксный подход. При этом подходе ориентируются на худшую возможность, т. е. на максимальное значение функции риска Наилучшей минимаксной оценкой в этом смысле является та, которая минимизирует максимальный риск

Рис. 1.7. Функция риска тривиальной оценки

Существует другой способ регуляризации задачи оценивания — сужение класса рассматриваемых оценок. Часто ограничивая класс оценок, мы можем найти оптимальную оценку из этого класса. Наиболее часто рассматривают класс несмещенных оценок. В этом случае даже можно вычислить нижнюю границу функции риска ; она называется границей Крамера-Рао. Для любой несмещенной оценки имеем (рис. 1.8). Граница Крамера-Рао для дисперсии несмещенной оценки находится довольно просто: это обратная величина информации по Фишеру т. е. для любой несмещенной оценки имеем

где

функция плотности выборки Поэтому если мы докажем, что дисперсия некоторой оценки равна для любого то эту оценку можно считать эффективной в классе несмещенных оценок.

Рис. 1.8. Нижняя граница Крамера-Pao

Можно рассмотреть еще более узкий класс — класс линейных несмещенных оценок. Каждую оценку из этого класса можно записать в виде

где с; — некоторые константы, удовлетворяющие в силу несмещенности а условию где В этом классе также можно найти эффективную оценку. Она находится, как правило, весьма просто. Докажем, что средняя арифметическая является эффективной в этом классе оценкой математического ожидания при любой функции распределения с неизвестным математическим ожиданием и единичной дисперсией случайная выборка, т. е. независимы и одинаково распределены). Итак, пусть причем в силу несмещенности Тогда

Легко показывается, что решением этой оптимизационной задачи является т. е.

Если нормально распределены, то можно показать, что средняя является эффективной оценкой в классе всех несмещенных оценок. Действительно, в этом случае

— плотность распределения координаты вектора у; плотность распределения вектора у равна в силу независимости произведению таких плотностей:

Информационное количество в выборке по Фишеру равно:

Итак, нижняя граница дисперсий несмещенной оценки Крамера-Рао равна но дисперсия средней тоже равна откуда следует, что средняя — эффективная оценка в классе несмещенных оценок.

Мы доказали что средняя является эффективной в классе несмещенных оценок, если выборка подчинена нормальному закону. Предположение нормальности существенно. Если взять другой закон распределения, то эта оценка может оказаться уже не эффективной.

Может быть введен еще один класс оценок: оценки с ограниченной функцией риска. Оценка принадлежит классу оценок с ограниченной функцией риска, если найдется такое число что для всех а 6 в. Класс оценок с ограниченной функцией риска вводится для того, чтобы не рассматривать оценки плохие при некоторых значениях неизвестных параметров.

Допустим, случайная выборка из распределения Предположим также, что которая известна. Нетрудно показать, что тогда класс линейных несмещенных оценок параметра а уже класса линейных оценок с ограниченной функцией риска. Действительно, пусть линейная несмещенная оценка, т. е.

Тогда ее функция риска ограничена (не зависит от а):

Если в качестве неизвестного параметра а выступает математическое ожидание т. е. то можно показать, что класс линейных несмещенных оценок и класс линейных оценок с ограниченной функцией риска совпадают.

Пример. Пусть случайная выборка из совокупности с нормальным распределением с неизвестным математическим ожиданием и единичной дисперсией, т. е. Предположим, что априорное множество есть вся числовая прямая . В качестве оценок рассмотрим три оценки: первая — хорошо известная средняя вторая — полусумма первого и последнего наблюдений и третья — «глупая» оценка Найдем функцию риска каждой оценки. Прежде всего заметим, что первая и вторая оценки — несмещенные. Далее,

Очевидно, для всех первая оценка будет лучше второй (рис. 1.9). Может ли «глупая» оценка быть лучше средней? Легко проверить, что это возможно, если истинное значение математического ожидания заключено в пределах На интервале «глупая» оценка будет лучше при

Перейдем к случаю многомерного оценивания, т. е. ту Пусть А — некоторая положительно определенная детерминированная (весовая) матрица, оценка, случайный вектор параметра Обобщенной квадратичной функцией потерь назовем величину

Вместо (1.12) можно рассмотреть матрицу средних квадратов отклонений (ошибок) (СКО):

Оценка не хуже оценки в случае (1.13), если для всех истинных значений параметров а разность СКО между второй и первой оценками есть неотрицательно определенная матрица.

Рис. 1.9. Функции риска различных оценок средней при

Для несмещенных оценок матрица СКО превращается в матрицу ковариаций

X

Таким образом, несмещенная многомерная оценка не хуже несмещенной оценки если неотрицательно определена, что будем в дальнейшем записывать как Если разность (а — неотрицательно определенная и ненулевая матрица, то лучше В этом случае будем иногда говорить, что имеет меньшую матрицу ковариаций, чем Каждый из критериев эффективности многомерных оценок

(1.12) и (1.13) имеет Свои преимущества и недостатки. Преимущества первого критерия: сравнимость эффективностей любых двух оценок. Недостаток (1.12): необходимо выбрать весовую матрицу А, которая априори часто неизвестна. Недостаток (1.13) — несравнимость эффективностей некоторых оценок. Можно показать, что оба критерия в определенном смысле приводят к одним и тем же оптимальным оценкам: если оценка не хуже оценки в смысле (1.13), то не хуже в смысле (1.12) для любых весовых матриц А, и наоборот (см. [191]).

Часто в критерии (1.12) в качестве весовой матрицы выбирают единичную. Тогда приходим к минимизации средней суммы квадратов ошибок (ССКО):

Неравенство Крамера-Рао (1.10) обобщается на многомерный случай. Пусть — несмещенная оценка, тогда

где

здесь положительно определенная матрица Неравенство (1.15) следует понимать так, что разность между левой и правой частями — неотрицательно определенная матрица.

Упражнения 1.4

(см. скан)

(см. скан)

<< Предыдущий параграф Следующий параграф >>
Оглавление