Главная > Математика > Линейная и нелинейная регрессии
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

Глава 4. ОШИБКИ В НЕЗАВИСИМЫХ ПЕРЕМЕННЫХ

4.1. Постановка задачи. Оценка МНК

В этой главе обобщается классическая регрессия на случай, когда независимые переменные измеряются сшибкой. В принципе случайные отклонения в независимых переменных можно трактовать шире, однако в любом случае эти отклонения должны удовлетворять определенным требованиям.

Важное место в классической регрессии (независимые переменные детерминированы) занимают регрессии

планируемого эксперимента. Основным требованием к ним является, как уже указывалось в начале книги, отсутствие ошибок измерения управляемых, т. е. независимых переменных. На практике они чаще всего все же существуют.

Система предположений в схеме с ошибками в независимых переменных такова. Существуют истинные значения переменных (они детерминированы) Между этими ненаблюдаемыми переменными существует функциональная линейная связь

где нам неизвестны и подлежат оцениванию. Истинные значения нам также не известны, зато известны наблюдения которые отличаются от первых на случайные отклонения, т. е. на ошибки измерения:

Поскольку мы интерпретируем как ошибки измерения, то естественны следующие гипотезы:

система независимых случайных величин.

Первое уравнение в (4.3) означает, что измерения не содержат смещений. Вторая система предположений (4.3), касающаяся дисперсий, означает, что каждый ряд измеряется своим инструментом, чувствительность которого не зависит от номинальной величины ряда. Например, если у есть сила тока в цепи и эта величина измеряется амперметром с делением то, предполагая равномерное распределение ошибки на мы можем утверждать, что

Вообще говоря, некоторые из переменных могут измеряться без ошибок, например если эти переменные — функции номера эксперимента или наблюдения; тогда . В частности, если о то приходим к классической регрессии агхп . В дальнейшем, как правило, будем считать для всех

Для иллюстрации продолжим рассмотрение примера, начатого в параграфе 1.1. Будем считать, что если все другие условия эксперимента фиксированы, а измерены без ошибок, то между ними наблюдается точная функциональная связь:

Другими словами, нам известна формула реакции и известен закон взаимодействия веществ с точностью до неизвестных параметров Однако в силу ошибок измерения на место функциональной связи приходит статистическая. Считаем, что математическое ожидание ошибок измерения равно нулю. Если выход реакции количество вещества и количество катализатора измеряются на одних весах, то можно считать Приближенно можно считать даже где цена деления весов.

«Функциональность» уравнения (4.1) на первый взгляд может привести к мысли, что изложенная схема пригодна только для функциональных же зависимостей, т. е. зависимостей, встречающихся только в естественнонаучных дисциплинах. На самом деле это не так. Перепишем уравнение (4.1) в более привычном виде:

Оно очень похоже на уравнения регрессий, с которыми мы работали до сих пор. При этом не обязательно есть ошибка измерения. Случайные величины также не обязательно трактовать как ошибки измерения. Так, Э. Маленво приводит пример [48, с. 391, 392], где расход на данный продукт в семье доход семьи и случайные отклонения трактуются не как ошибки измерения. Единственные условия, которым должны подчиняться ошибки, это условия (4.3) и условие независимости.

Схема в которой детерминированы, называется функциональной. В другой схеме случайные величины. Последняя схема называется структурной. Можно показать, что структурная схема в простейшем случае сводится к функциональной. Обозначим в структурной схеме

Переходя к математическому ожиданию в (4.1), получим

где независимы и гомоскедастичны, то таковыми будут и В литературе изучался простейший случай структурной зависимости где независимы. В матричных обозначениях (4.1) и (4.2) переписываются следующим образом:

где имеют порядок соответственно Как и ранее, будем предполагать, что Подставляя (4.5) и (4.6) в уравнение (4.4) получим

где

Схему (4.4) не надо путать со схемой условного математического ожидания, рассмотренной в предыдущей главе. Различие вытекает из того факта, что вектор отклонений зависит от Более подробно:

В силу независимости средний член в последнем равенстве обращается в нуль. Из равенства (4.6) окончательно следует

что противоречит схеме регрессии как условного математического ожидания (3.1).

По наблюдениям можно построить оценку МНК:

В классической регрессии оценка МНК была несмещенной, линейно эффективной в классе несмещенных оценок и при некоторых условиях состоятельной. Покажем, что в схеме с ошибками в независимых наблюдениях эти свойства оценки пропадают. Начнем с несмещенности. Строго доказать смещенность оценки (4.8) затруднительно. Относительно смещечности оценки МНК, приведем следующие соображения. Пгрепишем (4.8) следующим образом:

но

где яиагональна матрица диагональным элеьентом Вероятно, что также отлично от нуля.

Оценка МНК не будет состоятельной даже при весьма сильных предположениях. Покажем, что если матрица X сильно регулярна, оценка МНК не будет состоятельна. Распишем (4.8) следующим образом:

Рассмотрим первый предел по вероятности:

По предположению

Легко показать, что в условиях сильной регулярности из закона больших чисел следует

где диагональная матрица, описанная ранее. Таким образом,

Второй предел по вероятности

Из закона больших чисел следует, что первые три слагаемых в последнем выражении равны нулю, таким образом

окончательно

становится спорным. Теперь попадают в одинаковую ситуацию. Так, можно минимизировать отклонение от прямой вдоль оси х (рис. 4.1). На этом рисунке соответствует отклонению вдоль оси х (ошибки только в независимой переменной), отклонению вдоль оси у (ошибки только в зависимой переменной). Компромиссом здесь может быть, например, отклонение, равное расстоянию от точки, отвечающей выборке у, до прямой.

Рис. 4.1. Минимизация отклонений для разных направлений

Регрессия, оцененная минимизацией суммы квадратов расстояний от точек выборки до прямой, или в общем случае плоскости, называется ортогональной

Перейдем к общему случаю. Поскольку в схеме ошибок в независимых переменных становятся с теоретической точки зрения равноправными, следующие переобозначения являются целесообразными. Объединим все наблюдения в одну матрицу, т. е. обозначим

где Соотношения (4.4), (4.5) и (4.6) переписываются следующим образом:

причем При нахождении оценок ортогональной

регрессии удобнее пользоваться другой нормировкой вектора а именно положим

Можно было бы оставить условие но для простоты исследования (4.17) более целесообразно. Для отыскания оценок ортогональной регрессии нам понадобится следующая лемма.

Лемма 4.1. Пусть в задана гиперплоскость (линейное подпространство размерности :

где вектор фиксирован, Тогда расстояние от произвольной точки до плоскости есть

Доказательство хеммы несложно, его можно провести с помощью множителей Лагранжа.

Принцип ортогональной регрессии заключается в минимизации суммарных квадратов расстояний от точек выборки, т. е. до гиперплоскости ортогональной регрессии (4.18). В силу леммы 4.1

Минимизируем при условии Для этого построим функцию Лагранжа:

Ее производные пор, равны:

или в матричном виде:

Для того чтобы последнее уравнение имело решение относительно необходимо и достаточно, чтобы

при этом значение минимизирующее 5 (0), является характеристическим вектором (х. в.) матрицы соответствующим характеристическим числом. Однако число разных характеристических векторов и характеристических чисел может быть равно Какое же из них выбрать? Покажем, что для минимизации необходимо выбрать минимальное х. ч. матрицы и соответствующий минимальный х.в. Действительно,

но

Минимальное значение квадратичной формы будет наблюдаться, если в качестве взять характеристический вектор, соответствующий минимальному характеристическому числу матрицы . Обозначим его тогда

Возвращаясь к старым обозначениям, можно найти оценку ортогональной регрессии параметра а:

Рассмотрим геометрический смысл ортогональной регрессии. Для простоты остановимся на случае т. е.

Матрица VV задает характеристический эллипсоид

Величина у определяет размеры характеристического эллипсоида. Каждый эллипсоид из семейства является пропорциональным растяжением другого. В случае т. е. эллипсоид превращается в эллипс. Ортогональная регрессия имеет направление характеристического вектора отвечающего его максимальному характеристическому числу. Диаметром эллипса, сопряженным данному направлению как известно, называется геометрическое место точек середин отрезков параллельных отсекаемых

эллипсом. Очевидно, ортогональная регрессия есть диаметр эллипса, сопряженный направлению х. в., отвечающего минимальному матрицы (рис. 4.2). Регрессия оценки МНК есть диаметр характеристического эллипса который сопряжен с направлением оси у. Регрессия, соответствующая оценке МНК «х на у», есть диаметр, сопряженный направлению оси х.

Длина отрезка длина отрезка Вектор соответствует характеристическому вектору с вестор

Рис. 4.2. Ортогональная регрессия и регрессии, сопряженные данному направлению для

Регрессия у на х делит отрезок в тэчке пополам, регрессия х на у делит отрезок в точке К пополам, угол прямой.

В качестве примера рассмотрим регрессию (1.5). Допустим, данные табл. 1.1 есть результаты измерений величин Считаем, что в отсутствии ошибок измерения количество вещества получившегося в результате реакцш., есть линейная функция количества вещества температуры и количества катализатора, т. е.

Ошибга измерения делают эту зависимость стохастической. Перепишем (4.21) в виде (4.15), т. е.

Для чтобы избавиться от постоянного члена, перейдем к центрированным рядам, т. е. вместо будем

рассматривать где Матрица в регрессии (1.5) равна:

Ниже приведены характеристические векторы и числа этой матрицы в порядке их убывания:

Выбираем последний вектор, отвечающий :

Оценка а ортогональной регрессии равна:

Итак, зависимость (4.21), оцененная методом ортогональной регрессии, равна;

Универсальным методом оценивания параметров является метод максимального правдоподобия. К каким оценкам приведет этот метод, если применить его к задаче (4.15), (4.16)? Применение ММП еще отчетливее позволит понять трудности оценивания в модели с ошибками в независимых переменных.

Упражнения 4.2

(см. скан)

<< Предыдущий параграф Следующий параграф >>
Оглавление