Главная > Математика > Линейная и нелинейная регрессии
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

1.3. Обсуждение предпосылок классической регрессии

Предположение А означает, что априори нам ничего неизвестно о параметре Иногда определенная информация все же существует. Например, в регрессии (1.5) мы вправе предположить, что Априорные ограничения иногда выступают в виде линейных уравнений относительно с известными коэффициентами. В этом случае оценка МНК будет отличаться от обычной. Исследование линейной регрессии (1.1) при линейных ограничениях на параметры отложим до параграфа 2.3.

Предположение Б констатирует стохастическую природу зависимой переменной. Так, в примере с химическим экспериментом у — случайная переменная.

Случайность выхода реакции есть результат большого числа «неучтенных» факторов: чистоты вещества и катализатора, присутствия посторонних веществ и т. п. В то же время математическое ожидание у есть линейная функция количества вещества температуры и катализатора.

Предположение В означает, что для всех т. е. среднее каждого отклонения равно нулю.

При описании химического эксперимента мы требовали неизменность условий проведения эксперимента: количества вещества давления, времени проведения реакции. Вообще говоря, эти условия также могут меняться. Например, можно представить ситуацию, когда трудно определить конец реакции или точно измерить давление, при котором происходит реакция. Для того чтобы предположение В выполнялось, достаточно потребовать, чтобы условия эксперимента изменялись случайным образом и независимо друг от друга. Чем сильнее вариация условий экспериментов, тем выше значение Это в свою очередь ведет к ухудшению свойств оценок (точность оценивания падает).

Если отклонения трактовать как суммарный эффект неучтенных факторов, то по предположению В требуется, чтобы этот эффект в среднем был равен нулю. Вообще говоря, такое предположение достаточно обременительно. Достаточно трудно подобрать факторы так, чтобы оставшийся эффект «свести на нет». Можно ослабить рассматриваемое предположение и вместо него выдвинуть предположение В.

Предположение В. Математическое ожидание равно константе; неизвестный параметр; — Таким образом, мы требуем просто, чтобы остаточный эффект в среднем был постоянен.

Покажем, как в условиях сделанного предположения свести задачу к предыдущей. Положим тогда и условие В выполнено. Рассмотрим регрессию

где

Если дополненная система векторов осталась линейно-независимой, то уравнение (1.7) полностью удовлетворяет всем предположениям

При этом, оценивая вектор параметров мы найдем и оценку для В связи с вышеизложенным предпочтительнее пользоваться регрессией со свободным членом; при этом предположение В заменяется более слабым предположением В. Коэффициент трактуем тогда как суммарный эффект неучтенных факторов.

Теперь ясны причины, по которым в регрессии (1.5) присутствует постоянный член Этим самым мы сможем оценить остаточный эффект воздействия на величину выхода реакции. Мы предполагаем, что этот эффект одинаков для всех 15 экспериментов. Как следует из (1.6), суммарный эффект неучтенных факторов равен , т. е. неучтенные факторы оказывают отрицательное воздействие. Дадим возможное объяснение отрицательного значения «суммарного эффекта» неучтенных факторов для рассматриваемого примера.

Возможно, отрицательный знак есть результат того, что реакция между не может начаться ниже определенной температуры Таким образом, если количество вещества и количество катализатора К равны нулю, а температура проведения реакции выход реакции будет равен нулю. Другими словами, уравнение (1.6) может быть переписано следующим образом:

т. е. пороговое значение температуры

Вообще говоря, интерпретация свободного члена регрессии как суммарного эффекта неучтенных факторов возможна далеко не всегда. Такая интерпретация правильна, если регрессия продолжает оставаться адекватной в окрестности малых значений независимых переменных

Очень часто регрессию рассматривают со свободным членом, т. е. в виде (1.8). Если формальное нахождение всех параметров (1.8) по формуле (1.4) связано с обращением матрицы то, используя специфический вид регрессии со свободным членом, можно свести нахождение а к обращению матрицы меньшего порядка Процедура такова:

1) находят средние у и всех х:

2) вычисляют новые векторы у и всех х:

3) находят оценку МНК для

4) находят оценку для

Можно показать, что полученная оценка для совпадает с оценкой уравнения (1.7), которая непосредственно получается из формулы (1.4).

Предположение означает, что отклонения регрессии (а значит, и сама зависимая переменная) не коррелируют. Иногда требуют большего — независимости отклонений. Условие некоррелируемости довольно ограничительно, например в случае временного ряда Тогда предположение означает отсутствие автокорреляции ряда Другим требованием к отклонениям в классической линейной регрессии является условие гомоскедастичиости, т. е. однородности отклонений, в противном случае говоримо гетероскедастичности. Это условие также довольно часто не выполняется. Даже если трактовать как ошибки измерения, то вполне исроятно, что большим значениям будет соответствовать и большее значение Принятие гипотезы гомоскедастичности означает, что «величина» случайных отклонений и (1.1) должна быть постоянной. Параметр неизвестен. Случай тривиален. Действительно, тогда с вероятностью детерминированный вектор. Поскольку существует единственный вектор а, удовлетворяющий этому равенству, т. е. вырождается и точку и оценка тривиальна. В дальнейшем будем предполагать

Принятие предположения в регрессии (1.5) означает, что, во-первых, в отклонениях нет автокорреляции, т. е. неучтенные фкторы действуют случайно от эксперимента к эксперименту. Автокорреляция отклонений могла наблюдаться, если после каждого эксперимента реактор промывался недостаточно хорошо, и результат жсиеримента в определенной степени зависел от эксперимента. Вторая часть предположения означает, что разброс неучтенных факторов в (1.5) постоянен.

Предположение фиксирует матрицу независимых переменных. Матрицу X в условиях данного предположения можно рассматривать как систему заданных коэффициентов.

В регрессии (1.5) считаем, в частности, что данные пятнадцати экспериментов не содержат ошибок измерения.

Переменные по предположению не являются стохастическими и часто контролируемы.

Предположение влечет единственность оценки МНК и применимость формулы (1.4). Случай, когда это условие не выполняется, рассмотрен в [4], [60], а также в параграфе 5.2. Предположение влечет т. е. число неизвестных параметров должно быть не больше числа наблюдений.

Можно проверить, что предположение выполняется для регрессии (1.5) (см. табл. 1.1).

Упражнения 1.3

(см. скан)

<< Предыдущий параграф Следующий параграф >>
Оглавление