Главная > Математика > Линейная и нелинейная регрессии
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

1.6. Коэффициент детерминации и его интерпретация

Этот коэффициент вводится в курсах математической статистики (см. [42], [63]).

Рассмотрим случайную величину Регрессией у на в математической статистике называют условное математическое ожидание у при фиксированных значениях которое обозначают как Условной дисперсией у при заданных называется дисперсия у относительно регрессии Таким образом,

Предположим, что условная дисперсия (1.22) не зависит от значений, которые принимают независимые переменные,

и равна Коэффициент детерминации определяется следующим образом:

где - дисперсия случайной величины у. Можно показать, что поэтому причем тогда и только тогда, когда связаны функциональной зависимостью, точнее, с вероятностью 1. Чем ближе коэффициент детерминации (1.23) к 1, тем «функциональнее» статистическая зависимость между Таким образом, является показателем адекватности, или качества соответствия, регрессии исходной системы случайных величин Величина есть доля дисперсии у, которая не смогла быть «объяснена» с помощью регрессии величина доля «объясненной» дисперсии у.

В курсах по регрессионному анализу коэффициент детерминации вводится следующим образом.

Пусть дана линейная регрессия со свободным членом

Оценка МНК равна: (Напомним, что последний столбец матрицы X состоит из единиц.) Далее можно найти расчетный вектор зависимой переменной оценку вектора отклонений

По определению оценка МНК удовлетворяет уравнению - откуда

Обозначим — вектор размерности все координаты которого равны единице. Тогда, переписывая (1.25) для последнего столбца матрицы X, получим т. е. среднее Отсюда следует, что среднее у равно среднему у, так как

Далее, поэтому Выведенные уравнения используем для разложения суммы квадратов отклонений у от средней:

которое перепишем как

Таким образом, разброс объясняемой переменной около средней равен сумме разброса, «объясняемого регрессией», и разброса, который не удалось объяснить.

Коэффициент детерминации регрессии (1.24) определяется следующим образом:

Коэффициент детерминации легко интерпретируется геометрически. Перенесем начало координат выборочного пространства в точку Тогда

есть отношение квадрата длины катета к квадрату гипотенузы. Таким образом, коэффициент детерминации равен квадрату косинуса угла между или между . Часто величину (1.27) интерпретируют так же, как и коэффициент детерминации т. е. как показатель адекватности модели, как долю дисперсии у, объясняемой регрессией (1.24). Однако если независимые переменные детерминируемы, то такое толкование коэффициента (1.27) недопустимо. Покажем, почему это происходит. Коэффициент (1.27) может быть переписан следующим образом:

Числитель дроби в (1.28) есть оценка условной дисперсии знаменатель — оценка дисперсии у, причем у — оценка

математического ожидания случайной величины -ким образом, для того чтобы статистика была приемлемой оценкой дисперсии у, необходимо прежде всего» чтобы Но в силу детерминируемости это влечет

Уравнение (1.29) означает линейную зависимость вектор-столбцов матрицы X, что противоречит предположению

Забвение того факта, что в регрессии (1.24) имеют разное математическое ожидание, приводит к тому, что оценка оказывается завышенной, близким к 1.

Рис. 1.10. Две модели для растущего ряда

Особенно высокие значения возникают в тех случаях, когда временной монотонный (в среднем) ряд (рис. 1.10). Величина убудет тем больше, чем выше скорость возрастания (или убывания) ряда Таким образом, в регрессиях с монотонными зависимыми переменными скорее есть показатель не адекватности модели, а роста (падения) Автору приходилось сталкиваться с регрессиями, у которых коэффициент детерминации оказывался 0,998 и выше.

Толкование коэффициента (1.27) как показателя адекватности модели, часто приводит к парадоксам, один из

которых рассмотрим. Допустим, нас интересует зависимость объема выпуска некоторого предприятия от других его показателей, например от наличия основных фондов и фонда заработной платы. Имеется выборка соответствующих показателей за лет. Предполагается следующая мультипликативная зависимость

или

где Предположения считаем выполненными. Коэффициент детерминации, отвечающий этой модели, обозначаем Теперь рассмотрим конкурирующую модель тренда

или

где

Коэффициент детерминации, вычисленный для этой модели, обозначим через Ясно, что модель (1.30) более правдоподобна, чем модель (1.31), так как выпуск предприятия должен зависеть от основных фондов и фондов заработной платы. В то же время наверняка Объясним, почему это произойдет. Ряд будет иметь резко выраженную тенденцию, таковым будет и ряд поэтому будет большой величиной, будет близок к 1. Наоборот, ряды скорее всего имеют одинаковую тенденцию, и поэтому ряд не будет ни возрастающим, ни убывающим, т. е. не должен принимать очень больших значений.

Однако, что же означает рассчитанный по формуле (1.27). Помимо исходной регрессии (1.24) рассмотрим другую регрессию — модель среднего

Оценкой МНК уравнения (1.32) является с минимальной суммой квадратов, равной Тогда отношение есть показатель того, насколько модель среднего (1.32) лучше модели регрессии (1.24), т. е. показатель эффекта присутствия переменных

чем выше это отношение, тем меньше эффект введения переменных в уравнение (1.32). Разность отражает, насколько модель (1.24) лучше модели среднего (1.32). Итак, в регрессиях с детерминированными независимыми переменными коэффициент детерминации необходимо трактовать как показатель, отражающий, насколько модель регрессии лучше модели среднего. Если принять такую трактовку то становятся ясными большие значения этого коэффициента для растущих временных рядов. По определению модель среднего для таких рядов не удовлетворительна, а значит должен быть близким к 1.

Вместо коэффициента (1.27) для монотонных рядов у можно предложить другие более приемлемые показатели. Прежде всего отметим, что по тем же соображениям, по которым в уравнение регрессии мы вводили свободный член, в уравнение регрессии с монотонным рядом предлагается вводить член

Поскольку у — возрастающий (убывающий) ряд, то, вероятно, таковыми будут и неучтенные факторы средней тенденцией Тогда уравнение регрессии будет выглядеть следующим образом:

Вместо модели (1.32) уместно теперь рассмотреть другую, конкурирующую с (1.33), модель тренда:

Пусть оценки МНК модели-тренда (1.34). Тогда коэффициент детерминации предлагаем считать по формуле

где — минимальная сумма квадратов отклонений, соответствующая регрессии (1.33). отражает эффект присутствия переменных в регрессии (1.33). Можно показать, что причем если то чем ближе к 1, тем лучше модель (1.33) модели-тренда (1.34).

Трактуя как показатель адекватности модели исходным данным, иногда его предлагают выбирать в качестве критерия присутствия некоторой независимой переменной в регрессии. При этом не надо забывать одно обстоятельство: с добавлением новых переменных коэффициент

детерминации не уменьшается. Докажем это. Пусть регрессия у на привела к коэффициенту детерминации при этом проекция у на есть Дополняя множество независимых переменных, приходим к множеству проекцию у на обозначим

Рис. 1.11. К доказательству того, что коэффициент детерминации не уменьшается с добавлением переменных

По определению но Поэтому По теореме Пифагора

Из последнего неравенства следует требуемое:

На рис. 1.11 показаны соответствующие величины для При этом плоскость, натянутая на

Часто вместо (формула (1.27)) рассматривают правленный коэффициент детерминации Суть поправки сводится к тому, что вместо смещенных оценок для и рассматривают несмещенные Таким образом,

Правленный коэффициент детерминации является лучшей оценкой истинного значения коэффициента детерминации, чем обычный коэффициент (1.27).

Для регрессии без свободного члена неявно предполагается, что поэтому формула (1.27) перепишется следующим образом:

Коэффициент детерминации (1.36) отражает, насколько модель без свободного члена лучше модели

Упражнения 1.6

(см. скан)

<< Предыдущий параграф Следующий параграф >>
Оглавление