Главная > Математика > Линейная и нелинейная регрессии
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

3.3. Схема случайной выборки

Важнейшим частным случаем схемы регрессии (3.1) является случай независимых, одинаково распределенных наблюдений., т. е. случайной выборки. Итак, имеется случайных величин Эти величины имеют свою функцию распределения, математические ожидания, дисперсии и т. д. (считаем, что все они конечны). Обозначим положительно определена и Относительно случайных величин известно, что

где вектор неизвестных параметров. Таким образом, регрессия у на х линейна и неизвестна

с точностью до своих коэффициентов. Предположим, разброс около регрессии постоянен, т. е.

также неизвестно. Из случайной величины производится случайная выборка т. е. независимы и одинаково распределены. Наблюдения образуют вектор и матрицу В силу независимости равенство (3.19) эквивалентно уравнению Далее можно показать, что в силу положительной определенности с вероятностью 1. Из независимости следует выполнимость предположения (параграф 1.1). Итак, все предположения для схемы случайной выборки выполняются.

Существует много задач, в которых наблюдения можно считать результатом случайной выборки. Так, если исследуется зависимость урожая некоторой однолетней сельскохозяйственной культуры от средней температуры лета и количества выпавших осадков, то наблюдения за лет дают нам: среднюю температуру лета в году количество осадков, выпавших в течение вегетации культуры в году Мы предполагаем, что урожай так зависит от что агхп Ясно, что величины можно считать независимыми по

В экономике большое число примеров рассмотренной схемы регрессии со случайной выборкой имеется в исследованиях пространственно-структурных зависимостей. Рассмотрим один из таких примеров. Допустим, изучается производительность труда в некоторой отрасли. Отрасль представляется совокупностью предприятий. Обозначим у — производительность труда; у имеет свое распределение (генеральная совокупность — показатели производительности труда всех предприятий). Имеется средняя производительность, разброс производительности труда и т. д. Далее, рассматриваются три случайные величины: основные фонды (генеральная совокупность — множество значений основных фондов всех предприятий отрасли); -фондовооруженность (генеральная совокупность — множество значений фондовооруженности всех предприятий); энерговооруженность (генеральная совокупность — множество значений энерговооруженности всех предприятий). Предположим, что при фиксированных

математическое ожидание есть линейная функция , т. е.

Свободный член введен в это уравнение регрессии по причинам, объясняемым в параграфе 1.3. Считаем, что условная дисперсия у (3.20) постоянна. Допустим, из множества всех предприятий отрасли (генеральная совокупность) отобрано определенное число предприятий, для каждого из них известны статистические данные по производительности труда основным фондам фондовооруженности и энерговооруженности Выборку считаем случайной. Наблюдения образуют вектор у и матрицу X, связанные между собой уравнением регрессии (3.1). Можно было бы рассмотреть исследуемую отрасль в целом, а в качестве статистики — показатели за ряд лет. Даже если наблюдения будут независимы, они уже не будут одинаково распределены! Производительность (средняя) наверняка будет повышаться (изменяется Скорее всего будут повышаться средние и остальных показателей: «временная» регрессия не подпадает под схему случайной выборки.

Свойства оценки МНК, доказанные в общем случае, будут верны и для схемы случайной выборки: несмещенность, неэффективность в классе несмещенных линейных оценок и эффективность в классе линейных оценок с ограниченной функцией риска.

В параграфе 1.6 отмечено, что в схеме классической регрессии (матрица X детерминирована) коэффициент детерминации не имеет статистического смысла. В схеме случайной выборки восстанавливает свое истинное статистическое содержание.

Обычный коэффициент детерминации

теперь является естественной оценкой истинного значения (1.23): является оценкой оценкой Коэффициент детерминации (3.22) можно трактовать как показатель «функциональности» зависимости или показатель адекватности регрессии, есть доля объясняемой дисперсии у.

В схему случайной выборки естественно вписываются асимптотические свойства. В силу независимости и одинаковой распределенности переменных почти наверное

Предел (3.23) легко доказывается с помощью усиленного закона больших чисел. Состоятельность оценки МНК можно доказать непосредственно, используя (3.23) или применив теорему 3.4.

Теорема 3.5. Оценка МНК в схеме случайной выборки асимптотически нормальна.

Доказательство. Обозначим тогда

но из условия (3.23) следует Исследуем вектор Его компонента равна;

где

независимы, одинаково распределены. Найдем их дисперсию:

По центральной предельной теореме последовательность (3.24) асимптотически нормальна. Окончательно можно записать:

Замечание. Для доказательства асимптотической нормальности оценки МНК в схеме случайной выборки мы не налагаем условий на поведение матриц при Асимптотические свойства оценки являются результатом предположений о независимости и одинаковой распределенности наблюдений

Иногда в схеме регрессии предполагают нормальность случайных величин у их. Нормальное распределение обладает одним хорошим свойством: регрессия у на х оказывается линейной. Напомним, что линейность регрессии в (3.19) в общем случае является достаточно строгим условием.

Как было отмечено, оценка МНК не является, вообще говоря, в схеме «математическойрегрессии» оценкой максимального правдоподобия. Однако, если наблюдения независимы и одинаково распределены по нормальному закону, оценки МНК и ММП совпадают.

Теорема 3.6. В схеме случайной выборки из нормального распределения оценки МНК и ММП совпадают.

Доказательство теоремы дано в параграфе 3.3.

В заключение отметим, что схема регрессии как условного математического ожидания является более общей, а поэтому и более сложной. Окончательные свойства тех или иных оценок или процедур зависят от распределения независимых переменных. Классическая регрессия является первым шагом схемы (3.1) — исследование линейной зависимости для фиксированных значений матрицы Второй шаг — исследование полученных свойств при флуктуациях X, которая изменяется в соответствии с законами распределения, задаваемыми априорно исследователем. Ясно, что дисперсия оценок, полученных при фиксированных X, будет меньше, чем при ее флуктуировании. Зато мы освобождаемся от конкретного вида X, и наши оценки будут более общими.

Часто трудно решить, является ли данная совокупность X случайной или детерминированной. Так, в примере с анализом производительности труда в отрасли матрицу данных X можно считать либо случайной, либо детерминированной в зависимости от поставленных целей.

В чем конкретно заключается разница между безусловной и условной регрессиями? В безусловной регрессии наши выводы касаются только данного, имеющегося в наличии набора независимых переменных, тогда как в условной регрессии полученные выводы и оценки имеют более общий характер; эти выводы могут быть распространены на всю генеральную совокупность независимых переменных.

Упражнения 3.3

(см. скан)

<< Предыдущий параграф Следующий параграф >>
Оглавление