Главная > Разное > Статистические выводы и связи, Т.2
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

Две группы равного объема

29.36 Предположим, что имеется четное число наблюдений, которые разделены на две группы, состоящие из наблюдений каждая. (Вопрос о том, как должно проводиться распределение по группам, будет рассмотрен чуть позже.) Пусть -выборочное среднее в первой группе, а — во второй группе. Аналогично определяются можем оценить полагая инструментальную переменную равной для каждого наблюдения из первой группы и —1 для каждого наблюдения из второй группы. (29.91) в этом случае принимает вид

откуда в соответствии с принятой моделью получаем также оценку для

Геометрически процедура означает, что мы делим точки на плоскости на две равные группы в соответствии со значением и определяем центр тяжести каждой группы. Оценкой для истинной линейной зависимости служит тогда прямая, соединяющая эти центры тяжести.

Вальд (1940), получивший этот результат, показал, что оценка (29.98) для состоятельна, если группировка не зависит от ошибок и если значения х удовлетворяют соотношению

которое совпадает с (29.94), поскольку в данном случае Условие (29.100), очевидно, не будет выполнено, если наблюдения разделены на две группы случайным образом, так как тогда (См. упражнение 28.16, в котором рассматривается простая линейная модель.) Неудовлетворительной будет также классификация, относящая наименьших значений к одной группе, а наибольших — к другой.

Нейман и Скотт (1951) показали, что в этом случае оценка не будет состоятельной. Действительно, легко видеть, что при такой классификации группировка в общем случае будет зависеть от ошибок. Из сказанного вытекает, что метод Вальда представляет интерес только тогда, когда имеется априорная информация (вроде упомянутой в 29.35), обосновывающая (29.100).

29.37 Оценку (29.98) можно использовать для оценивания дисперсий ошибок. Действительно, поскольку в силу (29.18)

то достаточно подставить состоятельные оценки вместо дисперсий и ковариаций (умножив их на Для устранения смещения) и вместо чтобы получить нужные оценки

Пример 29.4

Применим в чисто иллюстративных целях этот метод к данным примера 29.1, где имеется девять наблюдений. Мы опустим медианное значение и разделим оставшиеся наблюдения на две группы:

Вычисляем

откуда находим оценку

достаточно близкую к истинному значению 2. Для взятых восьми наблюдений вычисляем Подставляя полученные значения в (29.102), получаем оценки

которые оказываются очень плохими (истинные значения равны 1). Значение даже отрицательно и, следовательно, «невозможно».

Легко видеть, что использованный метод действительно вполне может привести к неточным оценкам для дисперсий ошибок. Если истинные значения отстоят друг от друга довольно далеко по сравнению с ошибками наблюдений, то наблюденные значения будут сильно коррелированы и две линии регрессии будут близки одна к другой, а оценка будет близка как к коэффициенту регрессии по равному так и к величине обратной коэффициенту регрессии по Таким образом, в соответствии с (29.102) как так и будут близки к нулю и совсем незначительные изменения будут приводить к сильным изменениям этих оценок. В данном примере корреляция между равна 0,98, и поэтому даже небольшого отклонения от истинного значения оказалось достаточно, чтобы сильно сдвинуть вниз, вверх.

29.38 Вальд (1940) получил также доверительный интервал для применив следующую процедуру. Для каждой из двух групп вычисляются суммы квадратов и произведений относительно их средних и определяются объединенные оценки, каждая из которых основана на степенях свободы,

Эти три оценки в предположении нормальности распределены независимо от средних следовательно, независимо от оценки (29.98). Подставляя (29.103) в (29.101), мы получаем следующие случайные величины (еще зависящие от

Рассмотрим теперь сумму

Мы видим, что является суммой двух сумм квадратов центрированных независимых нормально распределенных случайных величин Из (29.8) следует, что каждая из них имеет дисперсию Таким образом, случайная величина

имеет распределение степенями свободы. Определим теперь случайную величину

Две компоненты в правой части, будучи функциями от средних значений ошибок в двух разных группах, распределены независимо. Таким образом, случайная величина и распределена нормально со средним нуль и дисперсией Кроме того, и зависит только от следовательно, распределена независимо от Отсюда следует, что статистика

имеет распределение Стьюдента с степенями свободы. Для любого заданного коэффициента доверия мы имеем

Крайними значениями для которых выполняется условие (29.107), согласно (29.106) являются корни уравнения

или

Это квадратное уравнение относительно с дискриминантом, равным

Первое слагаемое в (29.109) согласно неравенству Коши отрицательно, а второе положительно, так как множитель в скобках равен Если достаточно велико, то положительное слагаемое, имея в своем составе множитель будет больше отрицательного слагаемого, имеющего множитель В этом случае (29.108) будет иметь два действительных корня, являющихся доверительными границами для

29.39 Аналогично можно найти доверительную область для Возьмемв качестве оценки для оценку определенную формулой (29.99), и рассмотрим случайную величину

которая нормально распределена с нулевым средним и дисперсией

равной дисперсии и в 29.38. Легко показать, что как и и, распределена независимо от так что, заменяя и в (29.106) на мы получим -статистику Стьюдента с степенями свободы. Если параметр известен, то можно использовать эту статистику для нахождения доверительного интервала для Это делается просто, так как входит только в числитель Однако этот случай не имеет большого практического значения, поскольку редко бывает, что мы знаем и не знаем

Можно, однако, показать, что распределены независимо. Учитывая определения для этого достаточно показать, что

не зависит от

Последние две случайные величины нормально распределены, причем первая из них имеет нулевое среднее. Их ковариация равна

Каждое из первых двух математических ожиданий есть математическое ожидание разности одинаково распределенных квадратов и, следовательно, равно нулю. Третье математическое ожидание есть математическое ожидание разности одинаково распределенных произведений и тоже равно нулю. Таким образом,

ковариация равна нулю и рассматриваемые случайные величины независимы, а следовательно, независимы также .

Из доказанного следует, что статистика

имеет распределение с 2 степенями свободы, и поэтому статистика

имеет распределение дисперсионного отношения с степенями свободы. Этот факт позволяет найти доверительную область для которая (см. упражнение 29.5) представляет собой эллипс, как этого и следовало ожидать, принимая во внимание независимость и нормальность случайных величин и их линейную зависимость от

Полученная доверительная область не совпадает с доверительной областью, получаемой из (29.97) при Только что рассмотренная доверительная область основана на распределении случайной величины тогда как случайная величина в (29.97), числитель которой зависит только от не является монотонной функцией от Интуитивно кажется, что последняя область должна приводить к лучшему интервалу, однако нам не известно никаких результатов, относящихся к этому вопросу.

<< Предыдущий параграф Следующий параграф >>
Оглавление