Главная > Разное > Статистические выводы и связи, Т.2
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

Использование рангов

29.42 Завершая обсуждение методов группировки и инструментальных переменных, рассмотрим использование рангов. Предположим, что мы можем установить истинный порядок расположения отдельных наблюдений, исходя из порядка наблюденных значений одной из переменных. То есть мы предполагаем теперь, что не только две или три группы могут быть правильно упорядочены, но что значения х настолько удалены друг от друга по сравнению с их дисперсиями ошибок, что порядок наблюденных значений совпадает с порядком ненаблюденных истинных значений х. Мы будем считать, что индексы соответствуют порядку наблюдений. Мы по-прежнему будем считать ошибки независимыми и предположим, что число наблюдений четно и равно Каждой паре соответствует пара В качестве оценки для можно взять среднее или медиану следующих оценок для

С другой стороны, можно рассмотреть все возможные оценки вида

Число таких оценок равно В качестве окончательной оценки для снова можно взять среднее или медиану всех таких оценок.

В этих методах, принадлежащих Тейлу (1950), очевидно, используется больше информации, чем в ранее рассмотренных методах группировки. Использование медианы вместо среднего позволяет, как будет показано в 29.43, довольно легко строить доверительные интервалы.

Пример 29.6

Обращаясь снова к данным примера 29.1 и выбрасывая среднее значение, находим четыре оценки вида (29.114):

Медиана (полусумма средних значений) равна 1,88. Среднее равно 1,85.

В случае применения формулы (29.115) можно использовать все девять наблюдений. Мы получим следующие значения для . Медиана (среднее между восемнадцатым и девятнадцатым значениями) равна 1,90. Среднее равно 1,93.

29.43 Теперь мы откажемся от условия нормальности ошибок и наложим более слабое ограничение на разности заключающееся в предположении, что они имеют одно и то же непрерывное распределение для всех Пользуясь терминологией 28.7, можно сказать, что ошибки однородны (кроме того, добавляется непрерывность). Отсюда следует, что вероятность того, что одно значение, скажем превосходит другое равна 1/2. Поскольку в силу (29.114)

то мы получаем

Так как знаменатель положителен, то вероятность неравенства равна 1/2. Отсюда следует, что вероятность того, что точно из больше нуля, т. е.

дается биномиальным распределением и равна так что вероятность того, что наибольших больше см и наименьших меньше равна

Последняя вероятность в соответствии с 5.7 может быть выражена в терминах неполной бета-функции. (29.116) дает доверительный интервал для

29.44 Делая дополнительное предположение, что и 8 имеют нулевые медианы, мы получаем

При любом заданном можно расположить значения в порядке возрастания и, как и в предыдущем случае, получить

С помощью этого метода не удается найти совместных доверительных интервалов для за исключением таких, для которых известна лишь верхняя граница коэффициента доверия (см. упражнение 29.10). В упражнении 29.9 предложен критерий линейности.

Использование всех пар и применение (29.115) более сложно, поскольку распределения уже не являются биномиальными. В действительности они совпадают с распределениями, возникающими при получении распределения рангового коэффициента корреляции рассматриваемого в главе 31. Зная эти распрёделения, доверительные интервалы можно строить прежним способом.

29.45 Рассмотренные методы могут быть обобщены на случай линейной зависимости от переменных. Если мы можем разбить наблюдений на групп, порядок которых будет одним и тем же как для наблюдаемых, так и для ненаблюдаемых значений одной из переменных, то, найдя центр тяжести каждой из групп, мы сможем построить гиперплоскость, проходящую через точек. Если, кроме того, порядок наблюдаемых значений

совпадает с порядком соответствующих ненаблюдаемых значений во всех точках, то можно получить соотношений для точек и осреднить их. В принципе можно также обобщить и метод, использующий (29.115), однако с практической точки зрения вычисление всех возможных соотношений представляется слишком громоздким. См. упражнение 29.10.

29.46 Более радикальным методом является использование рангов значений т. е. натуральных чисел от 1 до в качестве инструментальной переменной. Этот метод должен быть эффективнее методов группировки, так как он использует больше информации. Дорфф и Гёрлэнд (1961b) показали, что он в общем случае более эффективен при малых объемах выборок, чем методы двух и трех групп, имея меньшее смещение и среднеквадратичную ошибку. Мы проиллюстрируем этот метод на примере.

Пример 29.7

Для данных примера 29.1 возьмем в качестве значений инструментальной переменной 5 ранги от 1 до 9. Поскольку значения уже упорядочены, мы просто пронумеруем их от 1 до 9. Получаем

Согласно ранее сделанным вычислениям

Кроме того, так что ковариации относительно выборочных средних будут равны

Отсюда, учитывая (29.91), находим

Это же значение было получено методом двух групп в примере 29.4. Оно ближе к истинному значению 2, чем значение 1,86, полученное в примере 29.5 методом трех групп.

<< Предыдущий параграф Следующий параграф >>
Оглавление