Главная > Разное > Статистические выводы и связи, Т.2
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

Ранговые критерии независимости

31.21 Некоторое неудобство как критерия независимости, о котором кратко было сказано после (31.11), состоит в том, что вычисление его точного распределения при малых значениях (скажем, от 5 до 10) очень трудоемко. Причина этого в том, что точное распределение зависит от наблюденных значений а они представляют собой, конечно, случайные величины. Несмотря на отличное приближение распределения распределением 31.18, представляет интерес выяснить, как эта трудность может быть преодолена: это может быть полезно и в других ситуациях, так как приближение к перестановочному распределению не всегда бывает таким хорошим.

Наиболее очевидное средство устранения зависимости перестановочного распределения от случайно варьирующих наблюдений состоит в замене значений новыми значениями (с коэффициентом корреляции определенными так, чтобы перестановочное распределение было одним и тем же для каждой выборки (хотя, конёчно, само будет меняться от выборки к выборке). Мы, таким образом, ищем набор условных чисел для замены наблюденных Как их следует выбрать? не должны зависеть от фактических значений но они, очевидно, должны отражать порядковые соотношения между наблюденными значениями х и у, так как нас интересует зависимость между этими случайными величинами. Мы. таким образом, приходим к рассмотрению функций от

рангов х и у. Мы определяем ранг наблюдения как его положение среди порядковых статистик, т. е.

Наше стремление рассматривать критерии, основанные на рангах (называемые иначе «ранговыми критериями»), поддерживается тем фактом, что ранги инвариантны при любых монотонных преобразованиях переменных. Любое такое преобразование оставляет инвариантной также гипотезу независимости (31.9), и поэтому естественно использование рангов. Мы еще не определили, какие функции от рангов использовать в качестве чисел самая простая и очевидная процедура — использовать сами ранги, т. е. заменить наблюденные значения х их рангами среди иксов, а наблюденные значения у — своими рангами.

31.22 Действуя таким образом, мы находим коэффициент корреляции между парами где ( перестановка первых натуральных чисел, а другая такая перестановка. Для получения перестановочного распределения мы можем, как и прежде, зафиксировать значения У и переставлять значения X, так как имеется только различных и равновероятных наборов попарных соединений Поэтому мы можем без потери общности упорядочить пар в любой выборке так, чтобы ранги У были расположены в естественном порядке Если ранг X, соответствующий значению обозначить то мы получим выражение для рангового коэффициента корреляции

так как среднее и дисперсия первых натуральных чисел равны соответственно Обычно называют ранговым коэффициентом корреляции Спирмена по имени знаменитого психолога, который ввел его более пятидесяти лет назад в качестве замены для обычного коэффициента корреляции; его обозначают обычно символом которым мы теперь и будем пользоваться. Так как

то можно иначе определить формулой

которая обычно более удобна для вычислений.

31.23. Так как формулы (31.12) — (31.14) для точных моментов справедливы для произвольных х и у, они справедливы, в частности, для определяемого формулой (31.21). Кроме того, натуральные числа имеют вследствие симметрии нулевые нечетные моменты относительно среднего. Отсюда следует, что точное распределение симметрично и, следовательно, его нечетные моменты равны нулю. Если мы подставим также значения в (31.14), мы получим для точных моментов выражения

Однако, как показывают рассуждения пункта 31.21, точное распределение может быть на самом деле табулировано раз навсегда. Кендалл (1962) дает таблицы распределения — случайной составляющей в (31.21), для («Хвосты» этих распределений воспроизведены в Вгоmetrika Tables.) За этими пределами приближение (31.18) вполне удовлетворительно для практических целей, что показывает следующая таблица, в которой сравниваются точные и приближенные критические значения для размеров критерия

Сравнение точных и приближенных критических значений при

(см. скан)

31.24 Мы выбрали среди возможных ранговых критериев независимости по причине его простоты; ясно, что любая разумная мера корреляции между х и у, основанная на их рангах, дает критерий независимости. Даниэле (1944) определил класс коэффициентов корреляции, включающий как обычный, так и ранговые коэффициенты корреляции, и в дальнейшем показал (Даниэле, 1948), что все они являются, по существу, коэффициентами беспорядка в том смысле, что если два значения у поменять местами так, чтобы они стали расположены в том же порядке, что и соответствующие значения х, то величина любого коэффициента из этого класса увеличится. Мы рассмотрим вопрос об измерении беспорядка среди рангов х и у.

Предположим, как в 31.22, что ранги у (которые там обозначались У) расположены в натуральном порядке и что соответствующие ранги х, образующие перестановку чисел равны Естественный метод измерения беспорядка х-рангов, т. е. отклонения от порядка состоит в подсчете числа инверсий между ними. Например, при в -ранжировке 3214 имеются три инверсии, а именно 3—2, 3—1, 2—1. Число таких инверсий, которое мы будем обозначать может изменяться в пределах от до причем эти граничные значения достигаются соответственно на -ранжировках Мы можем, следовательно, определить коэффициент

который распределен симметрично на отрезке над множеством из равновероятных перестановок и, следовательно, имеет математическое ожидание 0, когда выполняется (31.9).

Коэффициент (31.23) рассматривался несколькими авторами (Фехнер, Липпс) в период около 1900 г. и позже рядом авторов, особенно Линдебергом, в 20-х годах (исторические подробности даются Крускалом (1958)), но впервые получил широкое применение после серии работ М. Кендалла, начинающейся с 1938 г. и собранной в монографии (Кендалл, 1962), к которой следует также обращаться по вопросам использования как мер корреляции. Здесь мы рассматриваем их только в качестве свободных от распределения критериев для гипотезы (31.9).

31.25 Распределение коэффициента или, что эквивалентно, числа инверсий над множеством равновероятных х-ранжировок легко установить с помощью производящих функций. Пусть функция частот для при объеме выборки Мы можем произвести -ранжировок для объема выборки из ранжировок для объема выборки помещая новый ранг в любое возможное положение по

отношению к имеющимся . (Таким образом, например, 21 ранжировок для

переходят в 3! ранжировок для

В любой ранжировке увеличение вызванное этим процессом, в точности равно числу рангов справа от точки, в которой помещается Любое значение в -ранжировке, таким образом, представляет собой сумму членов, соответствующих различным значениям -ранжировке. Это приводит к соотношению

Если теперь есть коэффициент при в производящей функции то из (31.24) следует, что

Повторным применением (31.25) мы находим

и так как мы непосредственно видим, что

то (31.26) можно переписать как

Мы получим характеристическую функцию добавляя множитель и заменяя на в (31.27), так что

Следовательно, п. ф. с. Q равна

Если мы всюду в (31.29) подставим

то (31.29) перейдет в

пользуясь (3.61), преобразуем (31.30) к виду

где — (ненулевые) числа Бернулли четного порядка, определенные в 3.25.

Беря коэффициенты при в (31.31), мы получаем для семиинвариантов

Вследствие (31.23) мы получаем отсюда семиинварианты для самого коэффициента ранговой корреляции

Таким образом, имеет распределение, симметричное относительно нуля, и

31.26 Далее, (31.33) показывает, что имеет по порядок Так как сумма имеет порядок это значит, что

и, следовательно, нормированные семиинварианты равны

Таким образом,

и, следовательно, распределение стремится к нормальному с нулевым средним и дисперсией, определяемой (31.34). Сходимость к нормальному распределению чрезвычайно быстрая. Кендалл (1962) приводит точную функцию распределения (полученную из (31.24)) для За этими пределами асимптотическое нормальное распределение может быть использовано с малой потерей в точности

31.27 В 31.24 мы пришли к коэффициенту из тех соображений, что число инверсий является естественной мерой беспорядка в -ранжировке. При дальнейшем размышлении кажется разумным придавать инверсиям различный вес; например, в х-ранжировке 24351 чувствуется, что инверсия 5—1 должна иметь больший вес, чем инверсия 4—3, поскольку она представляет более серьезное отклонение от натурального порядка Сам собой напрашивается простой способ взвешивания посредством расстояния между рангами, образующими инверсию; в приведенном только что примере это дало бы соответственно веса 4 и 1 двум инверсиям. Таким образом, если мы положим

то мы теперь хотим использовать взвешенную сумму инверсий

вместо нашей предыдущей суммы инверсий

Однако использование (31.37) возвращает нас снова к Мы оставляем читателю доказать в упражнении 31.5, что

так что согласно (31.21)

что дает определение аналогичное определению (31.23) для

37.28 Имеет место замечательный факт, состоящий в том, что, несмотря на использование весьма различных методов взвешивания инверсий, определяемые из (31.37), (31.38), а следовательно, и статистики очень сильно коррелированы, когда выполняется гипотеза независимости (31.9), — мы предоставляем читателю в упражнении 31.6 получить настоящее значение их коэффициента корреляции. Он убывает от 1 при (когда эквивалентны) до своего минимального значения 0,98 при и затем возрастает к 1 при Таким образом, эти критерии асимптотически эквивалентны, когда справедлива гипотеза Но, а это вместе с результатом 25.13 означает, что с точки зрения асимптотической относительной эффективности оба критерия обладают одинаковыми свойствами. Даниэле (1944) показал, что предельное совместное распределение когда справедлива Но, есть двумерное нормальное распределение.

31.29 В выборках из двумерной нормальной генеральной совокупности высокая корреляция между сохраняется, даже когда коэффициент корреляции исходного распределения Дэвид и др. (1951) показали, что при имеют коэффициент корреляции, стремящийся к значению если и к 0,937, если .

Гёфдинг (1948а) показал, что в самом общем случае имеют асимптотическое двумерное нормальное распределение, но что их коэффициент корреляции сильно зависит от исходного двумерного распределения и может в действительности равняться нулю.

Эффективности критериев независимости

31.30 Мы теперь исследуем асимптотические относительные эффективности (АОЭ) трех рассмотренных критериев независимости по отношению к обычному выборочному коэффициенту корреляции когда альтернативной гипотезой служит двумерное нормальное распределение, как в (31.10). С помощью методов 23.27-36 мы видим, что дает РНМН критерий для против односторонних и двусторонних альтернатив, — читателю предлагается проверить это в упражнении 31.21. Так. как

согласно 31.19 перестановочный критерий, основанный на асимптотически эквивалентен -критерию нормальной теории для независимости, мы видим, что его АОЭ по сравнению с этим критерием равна 1.

31.31 Мы теперь выведем АОЭ критерия, основанного на статистике определенной в (31.23). По определению (31.36) мы видим, что

и, так как в сумме имеются членов, мы получаем для их среднего

что вместе с (31.23) дает

Если x и у имеют двумерное нормальное распределение F с коэффициентом корреляции то такое же утверждение верно и для Таким образом,

и с помощью (4.8) это приводится к виду

что можно переписать как

Внутренний двойной интеграл в (31.42) представляет собой х. ф. F, равную

Подставляя это выражение и дифференцируя оставшийся двойной интеграл по мы находим

Но двойной интеграл в правой части (31.43) легко находится:

Таким образом, (31.43) принимает вид

так что

Кроме того, из (31.34)

тогда как для обычного коэффициента корреляции согласно (26.31)

а из 31.19.

Применяя (25.27) с из результатов (31.44) — (31.47) получаем для по сравнению с

Согласно замечанию 31.28 (31.48) будет справедливо также для по сравнению с результат, принадлежащий первоначально Хотеллингу и Пэбсту (1936).

31.32 Помимо результатов пунктов относящихся к двумерным нормальным альтернативам, имеется мало работ об эффективности критериев независимости, что связано в основном с трудностью задания альтернатив к независимости при отсутствии нормальности. Достойным внимания исключением является работа Конейна (1956), в которой рассматривается класс альтернатив к независимости, порождаемых линейными преобразованиями двух независимых величин. находит, как и выше, что критерии часто асимптотически эквивалентны и каждый из них по АОЭ близок

к критерию, основанному на выборочном коэффициенте корреляции и может даже (в случае двойного, экспоненциального распределения) превосходить его.

31.33 Недостатком всех критериев, которые мы рассматривали, является то, что они не обладают состоятельностью против любых отклонений от гипотезы независимости (31.9). Чтобы понять это, достаточно заметить, что каждый из них основан, по существу, на том или ином коэффициенте корреляции, распределение которого не зависит от параметров сдвига и масштаба, но будет зависеть от теоретического коэффициента корреляции При отклонениях от независимости, для которых эти критерии будут состоятельными. Но для распределений, отличных от нормальных, вполне возможны ситуации, когда при отсутствии независимости (см. 26.6), и мы не можем ожидать от наших критериев состоятельности против таких альтернатив. Имея это в виду, Гефдинг (1948b) предложил другой свободный от распределения критерий для гипотезы (31.9), который состоятелен против любого непрерывного альтернативного двумерного распределения с непрерывными маргинальными распределениями. Гёфдинг табулировал распределение своей статистики для и получил ее предельную х. ф. и ее семиинварианты. (Предельная ф. р. дается в работе Блюма и др. (1961).) Он доказал также, что для этого класса альтернатив не существует рангового критерия независимости, который был бы несмещенным для любого размера Однако если допускается рандомизация в критической функции, то, как показал Леман (1951), несмещенные ранговые критерии независимости, вообще говоря, существуют.

<< Предыдущий параграф Следующий параграф >>
Оглавление