Главная > Разное > Статистические выводы и связи, Т.2
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

Упорядоченные таблицы: ранговые меры связи

33.36 Если существует естественное упорядочение (см. 33.1) категорий в строках и столбцах таблицы то мы встречаемся с новой ситуацией, которая не проявлялась в таблице 2X2, потому что в случае двух категорий два возможных порядка категорий могут при любой мере связи только привести к изменению ее знака. В случае же трех или более категорий знание того, что категорий упорядочены, дает статистическую информацию, которую можно использовать при измерении

связи. Обычно мы не можем установить какой-либо метрики для категорий; мы знаем, что категории упорядочены, скажем, от более «высокого» к более «низкому» значению исходной переменной, однако мы не можем поставить им в соответствие никаких числовых значений. В таких случаях мы можем применить, возможно несколько неожиданно, ранговую статистику рассмотренную в 31.24. Действительно, можно рассматривать таблицу с общим числом наблюдений как способ ранжирования объектов по двум переменным, для одной из которых можно различать только рангов, а для другой с рангов. С этой точки зрения маргинальные частоты в таблице суть числа наблюдений, «совпавшие» (см. 31.81) в различных рангах. Случаю, когда нет ни одного «совпадения», соответствует таблица с маргинальными частотами, равными единице.

33.37 Измерение связи представляется теперь как задача измерения корреляции между двумя ранжировками. Для этого может быть использован любой из коэффициентов определенных в (31.23) и (31.40), однако мы рассмотрим только первый из них.

Здесь возникают некоторые проблемы, связанные с тем, что нас теперь интересуют ранжировки с большим числом совпадений. Во-первых, мы уже не можем определить коэффициент ранговой корреляции с помощью простой системы меток как при определении в (31.36), так как теперь имеется три возможности вместо двух. Поэтому мы положим

Наша мера ранговой корреляции будет основана на сумме

Если мы хотим нормировать сумму так, чтобы она принимала значения в интервале и достигала крайних значений в случаях полной отрицательной и положительной связанности, удовлетворяя тем самым требованиям пункта 33.5, то мы имеем несколько возможностей.

(1) Если бы не было ни одного совпадения, то ни одна из величин не была бы равна и сумма (33.71) изменялась бы от до включительно. Мерой связи тогда служило бы отношение Читатель может убедиться, используя определения что это отношение совпадает с из (31.23). Если некоторые из

равны нулю, то эта мера, которую мы запишем в виде

не может больше достигать ±1; ее истинные границы изменения зависят от числа нулей.

(2) Если переписать знаменатель (33.72) для случая, когда нет совпадений, в виде (такая запись показывает, что является коэффициентом корреляции между двумя наборами меток (см. Даниэле (1944)), то мы можем определить коэффициент

Коэффициенты совпадают, если нет нулевых меток, в противном случае знаменатель (33.73) меньше знаменателя (33.72), так что Несмотря на это, не может, вообще говоря, достигать ±1, так как неравенство Коши превращается в равенство, только когда наборы меток пропорциональны, а для этого в данном случае все наблюдения должны быть сосредоточены на положительной или отрицательной главной диагонали таблицы. Если ни одна из маргинальных частот не равна нулю, то это значит, что может достигать ±1 только для квадратной таблицы (т. е. таблицы

(3) Для прямоугольной таблицы величина достигает своего максимума, когда все наблюдения лежат в клетках самой длинной диагонали таблицы (т. е. диагонали, содержащей клеток) и насколько возможно поровну распределены между этими клетками. Читатель может проверить, что если кратно (что мы можем предположить, поскольку обычно велико, а жало), то этот максимум равен Таким образом, третья мера определяется формулой

Коэффициент может достигать ±1 для любой таблицы если не считать незначительного эффекта, возникающего, когда не кратно Для больших как следует из (33.72) и (33.74), примерно равно

33.38 Если и маргинальный столбец и маргинальная строка состоят из примерно равных между собой частот, то коэффициенты отличаются мало. Действительно,

и, аналогично, Таким образом, знаменатель 4 равен

тогда как знаменатель равен

Если все частоты в маргинальном столбце равны, а также равны все частоты в маргинальной строке, то (33.76) приближенно равно

(33.78) совпадает с (33.77), если таблица квадратная в противном же случае (33.78) больше и, следовательно, меньше. С другой стороны, когда маргинальные частоты не равны точно, суммы квадратов возрастают и, следовательно, знаменатель (33.76) убывает.

Следующий пример (см. также Кендалл (1962)) иллюстрирует вычисление коэффициентов.

Пример 33.8

В представленной ниже таблице нас интересует связь между дальностью зрения правым и левым глазом.

Для вычисления числителя всех коэффициентов каждая частота умножается на все частоты к юго-востоку от нее со знаком плюс и на все частоты к юго-западу со знаком минус. Клетки той же строки и того же столбца не учитываются. (Нет необходимости применять процедуру к последней строке таблицы, поскольку ниже нее ничего нет.) Выражение равно

Таблица 33.3 (см. скан) 3242 мужчин 30—39 лет — служащих Королевских артиллерийских заводов Великобритании (1943—1946): дальность зрения невооруженным глазом


удвоенной сумме таких слагаемых, потому что мы можем иметь как так и Для нашей таблицы получаем

и т. д. При переходе к нижней части таблицы число слагаемых в скобках убывает. Читателю предлагается проверить, что после сложения слагаемых в скобках мы получим

Таким образом, числитель равен Пользуясь формулой (33.75), находим знаменатель

Следовательно,

С другой стороны, по формуле (33.74) находим

Итак, в данном случае, когда наибольшие маргинальные частоты в каждом из двух наборов примерно в два раза больше наименьших, лишь незначительно больше Аналогичный результат получается в упражнении 33.10, где максимальные

маргинальные частоты примерно в три раза больше минимальных.

33.39 Если не учитывать достижимости ±1, рассмотренной в 33.37, основное отличие от состоит в том, что для стандартной ошибки можно найти верхнюю границу (см. (33.81) ниже) в случае выборки из наблюдений с нефиксированными маргинальными частотами, тогда как коэффициент в этой ситуации является отношением двух случайных величин и его стандартная ошибка неизвестна. Если маргинальные частоты фиксированы, то уже не будет отношением двух случайных величин, однако его распределение изучено только в предположении независимости двух категоризованных переменных в таблице. Конечно, если надо проверить независимость, то можно ограничиться общим числителем Детали, касающиеся этого критерия, даются Кендаллом (1962). Стьюарт (1953) показал, что верхние границы дисперсии могут быть использованы для проверки гипотез о разности двух значений, полученных для разных таблиц. Поскольку это довольно очевидно, то мы не рассматриваем данный вопрос.

33.40 Гудмэн и Крускал (1954) предложили меру связи для упорядоченных таблиц, тесно связанную с коэффициентами которые мы рассмотрели. Эта мера имеет вид

отличаясь от только знаменателем.

Знаменатель в (33.75) тождественно равен

т. е. очень близок к

Сравнивая эту величину со знаменателем мы видим, что последний практически всегда меньше. Легко видеть, что может достигать своих пределов если все наблюдения лежат на самой длинной диагонали таблицы. Таким образом, скорее ближе к Гудмэн и Крускал (1963) дали стандартную ошибку и метод ее вычисления, а также получили простую верхнюю границу

где знаменатель в (33.79). Эту границу можно сравнить с верхней границей для дисперсии

Гудмэн и Крускал (1963) показали на двух примерах, что имеет тенденцию быть больше однако стандартная ошибка значительно меньше. Детали приведены в упражнении 33.11. Если бы это было доказано в общем случае, то этот факт, наряду с непосредственной интерпретируемостью в терминах отношений порядка в случайной выборке дает вероятность того, что иксы расположены в том же порядке, что и игреки, минус вероятность расположения в противоположном порядке при условии, что нет совпадений, — см. 33.12 для случая сделал бы стандартной мерой связи в случае упорядоченных таблиц.

Эксперименты Розенталя (1966) для малых выборок имеют целью проверить приложимость асимптотической теории к

<< Предыдущий параграф Следующий параграф >>
Оглавление