Главная > Разное > Статистические выводы и связи, Т.2
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

Таблицы r x c: измерение связи

33.28 Мы рассмотрим теперь более общую ситуацию, когда две переменные классифицированы на две или более категорий. Обобщая введенные обозначения, мы будем записывать таблицу с в виде

В более ранней литературе таблицы (33.60) называются таблицами сопряженности. Общие рассмотрения пунктов 33.1-2 относятся также и к этой более общей категоризации двух переменных.

Задача измерения связи в такой таблице представляет серьезные трудности, связанные с существом задачи. В главе 26 мы пришли к выводу, что в случае числовых вариант может оказаться невозможным описать сложную схему взаимозависимости одним коэффициентом. Это справедливо и в данной ситуации. Наиболее успешные шаги в этом направлении были связаны с более или менее явными предположениями относительно природы распределения исходных вариант.

33.29 Если бы две переменные в (33.60) были независимы, то частота в клетке на пересечении строки и столбца

была бы равна Следовательно, отклонение от независимости в этой клетке таблицы измеряется величиной

являющейся обобщением (33.8). Мы можем определить коэффициент связи в терминах так называемой квадратичной сопряженности и записать обобщение (33.46) в виде

Если выполнена гипотеза о независимости, то величина имеет асимптотически -распределение, что легко понять с точки зрения проверки согласия, как в 33.17. Число степеней свободы в данном случае равно числу классов минус 1, минус число параметров, т. е.

33.30 Сама величина не очень подходит в качестве меры связи, поскольку верхняя граница стремится к бесконечности при возрастании Следуя Карлу Пирсону (1904), мы определим коэффициент

который будем называть коэффициентом сопряженности Пирсона. Основанием для его введения служит тот факт, что если двумерное нормальное распределение с параметром корреляции представлено в виде таблицы сопряженности, то при увеличении числа категорий в таблице. Однако при конечных и с коэффициент имеет недостатки. Он обращается в нуль, как это и должно быть, при полной независимости, и наоборот, если то так что каждое отклонение равно нулю. Очевидно, что Однако не имеет одного и того же для всех случаев верхнего предела, т. е. не удовлетворяет одному из требований, сформулированных в 33.5. Рассмотрим, например, «квадратную» таблицу с с, в которой от личны от нуля только элементы главной диагонали. Тогда для всех I, и поэтому согласно (33.62)

так что в соответствии с (33.63)

Таким образом, даже в случае полной связи (см. 33.7) значение (достигающее в этом случае максимума) зависит от числа строк и столбцов в таблице.

Чтобы исправить указанный недостаток, Чупров предложил другую функцию от :

которая, когда достигает значения в случае полной связи, как это было выше, однако не обладает этим свойством, когда Действительно, легко показать точно так же, как и выше, что максимальное достижимое значение равно (оно достигается, когда все частоты лежат на самой длинной диагонали таблицы), и, таким образом, достижимая верхняя граница для равна

тогда как для она равна

Следуя Крамеру (1946), определим коэффициент

который может всегда достигать Очевидно, для квадратной таблицы и в остальных случаях, хотя разница не очень велика, если и с отличаются не очень сильно. Заметим также, что

так что при увеличении следует ожидать, что будет больше если выполнена гипотеза независимости (при которой математическое ожидание равно Рзаность часто бывает значительной. См. упражнение 33.4.

Пример 33.7

В следующей таблице (из Гилби (W. Н. Gilby), Biometrika 8, 94) дано распределение 1725 школьников, классифицированных (1) в соответствии с качеством их одежды и (2) в соответствии с их умственными способностями. Во втором случае были использованы следующие градации: А — умственно отсталый, В — медлительный и тупой, С — тупой, медлительный, но умный, достаточно умный, F - явно способный, очень способный.

Таблица 33.2 (см. скан)

Нас интересует связь между одеждой и способностями. Сначала были вычислены «независимые» частоты Например, частота равна а соответствующее ей слагаемое в (33.62) равно

Сумма 24 таких слагаемых оказалась равной

Можно вычислить быстрее, если воспользоваться крайней правой частью равенства (33.62), т. е.

Эта операция очень быстро выполняется с помощью счетной машины. Для этого сначала квадрат каждой частоты в строке делится на сумму частот этой строки, а затем полученные частные в столбце делятся на сумму исходных частот этого столбца. Мы должны сначала получить

и еще две аналогичные строки, а затем разделить столбцы на 130, 219 и т. д. Останется лишь вычесть 1 из суммы полученных 24 чисел и умножить результат на чтобы получить (33.66). Рекомендуем читателю проверить вычисления, используя оба метода.

Получив мы находим по формулам (33.63) — (33.65) коэффициенты

Соотношение между этими коэффициентами такое, какого и следовало ожидать, принимая во внимание замечания, сделанные в конце 33.30: С немного больше а почти в два раза больше, хотя верхняя граница для равна против для (и, конечно, 1 для С). Таким образом, верхние границы для в данном случае почти одинаковы, однако создает впечатление значительно более сильной связи между переменными. В упражнении 33.3 аналогичные результаты получаются для других данных.

Все три коэффициента являются монотонными функциями от поэтому мы можем проверять независимость, используя непосредственно . В нашем случае Так как число степеней свободы равно то полученное значение заведомо превосходит критические значения, обычно используемые на практике. Например, для размера критерия критическое значение равно 37,697.

<< Предыдущий параграф Следующий параграф >>
Оглавление