Главная > Разное > Статистические выводы и связи, Т.2
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

Разбиение «хи-квадрат»: канонические компоненты

33.51 Канонические корреляции, рассмотренные в 33.44-49, тесно связаны с -статистикой (33.62). Рассмотрим снова матрицу определенную в 33.49. Ее диагональные элементы имеют вид

так что в силу (33.62) получаем

Вспоминая, что след матрицы равен сумме характеристических корней и что характеристические корни равны получаем в соответствии с (33.109)

Мы представили, таким образом, в виде умноженной на суммы компонент, равных квадратам канонических корреляций.

Хотелось бы предположить, что компоненты в (33.110) сами являются при гипотезе независимости асимптотически независимыми случайными величинами, распределенными по закону с числом степеней свободы, равным для

Однако Лэнкастер (1963) показал, что это не так.

Пример 33.12

В примере 33.10 были найдены квадраты канонических корреляций (33.103). Поскольку в этом примере то в силу (33.110) получаем

что может быть проверено непосредственным вычислением для примера 33.8.

33.52 Существует много (на самом деле бесконечно много) других способов разбиения Формальная структура таких разбиений дана в 30.44. Ответ на вопрос о том, интересно ли данное разбиение со статистической точки зрения, зависит от целей анализа. Прежде всего, следует заметить, что величина сама является компонентой другой величины, которую мы обозначим

Мы отказываемся теперь от предположения об упорядоченности таблиц, однако ограничимся случаем, когда переменные независимы, т. е. для всех Вероятности наблюденных частот в этом случае равны

(ср. 33.23 для таблиц ). Левая часть (33.112) и каждый из сомножителей в правой части могут быть приближены распределением Записывая

и используя разложение Стирлинга, находим, что левая часть (33.112) асимптотически представляется в виде

Таким образом, величина

асимптотически распределена как сумма квадратов нормированных нормальных вариант, связанных одним ограничением т. е. как степенями свободы.

Аналогично, величина

асимптотически распределена как величина

— как наконец, величина, которая нам уже знакома как «обычный» и которую мы теперь можем записать в виде

асимптотически распределена как степенями свободы. Соотношения (33.113) — (33.116) дают асимптотическое разбиение

которое в действительности лишь отражает представление (33.112). Сумма чисел степеней свободы в правой части (33.117) равна числу степеней свободы в левой, т. е.

Таким образом, мы видим (как мы это уже видели в 33.29), что степеней свободы в правой части (33.118) потеряны в «обычном» в настоящих обозначениях) вследствие того, что вероятности оцениваются из самой таблицы. Если бы эти вероятности были известны то можно было бы использовать (33.113). Сказанное служит лишь одним из примеров упомянутой в 19.9 потери степеней свободы вследствие необходимости оценивания параметров.

Пример 33.13 (Лэнкастер, 1949b)

Для каждой комбинации признаков А (три категории) и В (три категории) был осуществлен выборочный эксперимент, состоявший фактически в наблюдении пуассоновской случайной величины. Были получены следующие частоты:

Это один из сравнительно нечастых случаев, когда известны априорные маргинальные вероятности. В данном случае Пользуясь соотношением (33.117), находим:

Ни одно из трех значений не превосходит своей выборочной границы, приведенной в последней колонке. Условия эксперимента, по-видимому, были примерно постоянными.

Если бы мы не знали маргинальных вероятностей, то их пришлось бы оценивать. Мы получили бы с 4 степенями свободы. Это значение отличается от значения 7,421 для в приведенной выше таблице, однако разница незначительна. Она появляется вследствие того, что разбиение (33.117) справедливо лишь асимптотически.

33.53 Лэнкастер (1949b), по существу с помощью метода пункта 33.52, разбивает величину для таблицы с на компонент, каждая из которых имеет одну степень свободы. Каждая степень свободы соответствует некоторой классификации из этой таблицы. Мы не приводим деталей, однако метод легко понять из следующих двух примеров. Рассмотрим таблицу

Этой таблице, для которой имеет 2 степени свободы, соответствуют две таблицы :

Если обычным путем вычислить для каждой из этих двух таблиц 2X2, то сумма будет приближенно равна значению для исходной таблицы 2X3.

Аналогично, для таблицы с 4 степенями свободы получаем 4 таблицы 2X2:

Данная процедура является совершенно общей, однако следует помнить, что разбиения не, однозначны (поскольку порядок строк и столбцов может вообще быть изменен). Компоненты аддитивны лишь асимптотически, как и в примере 33.13.

Лэнкастер (1949b, 1950) и Ирвин (1949) дают точный метод разбиения на компонент, соответствующих таблицам 2X2, однако приближенное разбиение уже достаточно хорошо для практических целей; см. упражнение 33.15. Кимбелл (1954) упрощает вычисления, необходимые для точного разбиения.

33.54 Другие типы разбиения рассматриваются Кокрэном (1954) в обзоре, посвященном таблицам (а также в действительности и критериям согласия), в котором обсуждаются, кроме того, вопросы возможности анализа таблиц с малыми гипотетическими (при гипотезе независимости) частотами в одной или нескольких клетках таблицы без нарушения -аппроксимации для Он дает следующие рекомендации. Если только 1 клетка из 5 или более или 2 клетки из 10 или более имеют гипотетические частоты, меньше 5, то минимальная допустимая гипотетическая частота равна 1. Если таких клеток больше, то обычно

допустима минимальная гипотетическая частота 2, если число степеней свободы меньше 30. Для числа степеней свободы, большего 30, следует пользоваться точными средним и дисперсией, вычисленными Холдейном (1939), и считать распределенным асимптотически нормально с этими моментами.

Для упорядоченных таблиц Кэнуй (1948) в неопубликованной работе дает разбиение которое выделяет компоненты линейные, квадратичные и т. д.

<< Предыдущий параграф Следующий параграф >>
Оглавление