Главная > Разное > Статистические выводы и связи, Т.2
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

Таблицы с несколькими входами

33.58 До сих пор мы всюду, за исключением 33.9-10, рассматривали связи между двумя категоризованными переменными; наша таблица была Таблицей с двумя входами. Естественно обобщить задачу на случай категоризованных переменных. Соответствующая таблица называется таблицей с несколькими входами или, иногда, сложной таблицей сопряженности. Такие таблицы впервые были рассмотрены К. Пирсоном (1904, 1916) для случая многомерного нормального распределения. Если переменной соответствует категорий, то мы получаем таблицу которая физически может быть представлена только в р-мерном пространстве. В простейшем случае мы можем представлять таблицу в виде прямоугольного параллелепипеда со строками, столбцами и «слоями», пересечения которых дают клетки таблицы. Чтобы не пользоваться индексами, мы вместо будем писать с X В действительности из многомерных таблиц только трехмерной было уделено более чем формальное внимание в литературе, поскольку в случае

не возникает новых теоретических трудностей; однако, как мы увидим, переход от двух измерений к трем требует новых рассмотрений.

Льюис (1962) посвящает данному предмету обширный обзор.

33.59 Рассмотрим сначала подход пункта 33.52, в котором проводилось разбиение таблицы с двумя входами при гипотезе независимости. Если обозначить наблюденную частоту и вероятность в клетке на пересечении строки, столбца и слоя, то гипотеза о полной независимости запишется в виде

где точка, как и прежде, означает суммирование по соответствующему индексу. В случае двух входов мы получили разбиение (33.117), (33.118) на следующие компоненты: «строки», «столбцы» и «строки X столбцы» с числом степеней свободы соответственно. В рассматриваемом случае трех входов мы получаем следующие асимптотически аддитивные компоненты:

(см. скан)

Для таблицы каждая компонента в (33.126) имеет 1 степень свободы.

Если представлять таблицу в виде параллелепипеда, то можно сказать, что рассеяние выражается прежде всего в терминах ребер, затем в терминах граней и, наконец, в терминах содержимого таблицы.

Каждая из компонент в (33.126) легко вычисляется. Если имеются гипотетические вероятности для каких-либо (или всех) из то соответствующие компоненты равны значениям статистики согласия для маргинальных

распределений строки, столбца и слоя соответственно. Если для какого-то случая неизвестны теоретические вероятности, то соответствующая компонента тождественно равна нулю. Вычислим теперь «обычную» статистику для проверки независимости в каждой из трех таблиц с двумя входами. Из для таблицы вычтем из для таблицы вычтем и из для таблицы вычтем В результате мы получим соответственно.

Вычислим, наконец, статистику для проверки независимости в таблице Статистику теперь можно получить с помощью вычитания.

Пример 33.14 (Лэнкастер (1951), данные Робертса и др.)

Данные для крыс, классифицированных в соответствии с наличием или отсутствием признаков были представлены в виде таблицы . Как и раньше, мы используем символы для обозначения отсутствия признака. Имеются следующие частоты:

Мы образуем из них следующие три таблицы 2X2:

(см. скан)

Гипотетические вероятности всех признаков равны 1/2. Таким образом, для А получаем

Подобным же образом мы вычисляем остальные компоненты. Они приведены в третьей колонке следующей таблицы:

(см. скан)

Для одной степени свободы -процентная точка распределения равна 3,84, а -процентная точка равна 5,02. Единственной компонентой, близкой к этим значениям, является компонента которая лежит между ними. Следовательно, если вообще существует какая-то связь между факторами, то следует искать связь между Однако гипотеза о независимости вряд ли нарушена. В самом деле, мы наводим Во всяком случае компонента лежит внутри выборочных границ, и если бы были связаны, то следовало бы ожидать большего значения компоненты Кроме того, мы всегда при разбиении должны помнить, что разделение одного критерия на несколько критериев (здесь на 7) увеличивает вероятность, что какая-нибудь компонента выйдет за свои выборочные границы. В целом, по-видимому, следует считать все три фактора независимыми (или настолько слабо зависимыми, что не имеется определенного указания на взаимозависимость).

Если бы априорные вероятности были не известны, а оценивались по маргинальным частотам, мы получили бы значения приведенные в последней колонке (33.128). Эти значения, как и должно быть, очень близки к предыдущим, и мы приходим к тому же заключению.

Можно отметить, что мы могли бы иметь априорную информацию о некоторых вероятностях и не иметь ее о других.

В таком случае нам следовало бы оценить неизвестные вероятности и поступать далее, как прежде.

33.60 Природа таблиц со многими входами позволяет рассмотреть большое количество гипотез, отличных от гипотезы о полной независимости, сформулированной в (33.125). С. Рой и Митра (1956), проводя в отношении структуры таблиц с несколькими входами такое же различие, какое мы проводили в 33.18 и 33.31 в отношении таблиц и строят асимптотические критерии для некоторых таких гипотез. Например, нас может интересовать гипотеза

утверждающая, что в каждом из слоев таблицы с тремя входами переменные, соответствующие строкам и столбцам, независимы. Это аналог равенства нулю частной корреляции между строками и столбцами при фиксированном слое. Или нас может интересовать гипотеза

утверждающая, что классификация по строкам и столбцам, рассматриваемая как двумерное распределение, не зависит от слоя. Это аналог равенства нулю множественной корреляции между слоями, с одной стороны, и строками и столбцами — с другой.

Проводя суммирование в обеих частях (33.130) сначала по затем по мы получаем

и

Однако только из (33.131), (33.132) не следует (33.130). С. Рой и Кастенбаум (1956) исследовали вопрос о том, какая нужна дополнительная гипотеза, чтобы из (33.131), (33.132) следовало (33.130). Из-за математической трудности они не стали рассматривать естественную гипотезу

а вместо нее предложили

где а — произвольные положительные числа. Они показали, что из (33.134) и (33.131), (33.132) следует (33.130). В упражнении 33.31 дается другое выражение для (33.133).

33.61 В соответствии с терминологией дисперсионного анализа (том 3) (33.134) является гипотезой о равенстве нулю

взаимодействия второго порядка в таблице. Эта задача была впервые рассмотрена для таблицы 2X2X2 Бартлеттом (1935b), а для таблицы 2X2 X Нортом (1945). Лэнкастер (1951) предложил иной метод, основанный на компоненте из (33.126). Интерпретация этого метода как критерия для взаимодействия второго порядка критически обсуждается Плэкеттом (1962); см. также полезное обсуждение аналогии с дисперсионным анализом Дэррочем (1962). Плэкетт предложил другой критерий, упрощенный затем Гудмэном (1963b). Гудмэн (1964с) обобщил этот метод на взаимодействия любого порядка, рассмотрел (1963а) случай Дал (1964а) другие методы, основанные на перекрестных отношениях, и дал (1964d) простые методы проверки гипотез и получения доверительных интер» валов для взаимодействий второго порядка.

Линдли (1964) проводит байесовский анализ таблиц сопряженности.

33.62 Бёрч (1963) рассматривает МП-оценивание параметров таблицы со многими входами. также (1964с) рассматривает критерий существования частной связи в таблице принадлежащий, по существу, Кокрэну (1954) и основанный на статистике приближенно нормальной со средним и дисперсией, полученными суммированием в (33.51) по I слоям. Если то Но состоит в том, что и критерий будет РНМН против альтернативы все равны и положительны. Рассматривается также вопрос об оценивании предполагаемого общего значения Проверка гипотезы о равенстве эквивалентна проверке гипотезы о взаимодействии второго порядка (см. 33.61). Бёрч обобщает теорию на случай таблиц

Лэнкастер (1960) распространяет на таблицы со многими входами идеи канонического анализа.

УПРАЖНЕНИЯ

(см. скан)

(см. скан)

(см. скан)

(см. скан)

(см. скан)

(см. скан)

(см. скан)

(см. скан)

(см. скан)

(см. скан)

<< Предыдущий параграф Следующий параграф >>
Оглавление