Главная > Разное > Статистические выводы и связи, Т.2
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

Точный критерий независимости: модели для таблицы 2x2

33.18 Критерии независимости, полученные в 33.15-17, являются асимптотическими относительно объема выборки Прежде чем строить точные критерии независимости для таблицы , мы должны обратить внимание на некоторые особенности, впервые замеченные Барнардом (1947а, b) и Пирсоном (1947).

Напомним, что математические ожидания в клетках таблицы при гипотезе независимости двух категоризованных переменных равны

т. е. зависят только от четырех маргинальных частот и от объема выборки Поскольку сейчас мы хотим получить точные результаты, мы должны ясно представлять, каким путем была образована таблица и как, в частности, были получены маргинальные

частоты. Даже при фиксированном мы имеем три возможности в отношении маргинальных частот. Оба набора маргинальных частот могут быть случайными величинами, как это имеет место в случае, когда выборка объема берется из двумерного распределения и затем делится, образуя двойную дихотомию. В другом случае один набор, маргинальных частот может быть фиксирован, поскольку такая классификация состоит просто в различении двух выборок (скажем, мужчины и женщины), которые нужно сравнивать по другим признакам (скажем, число, заболевших и не заболевших какой-то болезнью). Если объемы обеих выборок определены заранее (например, если мы хотим исследовать заданное число мужчин и женщин), то мы получим один фиксированный набор маргинальных частот и один переменный. Такое сравнение двух (или более) выборок по некоторому признаку часто называется проверкой однородности двух (или к) выборок.

Наконец, возможен третий случай, когда оба набора маргинальных частот фиксированы заранее. На практике он встречается гораздо реже, чем два других. Читатель может прежде, чем продолжить чтение, попытаться самостоятельно придумать такую ситуацию. Классический пример (см. Фишер (1935а)) относится к психофизическому эксперименту: субъект (человек) подвергается испытаниям на различение двух объектов (например, масла и маргарина по вкусу). Каждый объект предлагается некоторое число раз (не обязательно одинаковое для обоих объектов), и субъекту сообщаются эти числа. Разумный субъект будет в этом случае стараться, чтобы маргинальные частоты его утверждений («масло» или «маргарин») совпали с действительными частотами.

Пример 33.4

Чтобы лучше понять материал пункта 33.18, рассмотрим несколько примеров. Таблица приведенного выше примера 33.1, конечно, не относится к последнему типу с двумя фиксированными наборами маргинальных частот, однако без дополнительной информации непонятно, к какому из двух других типов она принадлежит. Возможно, были исследованы 818 человек и распределены в соответствии с Таблицей 2 X 2. С другой стороны, возможно, что были проверены отдельно 279 сделавших прививку и 539 не сделавших прививку и классифицированы на «заболевших» и «незаболевших». Можно также разделить две выборки, включающие 69 заболевших и 749 незаболевших, на «сделавших прививку» и «не сделавших прививку». Таким образом, существует три пути построения такой таблицы: один — двойная дихотомия и два других — соответствующие проверки

однородности. Для того чтобы сделать выбор между этими тремя вариантами, необходимо знать, как в действительности проводились наблюдения.

Для иллюстрации последнего типа, описанного в 33.18, мы приводим искусственно составленную таблицу, относящуюся к эксперименту по различению масла и маргарина.

(см. скан)

33.19 У нас нет никаких оснований ожидать, что один и тот же метод анализа может подойти для трех различных ситуаций, описанных в 33.18 (хотя ниже, в 33.24, мы увидим, что если речь идет о критерии независимости, то критерий для случая I будет оптимальным в двух других случаях). Дадим теперь вероятностную формулировку этих трех ситуаций. Начнем с самого простого случая, когда обе маргинальные частоты зафиксированы.

Случай Обе маргинальные частоты фиксированы. В случае выполнения гипотезы

вероятность осуществления таблицы

при фиксированных маргинальных частотах равна

Формула (33.50) симметрична относительно частот и относительно маргинальных частот, как это и должно быть вследствие симметричности ситуации. Поскольку маргинальные частоты фиксированы, то только одна из частот может изменяться

независимо. Не ограничивая общности, можно предположить, что это Тогда (33.50) можно рассматривать как распределение которое оказывается гипергеометрическим (см. 5.18). Действительно, (33.50) совпадает с гипергеометрической вероятностью (5.48), если произвести подстановки

Среднее и дисперсия согласно (5.53) и (5.55) равны

Величина распределена асимптотически нормально со средним и дисперсией (33.51). Таким образом, случайная величина

асимптотически имеет стандартное нормальное распределение. Заменяя на мы видим, что величина эквивалентна (V определено в (33.12)), следовательно, величина эквивалентна статистике определенной в (33.46). Это свидетельствует о том, что общий асимптотический критерий пункта 33.17 применим в данной ситуации.

33.20 С помощью (33.50) мы можем вычислить точную вероятность любого заданного набора частот. Суммируя вероятности, соответствующие «хвосту» распределения можно построить критическую область для точного критерия, впервые предложенного Фишером. Эта процедура проиллюстрирована на следующем примере.

Пример 33.5 (Данные из работы Иэйтса (1934), принадлежащие М. Хеллмэну).

В следующей таблице классифицированы 42 ребенка в зависимости от состояния их зубов и способа кормления.

(см. скан)

Очевидно, здесь не могут быть зафиксированы обе маргинальные частоты, однако в данный момент мы используем эти данные в иллюстративных целях, а позднее, в 33.24, увидим, что это вполне оправдано.

Мы выберем в качестве пп частоту с наименьшим диапазоном изменения, т. е. одну из двух частот, которым соответствуют наименьшие маргинальные частоты. В нашем случае такой (фиксированной) маргинальной частотой будет которой соответствует изменение от до 5.

Вероятность того, что согласно (33.50) равна

Вероятность того, что легче всего получить, умножая это значение соответственно на

Эти вероятности равны:

Для проверки гипотезы независимости против альтернативы, что нормальность зубов положительно связана с грудным кормлением, мы будем использовать критическую область, состоящую из больших значений (число детей с нормальными зубами, вскормленных грудью). У нас есть выбор между двумя «разумными» значениями размера точного критерия. Для только приводит к отклонению гипотезы; для к отклонению гипотезы приводит или 5. Вероятно, большинство статистиков использовало бы первую критическую область, что в нашем случае соответствовало бы принятию гипотезы о независимости.

33.21 Для точного критерия, основанного на (33.50), имеются таблицы. Финни (1948) приводит значения (у него необходимые для отклонения гипотезы о независимости для значений и не

превосходящих 15, и для односторонних критериев размера с указанием точного размера в каждом случае. Таблица Финни перепечатана в Biometrika Tables. Лача (1953) продолжил таблицу Фннни до Эти таблицы продолжены до Финни и др. (1963). Армсен (1955) построил таблицы для односторонних и двусторонних критериев размера в Бросс и Кастен (1957) построили графики для односторонних критериев размера двусторонних критериев размера 2а) с минимальной маргинальной частотой (скажем, , основанные на аппроксимации гнпергеометрического распределения (33.50) биномиальным . Критические значения, даваемые графиками, являются консервативными, если не очень мало.

Случай II. Одна маргинальная частота фиксирована; однородность.

33.22 Мы будем записывать гипотезу (являющуюся теперь гипотезой о равенстве вероятностей в двух совокупностях), как и прежде, в форме (33.48), но теперь зафиксированы, а независимые случайные величины, так что частота п. 1 (и, следовательно, ее дополнение п.2) — случайная величина. Мы проверяем гипотезу (33.48), рассматривая соответствующую разность отношений

При гипотезе эта разность асимптотически нормальна со средним и дисперсией

где гипотетическое оощее значение и .

Несмещенной оценкой для служит объединенная оценка

так что оценка дисперсии и равна

Таким образом, случайная величина

распределена асимптотически нормально с нулевым средним и единичной дисперсией. Мы видим, что (33.54) совпадает с (33.52). Следовательно, асимптотические критерии совпадают в этих двух случаях.

Однако при малых выборках критерии различны. Когда справедлива гипотеза, мы имеем теперь

а это есть определенная в (33.50) вероятность умноженная на биномиальный коэффициент

Очевидно, что это должно быть так, потому что вероятности, соответствующие фиксированной частоте умножаются теперь на вероятность самой В отличие от (33.50), вероятность (33.55) зависит от неизвестного параметра и поэтому не может быть вычислена.

Случай III. Маргинальные частоты не фиксированы: двойная дихотомия.

33.23 Теперь рассмотрим случай, когда фиксировано, но ни одна из маргинальных частот не фиксирована. Гипотеза теперь состоит в двумерной независимости. Асимптотический критерий уже получен нами в 33.15-17. Точная вероятность появления частоты теперь равна

где гипотетическое общее значение Произведение первых двух сомножителей, стоящих в правой части (33.56), эквивалентно (33.55), а третий сомножитель равен

Выражение (33.56) зависит, таким образом, от неизвестных параметров и его нельзя вычислить.

<< Предыдущий параграф Следующий параграф >>
Оглавление