Главная > Разное > Статистические выводы и связи, Т.2
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

Бисериальная корреляция

26.30 Предположим теперь, что у нас есть таблица являющаяся дихотомией по некоторому качественному фактору и классификацией либо по числовой величине, либо также по качественному признаку, который может быть как упорядоченным, так и неупорядоченным.

Таблица 26.7 иллюстрирует рассматриваемый тип материала. В ней классифицированы 1426 преступников по тому, были они алкоголиками или нет, и по. характеру преступления, за которое они были заключены в тюрьму.

Таблица 26.7 (см. скан) 1426 преступников, классифицированных по типу преступления и отношению к алкоголизму.

(Данные Горийга, цитированные К. Пирсоном, 1909)

Хотя столбцы таблицы находятся в произвольном порядке (у нас они упорядочены по связи преступления с интеллектом, но этот порядок достаточно относителен), мы можем, однако, получить оценку для предполагая, что подлежащее исследованию двумерное распределение нормально. Действительно, при таком распределении обе регрессии линейны и, как отмечено в 26.21, статистика инвариантна относительно перестановки сечений. Мы переходим, следовательно, к оцениванию

Будем рассматривать каждый столбец таблицы 26.7 как -сечение. Пусть пр обозначает число наблюдений в сечении, среднее, а дисперсия у в этом сечении; среднее, а дисперсия величины у. Предположим, что все измерения, по у сделаны от значения к, являющегося

точкой дихотомии; это не ограничивает общности, так как инвариантны относительно изменения начала отсчета. Тогда оценкой корреляционного отношения у по служит величина

Но для двумерного нормального распределения и (см. 16.23)

так что, заменяя в на получаем урав нение

Решая его относительно находим оценку

Эту оценку называют бисериальным коэффициентом вследствие его сходства с корреляционным отношением. Придерживаясь нашего соглашения, по которому латинские буквы используются для статистик, выборочное значение этого коэффициента мы обозначаем

Использование выражения (26.70) оказывается возможным потому, что входящие в него величины могут быть оценены по выборочным данным. Из предположения о двумерной нормальности исходного распределения следует, что величина, согласно которой сделана дихотомия (в нашем примере — алкоголизм), может быть представлена некоторой вариантой, имеющей нормальное распределение, и что каждое -сечение является дихотомией одномерного нормального распределения. Таким образом, отношения могут быть оценены с помощью таблиц нормального интеграла. Например, в таблице 26.7 частоты алкоголиков и неалкоголиков, в колонке «Поджог» равны 50 и 43. Следовательно, относительная частота

алкоголиков равна а нормальное отклонение, соответствующее этой частоте, есть, согласно таблице, 0,0944, что служит оценкой величины для этого сечения.

Пример 26.12

Для данных таблицы 26.7 находим относительные частоты, оценки отношений и значения :

(см. скан)

Теперь из (26.70) получаем

или

что можно принять, согласно нашим предположениям, за оценку коэффициента корреляции.

26.31 Как и в случае тетрахорического коэффициента выборочное распределение бисериального коэффициента неизвестно. К. Пирсон (1917) нашел асимптотическое выражение для его выборочной дисперсии, но неизвестно, как велико должно быть чтобы этим выражением можно было пользоваться.

Нельзя ожидать, что или может быть очень эффективной оценкой для так как они используют слишком мало информации о переменных. Стоит помнить также, что предположение о двумерной нормальности исходного распределения (хотя оно не всегда делалось явно) было решающим для обоих методов. Без предположения о нормальности неизвестно в общем случае, что оценивают .

26.32 Если в таблице классификация по группам задана значениями некоторой варианты (в отличие от неупорядоченной классификации, как в таблице 26.7), то вместо можно оценивать непосредственно Действительно, нам теперь

доступна дополнительная информация, которая позволяет оценить дисперсию этой числовой варианты и ее средние относящиеся к каждой из частей дихотомии относительно у. Так как регрессия х по у линейна, то имеем (см. (26.12))

Как в 26.27, можно найти такое чтобы

где общее количество индивидуумов, носящих один признак у-класса («более высокие» значения количество индивидуумов с другим признаком. Значение является точкой дихотомии нормального распределения величины у.

Из (26.71) следует, что средние каждой части дихотомии будут лежать на линии регрессии (26.71). Таким образом, для части дихотомии, содержащей «более высокое» значение у (обозначим его имеем

Следовательно, в качестве оценки для можно взять отношение

где средние значения х при «более высоких» наблюдениях у и по всей таблице соответственно, выборочная дисперсия х по всей таблице. Знаменатель в (26.73), согласно (26.72), имеет вид

Если обозначить ординату плотности нормального распределения в точке через то получим оценку для

Оценку, даваемую этим равенством, мы обозначили указывая индексом на ее название: называется «бисериальным коэффициентом

Последнее равенство обычно записывается в более симметричной форме. Так как

то разность равна Обозначая отношение находим иной вид для (26.74):

Пример 26.13 (из К. Пирсона, 1909)

Таблица 26.8 содержит распределение по возрасту кандидатов (всего 6156 человек), сдавших и не сдавших приемные экзамены в Лондонский университет в Для двух старших возрастных групп указаны оценки среднего возраста.

Таблица 26.8 (см. скан)

Используя индекс 1 для успешно сдавших кандидатов, имеем

По всем вместе кандидатам

Значение равно

Соотношение (26.72) дает и мы находим Следовательно, из (26.74)

Оцененная корреляция между возрастом и успехом невелика.

26.33 Как в случае предположение об исходной нормальности было решающим в выводе Распределение бисериального коэффициента неизвестно, но Сопер (1914) получил выражение для его стандартной ошибки в случае нормальных

выборок

и показал, что хорошей аппроксимацией к (26.76) служит

Позже подробное исследование коэффициента было проведено Марицем (1953) и Тейтом (1955), которые показали, что в нормальных выборках он распределен асимптотически нормально со средним и дисперсией (26.76). Кроме того, они рассмотрели оценку максимального правдоподобия для при бисериальных данных. Оказалось, как можно было ожидать, что при фиксированном дисперсия величины минимальна, когда дихотомия производится в середине интервала дихотомизируемой переменной Если то является эффективной оценкой коэффициента но если то эффективность стремится к нулю. Тейт также табулировал формулу Сопера (26.76) для См. упражнения 26.10-26.12.

<< Предыдущий параграф Следующий параграф >>
Оглавление