Главная > Математика > Ранговые корреляции
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

ГЛАВА 3. СВЯЗАННЫЕ РАНГИ

3.1. В практических приложениях методов, основанных на ранжировании, иногда сталкиваются со случаями, когда два или несколько объектов настолько подобны, что не удается отдать предпочтение одному из них. Когда исследователь ранжирует объекты на основе субъективных суждений, то это свойство (отсутствие предпочтений) связано с истинной их неразличимостью или неспособностью исследователя найти существующие различия. В этих случаях говорят, что такие объекты являются связанными. Расположение студентов в соответствии с их достоинствами или экзаменационными баллами является известным примером такого рода связей.

3.2. Метод, который мы примем для приписывания численных значений рангов связанным объектам, заключается в усреднении рангов, которые они имели бы, если были бы различимы. Например, если исследователь связывает третий и четвертый объекты, то каждому приписывается число а если связываются все объекты от второго до седьмого включительно, то каждый получает ранг Иногда такой подход называют «методом средних рангов». Когда нет основы для выбора между объектами, то ясно, что в этом случае мы должны приписать всем одинаковые ранги, как если бы рассматривали их в виде одного объекта. Преимущество нашего метода состоит в том, что сумма рангов для всех объектов остается точно такой, как и при ранжировании без связей.

3.3. Теперь мы должны рассмотреть влияние связей на расчет .

В 1.9 было показано, что парам объектов приписывались значения, равные +1 и —1, в соответствии с тем, находились ли их ранги в полном соответствии друг с другом или нет. Если они связаны, то мы должны приписать им нулевую оценку, т. е. серединное значение между двумя этими величинами, которых следовало бы ожидать, если бы ооъекты не были связаны. Теперь легко определить величину делена связи с расчетом знаменателя, на который должна быть поделена величина при определении возникает новая проблема.

При этом существуют две возможности:

а) взять в качестве знаменателя как и для несвязанной формы

б) заменить на где оценка объектов в одном ранжировании и корреспондирующая оценка в другом.

При отсутствии связей любое равно единице, так что равно числу возможных оценок, а именно ; аналогично положение для так что выражение сводится к как это и должно быть. Причина выбора этого выражения для случая, когда имеется связь, станет ясной, если вернуться к 2.2 и 2.3.

Если наблюдается связь последовательных членов, то все оценки, относящиеся к любой выбранной из них паре, равны нулю. Таких пар насчитывается Соответственно, сумма где суммирование производится только для различных комбинаций связей. Поскольку равно сумме, которую получили бы, если не было бы связей, то эта величина должна быть уменьшена в связи с тем, что связи дают нулевые оценки. Поэтому запишем:

для связей в одной последовательности рангов и

для связей в другой последовательности. Теперь альтернативная форма коэффициента для связанных рангов может быть записана следующим образом:

До обсуждения других альтернативных форм рассмотрим простой пример.

Пример 3.1

Пусть заданы две последовательности рангов:

Если не принимать во внимание связи, то обе последовательности имеют один и тот же порядок, корреляция здесь высокая. Рассматривая первый член в связи с остальными девятью, находим, что его вклад в равен 9; второй и третий члены последовательности А связаны так,

они ничего не дают для вне зависимости от тою, какие оценки эта пара в последовательности В. Опенка объектов, ассоционированных со вторым членом, равна 7 и т. д. Сумг арная оценка составит

Если мы принимаем для определения варианта (стр. 46), то

В соответствии с альтернативой полечим для последовательности А:

и для последовательности В:

Отсюда

Во всех случаях значения должно быть, конечно, больше, чем та. В данном случае существенно выше

3.5. Исходя из общих соображений, развитых в гл. 2, приемлемой формой коэффициента — действительной меры корреляции между двумя рядами шеел — является Например, если мы измерим согласие между двумя суждениями о распределении группы кандидатов в по рядке их достоинств (и нет никакого объективного их ранжирования, то мы должны воспользоваться Оба суждения могут быть ошибочными относительно некоторой объективной последовательности или они могут не совпадать с другими суждениями, однако, мы не будем это обстоятельство принимать во внимание. Мы измеряем согласованность последовательностей, а не их точность.

Предположим, что обе последовательности совпадают, последним членом каждой из них является а все остальные члены связаны и, таким образом, имеют ранг, равный Тогда поскольку коэффициент должен выражать пелную согласованность между последовательностями. Однак из (3.1) и вытекает, что

откуда

Следовательно, поскольку оценка равна здесь (подтверждая, что имеем:

При больших эта величина близка к нулю. Становится ясным, что та не является приемлемой мерой согласованности.

3.6. Однако могут встречаться случаи, когда та будет представлять собой лучший измеритель, чем Предположим, что реально существует некоторая объективная последовательность членов ряда. В этом случае целью коррелирования приписанных исследователем рангов является измерение точности этого ряда. Если исследователь ввел связанные ранги, то форма учитывает тот факт, что дисперсия его оценок уменьшена. Такой расчет принимает во внимание так называемое «пучкование» оценок в то время как исследователю не следовало создавать связи рангов, поскольку существует некоторая объективная последовательность. В этом случае можно согласиться с тем, что при определении следует применить полный делитель, т. е. иначе говоря, та является приемлемой формой коэффициента.

Рассмотрим случай, когда одна наша последовательность представлена натуральным числом чисел а другая — имеет связь в качестве первых членов (ранг каждого равен конечный член последовательности равен Из (3.4), имеем:

тогда как

Например, при

По-видимому, первая величина ближе к тому, что мы должны ожидать от меры согласия для такой объективной последовательности. Исследователь не получил ни одной неправильно расположенной пары и правильно ранжировал один член ряда. Однако он не в состоянии сделать выбор между первыми девятью членами, и величина 0,22 как мера его способности представляется заслуженной. С другой стороны, если первая последовательность не объективна, а является только выражением мнения другого исследователя, причем его оценки не обладают большей надежностью, то представляется, что значение 0,47 есть хорошая мера согласия.

3.7. Есть и другой интересный подход при рассмотрении проблемы связанных рангов. Предположим, что мы имеем дело с некоторым

связанным множеством, состоящим из членов, которое возникло в связи с тем, что исследователь был неспособен уловить реальные различия. Тогда можно спросить: каково среднее значение для всех возможных путей приписывания целочисленных рангов связанным членам множества?

Если мы заменим некоторое связанное множество целочисленными рангами и средней всех возможных вариантов последовательностей, то получим тот же результат, что и при замене оценок связанных членов нулем, поскольку в вариантах упорядочения каждая пара встретится одинаковое число раз в последовательности и в последовательности Поэтому выбор +1 в одном случае и —1 в другом — эквивалентен выбору для средней. Таким образом, мы можем рассматривать как средний коэффициент, какой был бы получен, если бы связанные ранги были замещены всеми возможными вариантами целочисленных рангов и для каждого варианта было подсчитано а затем исчислена средняя всех результирующих величин.

3.8. Обратимся теперь к рассмотрению аналогичных проблем, связанных с коэффициентом ранговой корреляции Опять мы должны сделать выбор между двумя знаменателями и двумя коэффициентами, которые обозначим как Если в двух последовательностях имеется несколько групп связей, представленных членами, то

и

Тогда получим:

Прежде чем мы докажем эти формулы, рассмотрим следующий пример.

Пример 3.2. Возьмем опять две последовательности из примера 3.1

В первом ряду рангов имеется четыре связанные пары отсюда

Во втором — только одно множество связей, у которого и одно с следовательно,

Находим также

Отсюда на основе (3.7) получим:

и на основе (3.8)

3.9. Полезно отметить, что (3.8) может быть представлено в форме

Таким образом, если являются небольшими относительно величинами, то получим приближенное соотношение (при оно точное):

или приближенно:

Эта формула обычно и применяется при расчете в случае отсутствия связей. Поэтому следует ожидать, что когда число связей не слишком велико, применение формул (3.9) и (3.10) приводит к незначительным различиям в числовых результатах сравнительно с теми, которые дает формула (3.11).

Например, используя данные примера 3.2, находим по формуле

и по формуле (3.11)

формула (3.8) дает 0,9171. Все три результата равны при округлении до второго десятичного знака.

3.10. При выводе формул (3.7) и (3.8) мы воспользовались некоторыми результатами гл. 2. В 2.6 было показано, что может трактоваться как коэффициент корреляции между рангами. Предположим, что мы приняли ту же самую точку зрения и для случая, когда некоторые ранги связаны.

Для множества несвязанных рангов сумма квадратов рангов равна

где ранг 1-го объекта. Сумма рангов составит:

Если рангов связаны, то сумма рангов остается той же самой, однако изменяется сумма квадратов. Предположим, что ранги связаны. Тогда сумма квадратов сокращается на:

Сейчас удобно (для читателя, который пропустил гл. 2) ввести понятие дисперсии. Эта величина определяется как средний квадрат отклонении совокупности значений от их средней арифметической. Это квадрат стандартного отклонения. Таким образом, дисперсия для несвязанной последовательности равна:

где суммирование производится по рангам. Отсюда следует, что для связанной последовательности дисперсия составит величину

Если две величины х и у измерены в виде отклонений от их средних, то подобным же образом можно определить их ковариацию, равную Поскольку

то

Коэффициент корреляции может быть определен:

Легко проверить, что для случая, когда ранги не связаны, это дает величину Применим такой же подход и к случаю, когда ранги связаны. Поскольку опять равно то из (3.13), применяя (3.12), находим, что

Это выражение легко преобразуется в (3.8). Формулу (3.7) для получаем таким же образом.

3.11. То, что было сказано выше о различных обстоятельствах, в которых могут предпочитаться или применимо и к выбору между Для того чтобы аналогия была полной, нам необходимо доказать, что является средней из значений коэффициентов, которые были бы получены, если бы связи были заменены на целочисленные ранги всеми возможными способами их размещения.

Если последовательность А остается постоянной, то средняя из ковариаций, исчисленных для всех размещений множества из рангов другой последовательности В, равна ковариации постоянных рангов в и среднего ранга В. Однако последняя величина определяет значения связанных рангов. Из этого следует, что средняя ковариация есть ковариация связанных рангов, поскольку влияние различных множеств связей аддитивно. Результатом этого является сказанное выше.

Пример 3.3

Если две последовательности идентичны, то последний член в каждой из них имеет ранг а остальные являются связанными, их ранг равен Отсюда очевидно, что Однако для находим:

Таким образом, из (3.7) вытекает, что

Итак, различие между двумя видами такое же, что и между двумя видами в (3.5).

3.12. В психологии часто сталкиваются с проблемой, которая заключается в измерении взаимосвязи между двумя качественными характеристиками, одна из которых дает возможность осуществить ранжирование, а вторая — дихотомию, или группировку на две группы (класса), в соответствии с тем, обладают ли единицы наблюдения определенным свойством или нет. Обращаемся к следующему ранжированному ряду 15 девочек и мальчиков в соответствии с их успехами на экзамене:

Здесь нас интересует, имеется ли связь между полом и успехом на экзамене — действительно ли мальчики в среднем получили лучшие оценки, чем девочки, или наоборот.

Вообразим, что деление по полу само является некоторым ранжированием. Обследование охватило 8 мальчиков и 7 девочек. Предположим теперь, что первые 8 членов ряда, ранжированного по полу, являются связями, то же самое справедливо для следующей группы из 7 членов. Действительное значение связанных рангов в первом случае составляет — во втором, так что пары рангов могут быть записаны следующим образом:

Для данных последовательностей мы можем подсчитать теперь Находим:

и

Приведенная формула является одной из полезных форм коэффициента, измеряющего взаимосвязь в таблице Имеются и другие коэффициенты такого же рода, однако интересно, что для экстремального случая, когда обе последовательности настолько связаны, что представляют дихотомию, в качестве коэффициента берут измеритель взаимосвязи, который был создан для других целей 1.

Пример 3.5

Вернемся к данным примера 3.4. Предположив, что никтурию можно классифицировать только как нормальную и чрезмерную, получим следующие результаты (см. табл. 3.1)

Таблица 3.1

На основе этих данных имеем:

что хорошо согласуется со значением 0,41, которое было получено в примере 3.4,

Применение к порядковым таблицам взаимной сопряженности

3.15. Идеей, подобной той, что мы применили при анализе таблицы можно воспользоваться и для создания измерителя, оценивающего взаимосвязь в таблице взаимной сопряженности, в которой группировка по строкам и столбцам соответствует натуральному ряду чисел. Рассмотрим, например, данные табл. 3.2, которые характеризуют степень зоркости правого и левого глаз 3242 мужчин в возрасте 30—39 лет.

Таблица 3.2 Степень зоркости 3242 мужчин в возрасте 30—39 лет [93]

Нас интересует взаимосвязь между степенями зоркости правого и левого глаза. Отметим, что строки и столбцы расположены в правильной последовательности.

Теперь качество зрения (его зоркость) может рассматриваться для этих целей как признак, по которому человеку может быть приписан ранг; любой человек будет иметь ранги в двух последовательностях соответственно для правого и левого глаза. Мы можем рассматривать группировку по степеням зоркости как сравнительно интенсивное связывание 3242 рангов. Так, например, первые 1053 человека «связаны» в одну группу (по зоркости правого глаза), затем следующие 782, следующие 893 и, наконец, последние 514. Значение подсчитанное по данным таблицы с должным учетом связей, измерит взаимосвязь между зоркостью правого и левого глаза для группы в целом.

3.16. Для того чтобы определить такой коэффициент, нам требуется сумма Каждый член любой клетки таблицы в сочетании с любым членом, расположенным ниже и правее этой клетки, внесет положительный вклад в например, показатель 821, приведенный в верхнем левом углу таблицы, дает следующий вклад:

Аналогично получим отрицательные вклады, связанные с элементами таблицы, находящимися ниже и левее данного элемента; например, оценка, относящаяся к элементу, лежащему в третьем столбце и второй строке, равна:

Никакие оценки не возникают в связи с нижней итоговой строкой таблицы. Находим:

Для знаменателя имеем две величины:

Отсюда мера взаимосвязи определяется как:

3.17. Рассмотрим в качества меры взаимосвязи альтеонативный вариант—коэффициент та, который обладает одним весьма нежелательным свойством (разделяемым и некоторыми другими коэффициентами сопряженности), а именно коэффициент не может достигнуть единицы, если таблица не содержит равное число строк и столбцов. Для случаев, когда связи относительно редки, это не является серьезной помехой, однако для существенно связанных последовательностей может оказаться предпочтительнее применение коэффициента, который удовлетворяет этому условию

Возьмем максимальную оценку, которую можно получить для членов, размещенных в таблице, состоящей из и строк и сголбцоь. Она достижима тогда, все наблюдения лежат на наибольшей диагонали таблицы, а частоты, расположенные в диагональных клетках, близки к тому, чтобы быть равными. Наибольшая диагональ содержит, скажем, клеток, где наименьшее из Если кратно то максимальная оценка естъ:

Когда не кратно то такая оценка не достигается, однако она очень близка к ней при большом и малом Следовательно, находим:

Отсюда немедленно следует:

В нашем примере так что

в то время как ранее была получена величина

3.18. Для таблицы с одинаковым числом строк и столбцов (как, например, в таблице коэффициент может достичь единицы, если частоты будут лежать только на главной диагонали. Действительно, пусть частоты имеют значения Величина составит:

Знаменатель подсчитанный по итогам как строк, так и столбцов, равен:

отсюда равно единице. Коэффициент применяется главным образом тогда, когда число строк и столбцов не равно друг другу.

Библиография

См. [96], [18], [118], [51], [52], [82], [114], [6]. Приложение к таблицам сопряженности признаков см. [58, vol. 2, ch. 32].

Другой тип коэффициентов был предложен в [32] и рассмотрен в [58].

<< Предыдущий параграф Следующий параграф >>