Главная > Математика > Ранговые корреляции
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

ГЛАВА 5. ДОКАЗАТЕЛЬСТВА РЕЗУЛЬТАТОВ ГЛАВЫ 4

5.1. Формулы, приведенные в предыдущей главе, при проверке существенности требуют четыре типа результатов, а именно:

а) определение точного распределения для невысоких значений

б) доказательство того, что распределение стремится к нормальному при больших

в) определение средних и дисперсий для ограничивающих распределений;

г) определение поправок на непрерывность.

Рассмотрим названные проблемы, сохраняя их порядок. В конце главы более детально проанализируем ненулевой случай.

Точное распределение «тау» в нулевом случае

5.2. Если мы коррелируем фиксированную последовательность из членов с возможными последовательностями (исключая связи), то получим одно и то же распределение (значений 5. — Прим. перге.), какой бы ни была эта фиксированная последовательность; это справедливо для любых возможных ее вариантов. Поэтому мы не теряем общности доказательства, предположив, что нашей фиксирован ной последовательностью является натуральный ряд чисел Пусть и есть число значений для совокупности из возможных значений, полученных путем коррелирования этой последовательности со всеми возможным-! последовательностями.

Рассмотрим теперь, какое влияние оказывает Еведение нового члена в различные места такой последовательности от первого (т. е. предшествующего первому члену до последнего (т. е. следующего за членом Введение члена в начало ранжированного ряда добавит к 5 величину, равную — введение его на второе место добавит ; на третье введение этого члена на последнее место добавляет величину Отсюда следует, что

Данная рекуррентная формула позволяет определить распределение частот для 5 при числе членов когда известно . Исходя из этого мы можем построить ряд распределений, начиная с простерших случаев, т. е. для

5.3. Для практических целей эта процедура может быть упрощена. Так, для имеется два значения а именно: Если мы три раза запишем частоты одни под другими, со сдвигом вправо каждый раз на один шаг, то получим:

Суммы по столбцам характеризуют частоты для Значения находятся в диапазоне с интервалом в две единицы, т. е.

Аналогично выпишем четыре раза ряд частот и соответствующие суммы для

получим частоты для значений 5 от —6 до 6 с интервалом в две единицы.

Ценность этого правила, учитывая содержание предыдущего раздела, очевидна. Так, любой совокупности значений при заданном будет корреспондировать распределение членами, причем значения увеличены на . Все, что следует выполнить, — это выписать эти частоты (т. е. частоты распределения для членов. — Прим. один ряд для , второй для и суммировать их.

5.4. В свою очередь и эта процедура может быть упрощена. Составим следующим образом числовой треугольник:

В этом расположении чисел элемент, находящийся в строке есть сумма числа, стоящего непосредственно над ним, и членов слева от этого верхнего числа; например, в пятой строке стоит число 22, получим: Частоты значений 5 для получают как чйсла строки Описанный метод был использован для получения частот табл. 1 приложения.

5.5. Распределение 5 симметричное; для любой последовательности, дающей определенное значение существует сопряженный ранжированный ряд, который дает —5. Поэтому, как и следует ожидать, среднее значение 5 равно нулю. То, что находится в диапазоне от до очевидно из того, что экстремальные значения получают тогда, когда последовательность находится в обратном порядке к натуральному ряду чисел или сама является натуральным рядом. Далее, интервал между последовательными значениями 5 для заданного равен 2. Это следует из (5.1), или, что, возможно, проще — из учета того факта, что перемена местами двух членов в последовательности изменяет величину на 4-1 или —1. Отсюда разность между которая равна изменяется на 4-2 или —2.

Стремление распределения «тау» к нормальному в нулевом случае

5.6. Нам остается определить дисперсию и доказать, что распределение стремится к нормальному при росте

Приняв обозначения гл. 2, запишем:

где и оценки, относящиеся к двум последовательностям. Пусть

Тогда

Теперь

поскольку эта величина является оценкой члена и равна

Далее

так как равно а сумма представляет сббой просто число возможных путей образования пар из члербв, причем каждая пара учитывается дважды: один раз как другой — Из (5.5) вытекает, что

как и следовало ожидать. Найдем также

Обозначим теперь символом среднюю, полученную при суммировании по всем возможным перестановкам:

Поскольку являются независимыми и фиксированное значение одной из них берется со всеми возможными значениями другой, а также поскольку среднее значение или равно нулю, имеем:

Таким образом, подтверждается, что средняя для с (или 5) равна нулю. Для определения дисперсии с нам необходимо найти

где Здесь суммирование производится отдельно для выделенных членов, причем любой член при разложении может встретиться более одного раза.

1. Член обращается в нуль. Для того чтобы продемонстрировать это, достаточно показать, что принимает нулевое значение. Теперь получим (символ 2 указывает на суммирование по всем переменным):

При определении математических ожиданий учтем, что члены правой стороны этого выражени, не считая первого, обращаются в нуль в силу соотношения . Член, стоящий в левой стороне, обращается в нуль, поскольку (суммирование производится по всем переменным). Следовательно, первый член правой стороны также равен нулю.

2. Теперь рассмотрим сумму Отдельные слагаемые получают как квадрат или как произведение этого члена с Таким образом, общая сумма равна удвоенной сумме членов где Эта сумма состоит из членов и, следовательно, математическое ожидание равно:

3. Аналогично этому определим второй член правой стороны выражения (5.9). Он равен:

Произведение может быть получено четырьмя различными путями, поэтому если фиксировать для значений а, то членам можно приписать индексы

Имеется возможностей для приписывания различных индексов, если последовательность содержит членов. Читателю предлагается выписать их для случая если его настораживает этот вывод. Кроме того,

Подставляя результаты в (5.9), получим:

Теперь, воспользовавшись результатами (5.6) и (5.7), определяем:

Отсюда следует, что

Выражение (5.12) и есть результат, который был приведен в (4.2),

5.7. Если в последовательностях находятся связи, то уравнение (5.10) сохраняет справедливость, однако выражения (5.6) и (5.7) требуют у точнений. Так, для (5.6) имеем:

где суммирование 2 производится по всем связям. Это следует из того, что пары связанных рангов следовательно, сумма квадратов вкладов от связанного ряда имеет тот же вид, что и от последовательности в целом. Для получаем:

Этот результат не совсем очевиден. Рассмотрим влияние связывания нескольких рангов, Вклад в сумму (т. е. в левую сторону (5.15)) не будет изменяться, если подписной индекс исключить из этой совокупности. Если ввести в нее, а исключить, то останется неизменным. Если включить и то это не приведет к увеличению вклада, поэтому нам следует вычесть величину Если же один из этих подписных индексов включить, а один исключить, то вклад останется неизменным. Поскольку он равен нулю в исходном случае при отсутствии связей, каждой возможной паре один раз приписывается +1 и один раз —1.

Если (5.14) и (5.15) подставить в (5.10), то найдем, что дисперсия когда последовательности имеют связи равна:

Этот результат приведен в уравнении (4.3). Уравнения (4.4), (4.5) и (4.6) непосредственно вытекают из него.

5.8. При доказательстве того, что распределение стремится к нормальному, мы будем следовать процедуре, которая с

незначительными изменениями Доказывает нормальность и представляет собой введение в общий анализ, относящийся к ограниченным формам общего коэффициента ранговой корреляции (см. гл. 2), развитый в

Мы докажем, что моменты распределения 5 стремятся к моментам нормального распределения. Это следует из положения о том, что данное распределение стремится к нормальному, известного как вторая предельная теогема (см [58, 4.29-4.30]). Поскольку распределение симметрично, нечетные моменты относительно средней равны нулю. Следовательно, мы должны только показать, что для четных мометов

Рассмотрим среднюю величины При разложении этого выражения получим следующие члены, которые имеют вид:

Суммирование здесь проводится индексам, исключая некоторые величины (например, при мы можем заменить эти суммы выражениями, характеризующими полное суммирование. Тогда разложенное выражение будет, кроме уже указанных числовых члеьов, содержать члены такого вида:

где одни подписные индексы могут совпадать или быть «связанными», а другие будут различными или «свободными». Рассмотрим член, в котором подписных индекса у а являются связанными в пары, т. е.

Тогда имеется независимых индекса. Величина теперь имеет порядок - следовательно, (5.19) имеет порядок . В выражении такого рода члены будут появляться с частотой, равной числу путей связывания пар индексов. Это равно произведению трех величин, а именно: 1) числа вариантов выбора величин а из т. е. числа вариантов связи выбранных величин с остальными факторами, т. е. !; 3) в связи с тем, что любой подписной может быть связанным, возникает величина Числовой коэффициент тогда равен:

Кроме того, если индексов фиксированы, то остальные члены последовательности могут варьировать путями. Отсюда содержит член

Однако имеет величину (для этого надо подставить следовательно, содержит член

Доказательство будет полным, если мы покажем, что все остальные члены имеют меньший порядок относительно .

Если какой-либо член (5.18) содержит пару индексов, каждый из которых не появляется еще где-либо, то он равен нулю, поскольку Рассмотрим член, в котором связано более двух индексов. Тогда суммирование (5.19) производится не более чем по индексам и порядок результата не может превысить величину Если или менее индексов фиксированы, то эта величина не превосходит

и следовательно, оказывается меньше уже найденного члена.

Распределение «ро» в нулевом случае

5.9. Действительное распределение труднее определить, чем распределение метод конструирования распределения для единиц при наличии распределения для единиц неизвестен. Рассмотрим следующее расположение чисел:

Любые допустимые расхождения между последовательностью и произвольным порядком чисел задается путем выбора члена из этой таблицы, в которой два одинаковых члена не встречаются ни

в столбце, ни в строке. Рассмотрим теперь числа:

Показатели степеней, приведенные в (5.21), являются квадратами элементов, показанных в (5.20); если мы обобщим (5.21), то получим совокупность величин Под «обобщением» мы понимаем построение рядов путем выбора из таблицы коэффициентов возможными способами так, что ни один из них дважды не входит в один столбец или строку. Умножение их на каждую совокупность коэффициентов и суммирование дает результатов. Этот метод был применен для получения распределений, образующих основу табл. 2 приложения.

5.10. Некоторые простые свойства распределения очевидны уже при элементарном анализе. Во-первых, величина должна быть четной; так как число нечетных значений следовательно, должно быть четным. Во-вторых, распределение симметричное, поскольку любое значение корреспондирует величине полученной для сопряженной последовательности (2.9). -третьих, средняя этого распределения равна -четвертых, оно простирается от до

5.11. Мы можем определить дисперсию так, как это показано в 5.6. Из того подхода, которым было определено (5.10), содержащее оценки становится ясным, что это уравнение справедливо также для с, когда эти величины относятся к коэффициенту Спирмэна. Поэтому без потери общности мы можем написать:

Теперь непосредственно получаем:

и

а также

Подстановка в (5.10) теперь дает

Вспомнив, что

и что в соответствии с (2.9)

находим на основе (5.25)

что отвечает формуле

5.12. Аналогичными методами может быть показано, что четвертый момент определяется формулой

Третий момент в силу симметрии распределения, естественно, равен нулю. Для и выражения известны (см. [16]), однако они довольно громоздки.

В нормальном распределении

Для распределения на основе (5.27) и (5.26) находим:

Эта величина меньшего порядка, чем Соответственно имеем:

Отсюда видно, что для больших распределение близко к нормальному.

Имеющиеся таблицы точных значений и нормальных приближений для большинства обычных разработок являются достаточными. Для более точного анализа в [16] получены обобщения, дающие распределение как так и с точностью до четвертого знака.

Совместное распределение «тау» и «ро»

5.13. Тенденция распределения к нормальному может быть продемонстрирована путем некоторого изменения доказательства нормальности распределения приведенного в (5.8). Оба результата являются частными случаями более общей теоремы, развитой в [9], которую мы теперь докажем.

Совместное распределение тир стремится к двумерному нормальному распределению при стремлении к бесконечности. В самом деле, при наличии некоторых неограничивающих условий любые два коэффициента общего типа, определенные в 2.2, имеют тенденцию к совместному двумерному нормальному распределению.

Предположим, что а, а являются величинами двух таких коэффициентов, аналогично и Теперь покажем, что моменты совместного распределения корреспондирующих значений с и с также стремятся к такой же нормальной двумерной форме.

Моменты порядка этого совместного распределения равны суммам членов, содержащих

где группы подписных индексов в пределах сумм 2 могут быть связанными или свободными.

Каждая сумма 2 содержит произведение оценок, которые могут принадлежать той или другой системе. В свою очередь каждая такая сумма 2 является линейной комбинацией соответствующих 2, имеющих те же подписные индексы, и других 2, в которых содержатся дополнительные связанные индексы. Ни одна из сумм 2 не может содержать пары несвязанных индексов, представляющих одну оценку, поскольку тогда она превращается в нуль в связи с тем, что

Рассмотрим сперва моменты четного порядка. Пусть Возьмем 2, в которой оценок расчленено на пар, каждая из которых имеет один связанный индекс, так что всего имеется независимых индексов, а именно:

Это выражение может быть переписано как

где показатели, характеризующие число Раз, когда оценки объединялись в пары в указанных сочетаниях.

Предположим, что наибольшее значение приравнено единице. Примем теперь условие, согласно которому имеет величину порядка вне зависимости от того, принадлежат или нет к одной или различным системам оценок. Это условие, в частности, удовлетворяется коэффициентами когда Представляется, что данное условие приводит k. тому, что суммы (2) указанного выше вида равны величинам порядка

Другие варианты связывания индексов дают суммы меньшего порядка. Порядок величины этого выражения не уменьшается и при замене каждого на следовательно, если оказываются связанными и другие индексы, то порядок суммы становится меньшим, чем поскольку имеется меньше суммирований от 1 до Отсюда следует, что доминирующий член в 2 соответствует сумме (2), имеющей тот же самый ряд индексов.

Более того, каждая не сходящаяся к нулю сумма, охватывающая независимых индекса, может представлять собой лишь перестановку типа (5.32), тогда как суммы с более чем различными индексами все должны быть равными нулю. Это становится ясным при рассмотрении того, как индексов может быть расположено для оценок. Для начала разместим в случайном порядке различных индекса по имеющимся местам. По крайней мере оценок получат свой полный комплект индексов, причем все индексы будут различными. Более таких укомплектованных оценок не может быть, поскольку если 2 не сводится к нулю, то один индекс каждой пары может быть связан. Это достигается только при повторении одного индекса из каждой пары в каждом из оставшихся мест, которое должно быть заполнено, а их имеется только Таким образом, мы приходим к перестановке типа 2, которая обсуждалась выше. Если бы мы начали с более чем различных индексов, то не осталось бы достаточного числа незанятых мест для того, чтобы предотвратить появление по крайней мере одной оценки с парой свободных индексов. Отсюда все 2 с более чем тремя индексами должны обратиться в нули.

Любой смешанный момент равен сумме членов, подобных выражению

где число независимых индексов в коэффициент, равный единице, коль скоро затрагивается членов последовательности. Из сказанного выше следует, что максимальное значение равно в данном случае этот член имеет порядок Когда порядок рассматриваемого члена не превышает величину следовательно, подобными членами можно пренебречь. Выпишем теперь выражения

Если пренебречь наименьшим по величине членом, то четный смешанный момент где определяется суммой следующих членов:

для всех возможных значений Коэффициенты определяются исходя из следующего соображения. Рассмотрим 2, последовательность индексов которой такова, что она может быть разложена на множители Пары индексов могут быть переставлены способами в пределах совокупности оценок типа , однако из них дают почти такие же 2. Парные индексы каждой оценки могут быть также переупорядочены способами без изменения результатов. Отсюда

Из (5.35), (5.36) и (5.37) следует, что расчет равносилен определению коэффициента в

Рассмотрим теперь нечетные моменты. Для они обращаются в нуль в силу симметрии, однако можно показать, что даже в более общем случае ими можно пренебречь. Сумма (2), содержащая оценок, не может охватывать более индексов. Это следует из того же аргумента, который мы приводили выше для четных моментов. Отсюда порядок величины момента равен самое большее Как было показано, моменты должны быть порядка Порядок момента не превышает Поэтому нечетные моменты имеют порядок меньший (на множитель чем четные моменты.

Наконец, из (5.38) следует, что моменты есть коэффициенты в

а это производящая функция моментов для двумерного нормального распределения (см. пример 15.1 в Этот результат доказан.

5.14. Представляет некоторый интерес изучение коэффициента корреляции между Точно таким же путем, как было выведено

(5.10), находим среднюю

В частном случае, когда с относится к получим:

После подстановки в (5.40) имеем:

Таким образом, коэффициент корреляции между который также является коэффициентом корреляции между тир, определяется выражением:

При больших эта величина стремится к единице. Даже для средних значений она довольно высока. Для она составит 0,980, а для равна 0,990.

Поправка на непрерывность

5.15. Вернемся теперь к проблеме поправки на непрерывность, правило для определения которой было изложено в 4.12 и 4.15.

а. Рассмотрим вариант, когда одна последовательность является несвязанной, а вторая имеет связи и в крайнем случае может быть представлена дихотомией. Можно допустить, что несвязанная последовательность представлена натуральным рядом чисел, а вторая имеет любой произвольный порядок. Если мы поменяем местами пару соседних членов несвязанной последовательности, то это окажет влияние только на те оценки, которые включают оба эти члена. Соответствующие ранги во второй последовательности являются несвязанными либо связанными. В первом случае величина изменится на две единицы, во втором — она не изменится. Если во второй последовательности много связей (исключая случай, когда весь ряд полностью связан), то должна быть одна перестановка соседних членов в первой последовательности, которая изменяет величину на две единицы. Таким образом, все интервалы между последовательными значениями в распределении этой величины равны двум единицам и соответствующая поправка на непрерывность равна единице.

Если теперь первая последовательность целиком состоит из связей протяженностью а вторая представляет собой дихотомию, то перемена местами двух соседних членов из разных связанных групп может изменить изменяет при наличии некоторых последовательностей второй переменной) самое большее на 21. Поправка на непрерывность равна

в. Если обе переменные представлены дихотомиями, то, как показано в Наименьшее изменение, которое может произойти, связано с увеличением или уменьшением а на единицу. В этом случае (скажем, при увеличении) рост значения составит:

Поправка на непрерывность равна, следовательно, .

г. Когда оба ранжированных ряда содержат связи, то невозможно сформулировать общее правило для определения поправки на непрерывность. Если эта сторона анализа является существенной, то необходимо специальное исследование, подобное приведенному в примере 4.5.

5.16. Для определения поправки на непрерывность для рассмотрим последовательность натуральных чисел и дихотомию, состоящую из членов со средними рангами, равными Если два члена первой последовательности есть , то их перестановка приводит к перестановке двух членов второй последовательности, по одному на каждую часть дихотомии, тогда изменение в составит:

Таким образом, имеется одна перестановка соседних членов которая увеличит или уменьшит на Соответствующая поправка равна

Если члены первой последовательности все связаны, а связи охватывают членов, то минимальное (и достижимое) изменение равно давая поправку

Наконец, если первая последовательность является дихотомией, то минимальное изменение равно и поправка составит

Ненулевой случай

5.17. Обратимся теперь к более сложному случаю — к корреляции в выборке и генеральной совокупности. Обозначим генеральное значение коэффициента корреляции через а выборочное его значение — через Прежде всего мы докажем, что среднее значение для всех возможных выборок есть

Рассмотрим выборок (т.е. выборок из совокупности объемом состоящих из единиц). Каждая специфическая пара членов совокупности будет содержаться в выборках, так что все пары встречаются с одинаковой частотой в общей совокупности выборок.

Таким образом, итоговая оценка для всех выборок составит кратную оценку для этой совокупности, скажем . Следовательно,

5.18. Выведем теперь выражение для дисперсии Пусть означает значение с для выборочной последовательности, состоящей из единиц, а с — генеральное значение. Тогда

и

где означает суммирование выборочных значений с по Поскольку нам требуется найти рассмотрим

где 2 означает суммирование по всем вариантам выборок объемом из совокупности, содержащей членов. Теперь перечислим случаи возможных появлений в данной сумме величин и подобных произведений со связанными индексами.

1. Если все являются различными, то член может появиться в выборках из остающихся членов; вклад таких членов в составит:

где , как и раньше, означает суммирование от 1 до по несовпадающим значениям

2. Аналогично член сиси может появиться путями, и существует четыре варианта связывания одного индекса. Таким образом, вклад этих членов составит:

3. Члены, подобные дают аналогичный вклад, т. е.

Выражая в виде членов и поделив на получим

где Поскольку дисперсия для заданных как видно, зависит от

Пусть очень большое число. Поскольку величины с и -имеют порядок соответственно, можно написать

Находим теперь, что

Таким образом, в пределе

5.19. Рассмотрим теперь величину Пусть равно ±1, а коэффициенты а могут принимать любые значения при соблюдении следующих условий:

Стационарные значения имеют место тогда, когда величины а удовлетворяют условию:

где неопределенные коэффициенты. Умножая на и суммируя по всем находим:

Следовательно, если все не будут равными (если они равные, то является минимальной), то должны иметь следующие значения:

Умножая (5.53) на и суммируя по получим:

Откуда следует, что не может превысить

Для больших это означает, что

Следовательно,

и, таким образом, из (5.52) вытекает, что

т. е. получим уравнение (4.9) предыдущей главы.

5.20. Полученный результат предполагает использование преобразования

С той же степенью приближения мы можем принять, что нормально распределено относительно и что дисперсия удовлетворяет отношению

преимущество которого заключается в независимости от Неизвестно, ближе ли в данном случае это распределение к нормальному, чем распределение

5.21. После доказательств, помещенных выше в данной главе, приведем в основных чертах доказательство того, что распределение стремится к нормальному для больших Рассмотрим лишь общие контуры такого доказательства. Запишем

так что

Момент величины порядка относительно средней есть поэтому рассмотрим

Основное условие заключается в том, что

это справедливо только в том случае, если находится около 1, следовательно, тенденция к нормальности может исчезнуть при высокой степени корреляции. Мы также предполагаем, что стремится к нулю.

Как и в (5.13), при выводе момента степени основной член определяется выражением, подобным другие члены имеют порядок, меньший При приписывании подписных индексов имеется вариантов выбора остающихся членов, а подписные индексы могут быть связаны путями для того, чтобы дать тот же самый результат. Разделив на и имея в виду, что для больших

находим выражение для главного члена момента степени

величина которого имеет порядок, равный Применяя такое же Доказательство, находим, что члены с различными индексами имеют порядок и ими можно пренебречь. Таким образом,

Для сравнения огметим, что величина имеет порядок, равный стремление к нормальности сохраняется и здесь. Дисперсия равна:

дисперсия соответственно составит , что согласуется с (5 52).

5.22. Теперь перейдем к причинам введенного вышэ предположения о том, что пределы для дисперсии заданные (5.54), не могут быть очень узкими.

Рассмотрим последовательность:

Число положительных пар равно 26, так что Преобразуем ею так, чтобы единица была в начале последовательности, при этом для сохранения оценки 26 передвинем число 9. Для того чтобы достичь начала последовательности, число 1 перескочит через три члена и, следовательно, это добавит к оценке величину 3. Тогда число 9 должно быть сдвинуто влево на 3 члена так, чтобы уменьшить оценку на 3. При этом получим следующую послгдовлтельность:

Проделав то же самое с 2, получим:

Для того чтобы 9 не стала рядом с связи с невозможностью дальнейшего сдвига влево, мы далее должны сдвигать число 8 и т. д. Продолжая процесс, мы в конце концов получим:

Числа до 4 представляют натуральный ряд, а остальные имеют обратный порядок расположения. Можно назвать такую последовательность «каноническим порядком) для данного Не всегда возможно привести заданную последоьатсльность к канонической, однако не может быть случая, когда более одного числа окажется не на своем мссте в канонической форме.

Если исходная последовательность записана в обратном порядке, то становится Мы можем привести ее к канонической форме и повторно инверсировать результат, тогда коэффициент снова станет равным Такую последовательность можно назвать «обратная каноническая форма».

5.23. Теперь обратимся к каноническому случаю, когда имеется всего членов, причем в начале находите членов, расположенных

в виде натурального ряда; членов имеют обратный порядок расположения. Если мы отберем членов из членов из то величина для выборки составит а относительная частота величины равна:

Теперь предположим, что бесконечно большая величина, стремится к пределу Тогда относительная частота величины которая равна будет стремиться к Среднее значение равно:

и поскольку

то мы должны получить

Дисперсия находится как

и, следовательно,

Если обратная генеральная последовательность приведена к канонической форме и при этом имеются отношения то получим:

Тогда, поскольку

Если —положительная величина, то и тогда Взяв обратную каноническую последовательность и прямую каноническую последовательность находим для дисперсии при больших

Отношение этой величины к верхнему пределу, равному изменяется от (когда до 1 (когда Очевидно, что верхний предел дисперсии не может быть существенно снижен, поскольку дисперсия действительной генеральной последовательности приближается к этому пределу для всех значений когда не очень мало.

Более точный анализ для ненулевого случая

5.24. В доказательстве того, что распределение стремится к нормальному в ненулевом случае, мы пренебрегли членом порядка а это означает, что нормальное приближение, справедливое для больших может оказаться неправомерным для малых или средних Кратко проверим возможность улучшения приближения для средних .

Рассматривая снова (5.52)

мы видим, действительная дисперсия для больших зависит от неизвестных функций При отсутствии точных знаний об этих величинах мы можем оценить их на основе выборки, взяв выборочные значения с, и с вместо неизвестных генеральных значений. Однако, выполнял это, лучше слегка модифицировать нашу формулу так, чтобы устранить смещение. Читатель, по-видимому, помнит, что в обычной теории статистики, как правило, предпочитают применять оценку дисперсии, т. е. не действительную величину выборочной дисперсии, раьную поскольку средняя первой величины для всех выборок равна генеральной дисперсии. Подобно этому лучше не подставлять в (5.64) выборочные величины а применить формулу, которая дает точное значение для всех выборок. Такой формулой, дающей несмещенный результат, является

где и с — выборочные значения. Приведенная формула дает нам наилучшую оценку

5.25 Теперь мы можем немного продвинуться далее, рассматривая момент с тем чтобы можно было отойти от нормального выборочног распределения. Подробное доказательство можно найти в Здесь мы приводим лишь результат. Если

то частота распределения величины

есть

Обозначим через 1 нормальное отклонение, вероятность превышения которого Вероятность того, что к превысит 1, составит:

Если X представляет собой точный предел, такой, что то с помощью последа нательного приближения легко доказывается, что

стремится к Например, при 5% величина равна . Соответствующее значение X составит:

X, соответствующий 1%, равен:

В следующем примере показано, как можно использовать эти результаты.

Пример 5.1

Следующо данные характеризуют ранги, приписанные двум признакам в выборке из 30 единиц, извлеченных из совокупности неизвестного свойства. Нам необходимо оценить корреляцию в генеральной совокупности.

Таблица 5.1

Найдено, что коэффициент корреляции равен

а. Прежде всего рассмотрим максимальные доверительные интервалы, определяемые в (4.12). Пятипроцентные пределы составят:

б. преобразование (согласно 5.20) дает:

т. е. получили результат, который не очень сильно отличается от результата, приведенного в

в. Для того чтобы продвинуться дальше, нам необходимо получить величины . В табл. 5.2 приведена матрица значений с и с, полученная для наших данных. Находим:

Затем на основе (5.65) получим:

откуда оценка стандартной ошибки равна 0,0814. Пятипроцентные доверительные пределы при предположении о нормальном распределении тогда равны:

Полученный интервал значительно уже, чем в

Мы можем не связывать себя требованием о нормальном распределении, если оценим которое зависит от Следующая формула дает приближение для выборок средних объемов:

Таблица 5.2 (см. скан)


где первый член в квадратных скобках предполагает суммирование величин по всем значениям т. е. суммирование величин, лежащих ниже диагонали в табл. 5.2. После ряда утомительных вычислений находим:

Теперь скорректированные -ные пределы из (5.69) будут равны:

Поправка на отсутствие нормального распределения мала и пределы весьма схожи с пределами, приведенными "в

5.26. Расчеты, которые нужно было выполнить в предыдущих примерах, требуют большего терпения, чем то, которым мы обычно обладаем. В [981 исследованы третий и четвертый моменты в ненулевом случае и показано, что последний зависит от 10 параметров, которые могут быть оценены на основе имеющихся данных. Этот результат представляет значительный теоретический интерес, однако затраты труда опять выступают как препятствие, если только расчет не удет осуществляться на быстродействующем компьютере.

У нас осталось еще одна возможность. Если можно предположить, что последовательность основана на переменной, имеющей

нормальное распределение (или, возможно, в качестве приближения, эта переменная имеет распределение, близкое к нормальному), то дисперсия уменьшается весьма значительно. Об этом смотри в 9.6 и следующих параграфах.

«ро» в ненулевом случае

5.27. Как обычно, теория выборки более сложна, чем соответствующая теория, относящаяся к Для ненулевого случая мало что известно о распределении этого коэффициента, помимо того, что мы можем определить выборочное значение равное математическому ожиданию

Рассмотрим функцию V из (2.27):

Значение для любой конкретной пары членов является одинаковым как для выборки, так и для генеральной совокупности — это и служит основной причиной того, что Однако сказанное не относится к сомножителю

Рассмотрим пару членов, имеющих ранги в совокупности, состоящей из единиц. Вероятность попасть в выборку для любого члена этой совокупности Поэтому среднее значение ранга в выборке равно:

Отсюда выборочное среднее значение на единицу больше, чем эта величина, а именно:

Таким образом, среднее значение V определяется формулой

где суммирование производится для всей совокупности по всем парам рангов; последние же могут быть образованы способами.

Отсюда, выражая V через находим:

Теперь определим для нашей совокупности

и, подставляя в (5.74), находим:

общую формулу (см. [20] и [12]).

5.28. Заметим, что для больших это выражение стремится к результату, описанному в [39], а именно:

Таким образом,

Пользуясь статистической терминологией, назовем смещенной оценкой Для некоторых совокупностей это смещение может быть заметным. Вероятно, уместно скорректировать вычитая «выборочное смещение», равное

Библиография

См. библиографию к гл. 4. О распределении в нулевом случае см. [68], [83] и [16]. О среднем значении выборочного коэффициента Спирмэна см. [39], [11], [12] и [20]. Этот результат для выборки из нормальной совокупности получен в [67].

Нормальное распределение в случае, когда имеют место связи, является следствием общего результата, описанного в [39]. Простое доказательство этого не так-то легко получить. Однако для случая, когда связи имеются только в одной последовательности, см. [102] и 159].

<< Предыдущий параграф Следующий параграф >>