Главная > Разное > Статистические выводы и связи, Т.2
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

Выбор «оптимальных» меток: канонический анализ

33.44 Можно, однако, подойти к задаче введения меток для категорий таблицы (не обязательно упорядоченной) с совсем другой точки зрения. Мы можем поставить вопрос: какие метки надо сопоставить категориям, чтобы коэффициент корреляции между двумя переменными был максимальным? Оказывается, причем довольно неожиданно, что такие «оптимальные» метки тесно связаны с преобразованием частот таблицы в частоты двумерного нормального распределения. Сначала мы докажем одну теорему (Лэнкастер (1957)) для несгруппированных наблюдений.

Пусть х и у имеют двумерное нормальное распределение с коэффициентом корреляции Пусть новые переменные, зависящие соответственно только от х и только от у, для которых конечны. Тогда справедливо представление

где полиномы Чебышева — Эрмита, определенные формулами (6.21) и нормированные условием

Ряд сходится. Так как коэффициент корреляции не меняется при изменениях положения и масштаба, то можно положить и написать аналогично, соответствии с 6.14 полином равен коэффициенту при в разложении Поскольку математическое ожидание равно то мы получим

где плотность двумерного нормального распределения. Дисперсии х и у в силу ортогональности равны единице, так что коэффициент корреляции равен

Он меньше, чем за исключением случая Остальные при этом обращаются в нуль. Таким образом, максимум корреляции между х и у равен и теорема Лэнкастера формулируется следующим образом: если двумерное распределение может быть получено из двумерного нормального распределения с помощью преобразований х и у (каждого отдельно), то корреляция преобразованного распределения не может по абсолютной величине превзойти корреляции двумерного нормального распределения.

33.45 Предположим, что мы ищем теперь вторую такую пару преобразований х и у, скажем и Если потребовать, чтобы и были нормированы и некоррелированы с первой парой то из ортогональности разложений Чебышева — Эрмита будет следовать, что Таким образом, мы получим аналогично (33.84),

(33.85) достигает максимума по абсолютной величине, только когда все другие равны 0. В этом случае корреляция равна Можно перейти к следующим парам переменных получая максимальные корреляции

Преобразованные пары переменных называются каноническими переменными. Мы показали, что пара канонических переменных имеет каноническую корреляцию Из нашего доказательства ясно, что сами канонические переменные являются просто формами Чебышева — Эрмита от двумерных нормальных переменных т. е.

Лэнкастер (1958) развивает дальше этот подход.

33.46 Результаты пунктов применимы к несгруппированным значениям двумерного распределения. На практике, имея выборку в виде упорядоченной таблицы не представляет труда найти такие преобразования каждой из переменных, которые привели бы к одномерным нормальным маргинальным распределениям, — именно это предлагалось в 33.42. Однако лишь по счастливой случайности эти преобразования могут дать двумерные нормальные частоты в самой таблице. Все

же теоретический смысл полученного результата ясен: стараясь найти системы меток для каждой из категоризованных переменных, максимизирующие их корреляцию, мы, по существу, стараемся получить двумерное нормальное распределение, оперируя только маргинальными частотами таблицы.

33.47 Предположим, что мы сопоставили категориям таблицы с метки Не теряя общности, можно считать их нормированными (нулевое среднее, единичная дисперсия). Мы имеем тогда

Требуется максимизировать (33.88) по при условии (33.87). Вводя неопределенные множители Лагранжа, мы получим систему уравнений

Умножая (33.89) на и суммируя по получаем где корреляция, которую мы ищем. Аналогично находим, что следовательно, в силу (33.89), (33.90) приходим к системе

Исключение приводит к детерминантному уравнению, которое символически может быть записано в виде

Мы вернемся к этому уравнению при изучении канонических корреляций в томе 3. Здесь достаточно лишь отметить, что можно выразить через частоты таблицы. Действительно, (33.92) есть уравнение относительно с несколькими корнями. В общем случае имеется ненулевых корней, один из которых всегда равен единице и который для нас не интересен. Остальные корней называются каноническими корреляциями. Число ненулевых канонических корреляций не может

быть больше поскольку ранг матрицы частот не превышает Нам нужен наибольший корень Остальные с точностью до выборочных флуктуаций являются, как мы видели в 33.45, степенями наибольшего корня.

33.48 Из (33.92) следует, что если канонические корреляции (корни (33.92)) равны то

В пределе, при стремлении к бесконечности и измельчении категорий таблицы в силу 33.44-45 сводится к тетрахорическому ряду

где - плотность двумерного нормального распределения. Формула (33.94) является просто другой записью формулы (26.66), которая отличается только множителем в знаменателе, поскольку в не были нормированы.

33.49 Вычислив с помощью (33.92) наибольшую каноническую корреляцию можно сразу найти «оптимальные» наборы меток, приводящие к этой корреляции. Вероятно, это легче всего сделать, обращаясь к (33.91). Если умножить в (33.91) второе уравнение на и просуммировать по то оно примет вид

Это можно переписать в виде

откуда ясно, что квадраты канонических корреляций служат характеристическими корнями -матрицы где матрица с элементами Действительно, (33.96) в матричной форме имеет вид

где вектор-столбец размерности с компонентами

Так как ранг а следовательно и не превосходит то имеет в общем случае ненулевых корней, как и утверждалось в 33.47. Легко проверить, что всегда является корнем. Соответствующий собственный вектор и имеет

компоненты (пр.), т. е. для этого корня Оставляя в стороне этот корень, не имеющий отношения к задаче измерения связи, мы рассмотрим наибольший характеристический корень определяемый из (33.97). Соответствующий ему собственный вектор дает набор меток для первой канонической переменной х. Аналогично, метки для первой канонической переменной у даются собственным вектором получаемым из соотношения

где вектор-столбец размерности с с элементами Ненулевые характеристические корни матрицы конечно, совпадают с корнями т. е. равны квадратам канонических корреляций. Нет необходимости, однако, решать как (33,97), так и (33.98), достаточно решить одну из этих систем (естественно выбрать ту, которая имеет меньший порядок, например если а затем найти другой набор меток с помощью системы (33.91), которую мы перепишем в виде

Пример 33.10

Применим канонический анализ к данным примера 33.8. Перепишем сначала таблицу, заменив маргинальные частоты их квадратными корнями:

(см. скан)

Построим теперь матрицу деля на произведение соответствующих маргинальных квадратных корней, например, Получим

В данном случае так что безразлично, работаем мы с или Мы найдем

Вспомним, что сумма характеристических корней равна следу матрицы, так что если след матрицы ненамного превышает 1, то наибольшая каноническая корреляция должна быть мала. Это служит хорошей предварительной проверкой. Здесь след больше 2, так что вполне может быть порядка 1.

Найдем теперь характеристические корни. Для этого надо решить характеристическое уравнение

Вычитая из каждого диагонального элемента и расписывая определитель получившейся матрицы, получаем уравнение четвертой степени

Поскольку один корень этого уравнения равен единице, в левой части можно выделить множитель :

Мы пришли к кубическому уравнению, которое решается стандартными методами. Его корни дают квадраты канонических корреляций

Заметим, что значение ненамного больше значения 0,69, полученного при использовании натуральных чисел и нормальных меток в примере 33.9.

Найдем теперь собственные векторы, соответствующие Я]. Сначала решим систему уравнений для получения компонент

Разделив затем компоненты вектора на мы найдем канонический набор меток для категорий, соответствующих строкам:

Канонические метки для у получаются с помощью (33.99). Так, например,

Отсюда находим набор меток

Наборы меток (33.104) и (33.105), взвешенные в соответствии с частотами по строкам или столбцам, дают нулевые средние, однако их дисперсии не равны единице, так как характеристические векторы определяются с точностью до произвольной масштабной константы.

33.50 Вспомним теперь интерпретацию теоремы Лэнкастера в 33.46: выбор меток, которые приводят к максимальной корреляции между категоризованными переменными, по существу эквивалентен преобразованию маргинальных частот таблицы к одномерной нормальности с намерением получить двумерную нормальность в таблице. Интересно в связи с этим использовать для обработки данных примера 33.10 нормальную систему меток, описанную в 33.42. Мы тогда сможем увидеть, насколько хорошо согласуются метки, полученные для категорий, с каноническими метками в примере 33.10.

Пример 33.11

В примере 33.8 мы имеем следующие две совокупности относительных маргинальных частот (в скобках даны соответствующие интервалы изменения стандартной нормальной

случайной величины, полученные из Biometrika Tables)

(см. скан)

Среднее значение стандартной нормальной случайной величины в интервале имеющем вероятность равно

Мы пренебрегаем множителем поскольку нам нужна только корреляция, а она не зависит от масштабного множителя. С помощью четырехзначных таблиц логарифмов находим следующие значения меток:

(см. скан)

В отличие от примера 33.10, полученные значения не будут точно нормированными, даже если учесть отброшенный множитель поскольку в результате усреднения по интервалам стандартного нормального распределения возникает эффект группировки. Мы получаем следующие значения для сумм и сумм квадратов (взвешенных, конечно, в соответствии с маргинальными частотами):

Вычитание среднего и деление на стандартное отклонение приводит к следующим значениям меток:

Значения (33.108) довольно плохо согласуются с (33.104), (33.105).

Таким образом, метод, использованный в этом примере, дает лишь грубое приближение к канонической системе меток.

<< Предыдущий параграф Следующий параграф >>
Оглавление