Главная > Разное > Статистические выводы и связи, Т.2
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

ГЛАВА 26. СТАТИСТИЧЕСКАЯ ЗАВИСИМОСТЬ: ЛИНЕЙНАЯ РЕГРЕССИЯ И КОРРЕЛЯЦИЯ

26.1 В этой и трех последующих главах мы будем интересоваться теми или иными аспектами зависимостей между двумя или большим числом величин. Ранее уже обсуждались двумерные и многомерные распределения, их моменты и семиинварианты: в частности, исследовались свойства двумерных и многомерных нормальных распределений. Однако систематическое изучение зависимостей между величинами было отложено до завершения изложения теории оценивания и проверки гипотез. Но даже этих четырех глав нам недостаточно, чтобы целиком охватить всю проблему. Поэтому более сложные вопросы, связанные с распределением трех и более величин, мы отложим до третьего тома, где будет рассмотрен многомерный анализ.

26.2 Так как нам предстоит исследовать очень обширную тему, то полезно начать с общего обзора.

Большая часть работы по этой теме возникла в связи с задачей о совместном распределении пары случайных величин; ее можно назвать задачей о статистической зависимости. Существует совершенно отличная область, касающаяся зависимостей строго функционального вида между величинами (как, например, зависимости в классической физике). Указанный вид зависимостей тоже представляет статистический интерес, потому что функционально связанные величины подвержены ошибкам наблюдений или измерений. Назовем это задачей о функциональной зависимости и отложим ее изучение до главы 29. А до тех пор мы будем заниматься только задачей о статистической зависимости, в которой величины (кроме вырожденных случаев) не связаны функционально, хотя могут быть подвержены ошибкам наблюдений и измерений. Мы будем рассматривать их просто как совокупность случайных величин, подчиненных некоторому совместному распределению.

26.3 В самой области статистической зависимости полезно провести дальнейшее различие. Нас может интересовать либо взаимозависимость между несколькими величинами (не обязательно между всеми), либо зависимость одной или большего числа величин от остальных. Например, можно рассмотреть

вопрос, существует ли у людей связь между длиной руки и длиной ноги; при такой постановке это есть задача о взаимозависимости. Но если мы хотим, используя измерения длин ног, получить информацию о длине рук, то мы приходим к задаче о зависимости длины руки от длины ноги. Это пример ситуации, в которой может представлять интерес как взаимозависимость, так и зависимость. С другой стороны, имеются ситуации, в которых интересна только зависимость. Связь между величиной урожая и количеством выпавших осадков представляет собой пример существенной асимметрии. Здесь из внестатических соображений понятно, что дожди влияют на урожай и, совершенно определенно, урожай не воздействует на дожди. Таким образом, мы должны изучать зависимость урожая от дождей.

Не существует четкого различия в статистической терминологии для этих существенно разных типов задач. Например, в главе 27 мы увидим, что если нас интересует взаимозависимость двух величин, когда устранено воздействие остальных величин, то мы используем метод так называемой «частной корреляции». Рассматривая же зависимость единственной величины от группы других, мы применяем «множественную корреляцию». Тем не менее в основном верно, что исследование взаимозависимости приводит к теории корреляции, содержащейся в главах 26, 27, тогда как изучение зависимости ведет к теории регрессии, обсуждаемой в тех же главах, а также в главе 28.

26.4 Прежде чем перейти к изложению теории корреляции (развитой в основном в конце прошлого и в начале этого столетий Карлом Пирсоном и Юлом), которая займет большую часть данной главы, сделаем одно заключительное общее замечание. Статистическая зависимость, как бы ни была она сильна, никогда не может установить причинной связи: наши идеи о причине должны приходить извне статистики, в конечном счете из некоторой другой теории. Даже в простом примере о размере урожая и количестве осадков из 26.3 мы не имеем статистических причин для отказа от идеи зависимости дождей от урожая: отказ сделан на основе совершенно других соображений. И даже если бы дожди и урожай были в полном функциональном соответствии, то мы все равно не подумали бы обратить эту «очевидную» причинную связь. Нам нет нужды углубляться в философское обсуждение этого вопроса; для наших целей необходимо только еще раз подчеркнуть, что статистическая зависимость любого сорта логически не влечет причинной.

Бернард Шоу блестяще сказал об этом в своем предисловии к «Доктору на распутье» (1906): «Даже опытные статистики часто оказываются не в состоянии оценить, до какой степени смысл статистических данных искажается молчаливыми

предположениями их интерпретаторов... Легко доказать, что ношение цилиндров и зонтиков расширяет грудную клетку, удлиняет жизнь и дает относительный иммунитет от болезней... Университетский диплом, ежедневная ванна, обладание тридцатью нарами брюк, знание музыки Вагнера, скамья в церкви — короче, все, что подразумевает большие средства и хорошее воспитание, .. может быть с помощью статистики представлено как магические чары, дарующие привилегии любого сорта. Математик, чьи корреляции привели бы в восхищение Ньютона, может, собирая данные и делая из них выводы, впасть в совершенно грубые ошибки на основе таких же популярных заблуждений, как описанные выше».

Хотя Шоу в данном случае отстаивает характерно сомнительную точку зрения, его логика обоснована. Последователи Карла Пирсона и Юла в первом приступе энтузиазма, порожденного корреляционной техникой, легко делали опрометчивые выводы. Это продолжалось до тех пор, пока (спустя двадцать лет после написанного Шоу) Юл (1926) не напугал статистиков примерами высоких корреляций, которые, очевидно, не выражали причинных связей: например, количество самоубийств за год было сильно коррелировано с принадлежностью к англиканской церкви. Большинство этих «бессмысленных» корреляций действует через сопутствующие изменения во времени. Упомянутые примеры имели благотворный эффект, доводя до сознания статистиков, что причинная зависимость не может быть выведена ни из какого наблюдаемого совместного изменения, даже самого тесного. Теперь, спустя более чем тридцать лет, статистики впали в другую крайность: корреляционный анализ стал совершенно немодным, Имеется, однако, широкое поле приложений (например, социальные науки и психология), где характеры причин еще недостаточно хорошо поняты для того, чтобы корреляционный анализ был заменен более специфическими «структурными» статистическими методами. Есть, кроме того, обширная область многомерного анализа, где вычисление и исследование матрицы коэффициентов корреляции является необходимой прелюдией к детальному статистическому анализу. Все это делает необходимым изучение нашего предмета.

26.5 В главе 1 (таблицы 1.15, 1.23, 1.24) было дано несколько примеров двумерных распределений, возникающих в практике. Таблицы 26.1 и 26.2 содержат еще два примера, которые будут использованы в качестве иллюстраций.

Пока будем рассматривать эти данные как генеральные совокупности, оставляя на дальнейшее вопрос об их выборе. Так же как для одномерных распределений мы строили результирующие константы, такие, как среднее, дисперсия и др., нам

Таблица 26.1 (см. скан) Распределение веса и роста 4995 женщин Великобритании, 1951. (Воспроизведено, по разрешению, из Womens Measurements and Sizes, London, H. M. S. O., 1957)

хотелось бы теперь выразить связь между величинами и, в частности, их взаимозависимость. Результирующие константы для двумерного распределения естественно возникают из следующих рассуждений.

Таблица 26.2 (см. скан) Распределение объема груди и роста для 4995 женщин Великобритании, 1951. (Данные из того же источника, что и таблица 26.1)

Обозначим две случайные величины через х, у. Для любого заданного значения величины х, например X, распределение величины у называется -сечением. Разумеется, у-сечение представляет собой условное распределение у при заданном Это условное распределение имеет среднее, которое обозначим

И которое является функцией от Аналогично, рассматривая х-сечение для находим

Равенства (26.1) и (26.2) определяют линии регрессии (или, короче, регрессии) у по по у соответственно.

В дальнейшем мы не будем использовать заглавную букву для обозначения величины, значение которой фиксировано, если из контекста понятны обозначения

На рис. 26.1 и 26.2, построенных по данным таблиц 26.1 и 26.2, нанесены средние для -сечений (крестики) и для -сечений (кружочки). Линии СС и RR проведены так, чтобы как можно лучше (в смысле наименьших квадратов, см. 26.8)

приблизить средние сечений с помощью прямых линий. Эти диаграммы характеризуют двумерное распределение подобно тому, как среднее характеризует одномерное. Поскольку данные группированы, то у нас есть информация только относительно сечений, соответствующих группированным значениям Мы уславливаемся сопоставлять -сечения центральным значениям х-интервалов, в пределах которых они наблюдались, и аналогично для х-сечений.

Рис. 26.1. Линии регрессии для данных таблицы 26.1.

Рис. 26.2. Линнн регрессии для данных таблицы 26.2.

Непосредственно регрессия будет изучаться в главе 28. Здесь же мы используем понятие линейной регрессии главным образом для того, чтобы ввести некоторую меру взаимозависимости, а именно коэффициент корреляции (смешанный момент). Кроме того, мы воспользуемся случаем дополнить наше изучение двумерного нормального распределения с точки зрения регрессии и корреляции.

<< Предыдущий параграф Следующий параграф >>
Оглавление