Главная > Разное > Статистические выводы и связи, Т.2
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

Вычисление коэффициентов

26.11 Из (26.10), (26.11) и (26.16) видно, что для вычисления коэффициентов регрессии и корреляции требуется знать две дисперсии и ковариацию . В 2.19 и в примере 2.7 мы уже обсуждали, как вычислять дисперсии. Ковариация вычисляется аналогично, с использованием тождества, установленного в (26.3),

Ради удобства мы часто берем произвольные начала координат для х и у соответственно. Тогда тождественно по a и b

Иными словами, ковариация инвариантна при изменении начала координат, так как она является смешанным центральным моментом. Соотношение (26.21) выполняется, если положить при этом оно переходит в выражение (2.21) для вычисления дисперсий. Обычно бывает удобно брать произвольную единицу измерения их для и другую произвольную единицу для у. Легко видеть, что это преобразование равносильно делению на на на Таким образом, будет умножаться на на а не меняется при изменении масштабов.

Итак, а следовательно, и не меняются при изменениях начала координат. Если для вычислительных целей вводятся различные масштабные множители, то должны умножаться на соответствующие отношения; если для обеих переменных используется один и тот же масштабный множитель, то не изменяются. Коэффициент не изменяется при любом изменении масштаба.

Пример 26.6. Вычисление коэффициентов для группированных данных

Для группированных данных, таких, как в таблице 26.1, примем ширину группы по каждой переменной за единицу для этой переменной (если по какой-то переменной группы имеют неодинаковые размеры, то возьмем из них наименьший). Выберем

также начало координат для каждой переменной где-нибудь возле среднего, оцененного на глаз. Так, мы примем за начало координат по х в таблице 26.1 точку 64, центр модальной частотной группы, относительно которого маргинальное распределение величины х близко к симметричному; начало координат для у поместим в 134,5, поскольку для такого скошенного маргинального распределения, как распределение величины у, среднее должно лежать заметно выше модальной частотной группы (122,5). Размеры групп (2 и 6) принимаем за единицы измерений. Сумма произведений 2 вычисляется умножением каждой частоты по очереди на ее «координаты» в таблице, взятые в выбранных нами единицах. Например, частота 4, для которой умножается на так что ее вклад в сумму равен —32. Получаем

откуда

и, следовательно, 4

Уравнения (приближенных) линейных регрессий имеют вид по

или

или

Эти линии изображены на рис. 26.1 (стр. 378) как RR и СС соответственно.

Пример 26.7. Вычисление коэффициентов для негруппированных данных

В таблице 26.3 приведены данные о размерах урожаев пшеницы и картофеля по 48 графствам Англии в 1936 г. При негруппированных данных, таких, как эти, выбор некоторых новых начал координат и единиц измерений редко бывает удобным для

Таблица 26.3 (см. скан) Размеры урожаев пшеницы и картофеля по 48 графствам Англии в 1935 г.

вычислений. Поэтому, используя обычные начала координат и единицы измерений, находим

Следовательно, уравнения линий регрессии (приближенных) имеют вид

Данные и прямые регрессии изображены на рис. 26.3, причем каждая точка на диаграмме соответствует паре (Диаграмма, подобная приведенной, на которую нанесены все точки, называется диаграммой разброса, пользоваться ею мы очень рекомендуем, так как на ней можно быстро и просто увидеть, насколько хорошо соответствуют данным подгоняемые прямые регрессии (в нашем примере соответствие не очень хорошее).

Рис. 26.3. Данные таблицы 26.3 с линиями регрессии.

Действительно, диаграмма разброса, построенная заранее, до анализа, может дать ответ на вопрос, стоит ли вообще заниматься подгонкой линий регрессии.

<< Предыдущий параграф Следующий параграф >>
Оглавление