Главная > Разное > Статистические выводы и связи, Т.2
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

Доверительные интервалы для больших выборок

20.10 Мы видели в 18.16, что первая производная логарифма функции правдоподобия, при условиях регулярности, распределена асимптотически нормально со средним, равным нулю, и

Используя этот факт, можно находить доверительные интервалы для в случае больших выборок. Обозначим

так что является, при больших выборках, стандартной нормальной случайной величиной. Если — монотонная функция от 0, так что неравенство для одной величины можно преобразовать в неравенство для другой, то из нормального интеграла можно определить доверительные границы для 0. Следующий пример иллюстрирует эту процедуру.

Пример 20.3

Рассмотрим вновь задачу из примера 20.1. Мы видели в примере 17.6, что для этого случая

откуда

Из (20.7) и (20.8) находим, что при больших величина

имеет нормальное распределение с единичной дисперсией (конечно, в нашем частном случае это верно для любых Доверительные границы для могут быть затем найдены так же, как в примере 20.1.

Пример 20.4

Рассмотрим распределение Пуассона, общий член которого есть

В примере 17.8 мы видели, что

Следовательно,

и

Таким образом, из (20.7) и (20.8) имеем

Например, при что соответствует нормальному уклонению ±1,96, для центральных доверительных границ находим

Отсюда для нахождения получаем уравнение

из которого

причем знаки плюс и минус перед квадратным корнем дают верхнюю и нижнюю границы соответственно.

С точностью до членов порядка это решение эквивалентно

в этом случае, как и следовало ожидать, верхняя и нижняя границы равно отстоят от среднего х.

20.11 Процедура, использованная для получения (20.15), требует некоторых дальнейших исследований. Если мы имеем вероятности типа

то их можно немедленно «обратить» и получить

Но может встретиться более сложная форма зависимости, такая, как

где есть, например, полином относительно либо либо сразу относительно обеих переменных, степени выше первой. Задача преобразования такого выражения в выражение, имеющее вид интервала для 0, может быть далеко не простой. Рассмотрим еще раз (20.14) в форме

Возьмем коэффициент доверия , и пусть соответствующие значения равны т. е.

Уравнение (20.16) может быть переписано так:

и если интервалы для являются центральными, т. е. то уравнение (20.18) будет иметь одни и те же корни при и при Кроме того, корни всегда действительны. Пусть корни уравнения с и пусть больший. Тогда при изменении от до как видно из (20.18), изменяется от до когда пробегает значения от то (убывая) пробегает значения от до и когда изменяется от до изменяется от до Таким образом, соотношение

эквивалентно соотношению

и наши доверительные интервалы имеют требуемый вид.

Полезно рассмотреть это графически, как показано на рис. 20.3.

Из (20.16) видно, что при заданных и кривая, связывающая (ординату) и (абсциссу), может быть представлена в виде

где положительная постоянная. При различных это параболы, проходящие через начало координат и имеющие главную ось Линия соответствует или а две другие кривые (без масштаба) приведены для значений Из проведенных выше рассуждений следует, что при заданном значения X, соответствующие значениям лежащим внутри интервала от до лежат внутри соответствующей параболы. Очевидно также, что парабола для лежит целиком внутри параболы для любого меньшего

Рис. 20.3. Доверительные параболы (20.19) для различных или

Итак, при любом данном х можно определить ординаты для двух соответствующих значений к и утверждать, что неизвестный параметр X лежит между ними. Доверительные линии на рис. 20.3 являются выпуклыми и вложенными, как и доверительные линии для биномиального распределения в примере 20.2.

20.12 Рассмотрим теперь более сложный случай. Предположим, что мы имеем статистику с помощью которой можем найти границы не зависящие от в, при заданном коэффициенте доверия . И пусть

где а, Ь, с, d - константы. Иногда, но не всегда, будут существовать три действительных значения 6, соответствующих одному значению Как ими пользоваться, чтобы определить границы для ?

Обратимся к графическому представлению. На рис. 20.4 (вновь без масштаба) мы считаем ординатой, абсциссой.

Пусть константы таковы, что кривая третьего порядка имеет действительные максимум и минимум, как это показано на рисунке. Для различных значений кривая (20.20) перемещается вдоль оси Чтобы избежать путаницы, предположим, что приведены линии только для одного значения Пусть также

При данном значении например получим кривую третьего порядка, как показано на рисунке, такую, что в области справа от нее а слева Аналогично при . С соответствующим коэффициентом доверия можно теперь сказать, что для наблюденного границы для получаются путем чтения по вертикали вдоль оси ординат в точке

Здесь начинаются трудности. Если мы берем такое значение, как на рисунке вдоль то должны утверждать, что лежит в разорванном интервале . С другой стороны, на получается односвязный промежуток

Рис. 20.4. Доверительные кривые третьего порядка (см. текст).

Для любителя патологической математики не составит труда построение дальнейших примеров, в которых интервалы разбиты на еще большее число частей или в которых мы должны утверждать, что параметр лежит вне замкнутого интервала. (Некоторые важные примеры см. в работах Филлера (1954) и С. Дэвида (1954).) См. также упражнение 28.21 ниже.

20.13 Следует заметить, что в таких случаях утверждения относительно интервалов могут быть сделаны с прежней точностью. Вопрос в том, есть ли от них польза и дают ли они решение задачи, с которой мы начали, состоящей в том, чтобы установить окрестность для значения параметра. Можно ли считать их доверительными интервалами или они уже не могут так называться?

Нельзя дать простого ответа на подобные вопросы, но мы постараемся изложить наше собственное мнение на эту тему.

(а) Наиболее удовлетворительна та ситуация, при которой доверительные линии монотонны, т. е. любая прямая, параллельная оси ординат, пересекает каждую линию только в одной точке. Тогда мы получаем утверждение, что параметр лежит внутри односвязного интервала. Далее желательно, чтобы при фиксированном а доверительная полоса для любого лежала внутри полосы для меньшего и чтобы при фиксированном полоса

для любого лежала внутри полосы для большего . Эти условия выполнены в примерах 20.1-20.4.

(б) Случай, где эти условия не выполняются, должен быть рассмотрен по существу дела. Могут быть примеры, в которых появляются неодносвязные интервалы, такие, как на рис. 20.4, и они оказываются приемлемыми. Там, где это возможно, доверительные области должны быть представлены графически. Нужно избегать механического «обращения» вероятностных утверждений, не принимающего во внимание эти моменты.

20.14 Мы можем на данном этапе отметить трудности другого сорта. Когда рассматривалось квадратное уравнение (20.18), то было отмечено, что в условиях задачи корни всегда действительные. Однако может случиться, что для некоторых коэффициентов доверия невозможно построить действительные доверительные интервалы. Продемонстрируем это на следующем примере.

Пример 20.5

Если выборка объема из нормальной совокупности с единичной дисперсией и средним то статистика имеет распределение хи-квадрат с степенями свободы. Для выбранного доверительного коэффициента можно определить и (для упрощения изложения можно строить центральный интервал) такие, что

Если то имеем тождество следовательно, границы для имеют вид

Может случиться, что больше, чем Тогда (поскольку неравенство (20.22) утверждает, что лежит между двумя отрицательными величинами. Что можно сделать с таким утверждением?

Дело станет яснее, если вновь обратиться к геометрической интерпретации. Так как теперь зависит от двух статистик, (которые независимы), то нам для изображения нужны три измерения, соответствующие Рис. 20.5 дает геометрическое представление.

Величина постоянна на поверхностях Для фиксированного (т. е. в плоскости, перпендикулярной оси эти поверхности пересекают плоскость по окружностям с центром в точке Все эти центры лежат в

плоскости на прямой с уравнением а поверхности с постоянной величиной являются цилиндрами, имеющими эту прямую своей осью (они не являются круговыми цилиндрами; только сечения, перпендикулярные к оси являются кругами).

Кроме того, цилиндр для полностью заключает в себе цилиндр для как это представлено на рисунке. При данных наблюденных значениях проведем прямую, параллельную оси Если она пересекает каждый цилиндр в двух точках: для для то мы утверждаем, что (эти два интервала соответствуют двум знакам при извлечении квадратного корня в (20.22)).

Рис. 20.5. Доверительные цилиндры (20.22) (см. текст).

Существенным моментом в настоящем примере является то, что проведенная прямая может вообще не пересекать цилиндров. Тогда корни для в (20.22) будут мнимыми. Такая ситуация, не может возникнуть, к примеру, в биномиальном случае примера 20.2, где каждая прямая, параллельная оси со в интервале должна пересечь доверительную полосу. Так обычно бывает, когда параметр имеет единственную достаточную статистику с помощью которой строятся интервалы (хотя при этом возможны трудности с обращением неравенств типа рассмотренных в 20.11-13). Но этого уже может не произойти, когда мы используем более чем одну статистику и имеем дело более чем с двумя измерениями, как это было в рассмотренном примере.

В таких случаях, как нам кажется, мы должны признать, что перед нами неразрешимая задача. Используя эти конкретные статистики, мы хотим высказать с коэффициентом доверия утверждение, которое имело бы силу для всех наблюденных Этого сделать нельзя. Это возможно только для определенных множеств значений а именно для таких, при которых границы в (20.22) положительны. При определенных значениях мы можем снизить наш доверительный уровень, увеличить радиусы цилиндров и обеспечить, чтобы линия, проходящая через пересекала цилиндры. Но, каким бы низким мы ни

брали уровень, всегда может появиться выборка, для которой таким путем нельзя установить границы для

В настоящем примере ясно, как поправить дело. Мы выбрали неверный метод построения доверительных интервалов; в самом деле, если воспользоваться методом из примера 20.1 и установить границы для с помощью нормального распределения, то трудности не возникнет. В этом случае х есть достаточная статистика для . В общем случае, когда не существует одномерной достаточной статистики, может оказаться, что трудности избежать нельзя, и ее нужно принять открыто, если и не так, как мы предлагаем, то любым другим столь же явным образом.

20.15 Мы возвращаемся к аппроксимации доверительных интервалов (для большой выборки), которую обсуждали в 20.10. Если мы получаем недостаточную точность приближения, считая, что распределена нормально для выборки объема с которой мы имеем дело, то может быть получена более точная аппроксимация. Для этого найдем высшие моменты величины и воспользуемся разложением типа Корниша — Фишера Используя (17.19), запишем

Из (17.18) при условиях регулярности получаем

откуда

Теперь докажем, что

Действительно, дифференцируя имеем

а дифференцируя равенство получаем

Исключая из (20.29) и (20.30), приходим к (20.27).

Дифференцируя дважды оба соотношения для I, данные в (20.23), и исключая находим

Используя соотношение

и переходя к семиинвариантам, приходим к (20.28). Эти формулы принадлежат Бартлетту (1953).

Беря первые четыре члена в (6.54) с получаем статистику

которая распределена (в следующем порядке аппроксимации) нормально со средним нуль и единичной дисперсией. Первый член в этой формуле мы обозначили Поправочный член включает в себя нормированные семиинварианты величины или, что эквивалентно, семиинварианты величины

Пример 20.6

Рассмотрим задачу построения доверительных границ для дисперсии нормальной совокупности. Как известно, распределение выборочной дисперсии асимметрично, и мы можем сравнить точные результаты с даваемыми рассмотренной выше аппроксимацией.

Если определить

то известно, что для выборки объема величина имеет распределение типа III, иными словами, подчиняется -распределению с степенями свободы.

Таким образом, для выборки объема 10 получаем (поскольку верхняя и нижняя -процентные точки для равны соответственно 3,3251 и 16,9190)

Обращение этих неравенств дает

Например, при доверительными границами служат 0,5911 и 3,001.

Беря находим

откуда убеждаемся, что, как и требовалось,

Согласно примеру 17.10

и, следовательно,

Дифференцируя (20.33) дважды и беря математическое ожидание, находим

Таким образом, из (20.27), (20.36) и (20.37) имеем

Беря разложение (20.31) только до получаем

Заменим на величину имеющую то же самое среднее значение. Тогда

Первый член дает нам доверительные границы для 0, осно-» ванные только на Два других являются поправочными членами более высокого порядка малости по Из (20.40) приближенно имеем

откуда

Например, если -процентные точки стандартного нормального распределения), то мы находим для границы 0,3403 и 1,6644, откуда для получаем границы 0,6008 и 2,939. Истинные значения, как мы знаем по (20.32), равны 0,5911 и 3,001. Для столь малого объема выборки, как приближение кажется очень хорошим.

<< Предыдущий параграф Следующий параграф >>
Оглавление