Главная > Разное > Статистические выводы и связи, Т.2
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

Урезание и цензурирование

32.15 Прежде чем переходить к каким-либо деталям, мы кратко рассмотрим обстоятельства, при которых могут отсутствовать элементы выборки. Предположим сначала, что основная варианта х просто не может быть наблюдаема в какой-нибудь части или частях ее области значений. Например, если х есть расстояние от центра вертикальной круговой мишени фиксированного радиуса то мы можем наблюдать х только для тех выстрелов, которые попали в мишень. Если мы не знаем количества выстрелов, произведенных по мишени, скажем то нам приходится просто считать значений х, наблюдаемых на мишени, полученными из распределения, сосредоточенного на интервале от до Мы говорим тогда, что распределение х урезано справа в точке Аналогично, если мы определим в этом примере у как расстояние попадания от вертикальной линии, проходящей через центр мищени, то у может

изменяться от до и его распределение дважды урезано. Аналогично, мы можем иметь варианту, урезанную слева (например, если наблюдения, меньшие некоторого значения, не регистрируются). В общем случае варианта может быть многократно урезана одновременно в нескольких частях своей области изменения. Урезанная варианта ничем существенным не отличается от любой другой, но она рассматривается отдельно, так как ее распределение порождается исходной неурезанной случайной величиной, которая может иметь обычный вид. Так, в упражнении 17.26 мы рассматривали распределение Пуассона, урезанное слева, чтобы исключить нулевую частоту.

Тьюки (1949) и У. Смит (1957) показали, что урезание в фиксированных точках не меняет никаких свойств достаточности и полноты, которыми обладает статистика.

32.16 С другой стороны, рассмотрим снова наш пример с мишенью из 32.15, но теперь предположим, что мы знаем, сколько выстрелов было произведено по мишени. Мы по-прежнему наблюдаем лишь значений х, попавших от до включительно, но теперь мы знаем, что, помимо этого, существуют значений х и что эти значения превышают Другими словами, мы наблюдаем первые порядковых статистик в выборке объема Про выборку тогда говорят, что она цензурирована справа в точке (Цензурирование есть свойство выборки, тогда как урезание есть свойство распределения.) Аналогично, мы можем иметь цензуризование слева (например, при измерении реакции на некоторый возбудитель может быть необходима некоторая минимальная реакция для того, чтобы измерение было вообще возможно) и двойное цензурирование, где наименьших и наибольших значений в выборке объема не наблюдаются и для оценки имеются только остальные

Цензурированные выборки различаются следующим образом. В приведенных примерах цензурирование возникало из-за того, что значения варианты попадали за пределы некоторой наблюдаемой области; цензурирование имело место в некоторых фиксированных точках. Это называется цензурированием типа Говорят, что происходит цензурирование типа II, когда фиксированная доля объема выборки цензурируется на нижнем и/или верхнем концах области значений х. На практике цензурирование типа II часто случается, когда наблюдаемая варианта х представляет собой период времени (например, период времени до разрушения изделия, проходящего испытание), а время на эксперимент ограничено. Тогда может быть решено прекращать эксперимент, когда получены первые из наблюдений. Отсюда видно, что цензурирование типа II обычно бывает справа.

С точки зрения теории основное различие между цензурированием типа I и типа II состоит в том, что в первом случае (число наблюдений) есть случайная величина, тогда как в последнем случае оно фиксировано заранее. Соответственно теория цензурирования типа II проще.

Конечно, одностороннее урезание или цензурирование есть лишь частный случай двойного урезания или цензурирования, когда один из концов распределения не ограничивается, в то время как «обычная» ситуация является, так сказать, вдвойне крайним случаем, когда совсем нет никаких ограничений.

32.17 К настоящему времени имеется обширная литература по проблемам урезания и цензурирования. Подробное изложение этого предмета заняло бы слишком много места. Поэтому мы резюмируем результаты в пунктах 32.17-22 и предоставляем читателю, интересующемуся этим предметом, следовать литературным ссылкам. Мы классифицируем задачи оценивания по трем основным группам.

(А) Оценки максимального правдоподобия. Решение любой из задач может быть получено методом максимального правдоподобия; обычно уравнения правдоподобия решаются только итерационными методами. Например, если непрерывная варианта с функцией плотности дважды урезана в известных точках то функция правдоподобия, если сделано наблюдений, равна

причем знаменатель в (32.36) возникает из-за того, что урезанная варианта имеет

Максимум (32.36) может быть найден обычными методами.

Рассмотрим теперь ту же варианту, дважды цензурированную в фиксированных точках так что не наблюдаются наименьших и наибольших элементов выборки. Для этого цензурирования типа I функция правдоподобия равна

и разумеется, являются случайными величинами.

С другой стороны, если имеет место цензурирование типа II с фиксированными то функция правдоподобия равна

(32.37) и (32.38) имеют в точности одинаковую форму. Они отличаются тем, что пределы интегрирования в (32.38) случайны, а в -нет и что случайны в (32.37), а в (32.38) — нет. Однако для данной совокупности наблюдений это формальное сходство позволяет применять одни и те же методы итерации для получения решений максимального правдоподобия. Кроме того, при оба типа цензурирования асимптотически эквивалентны.

Б. Рао (1958а) показал при некоторых условиях регулярности, что цензурирование всегда приводит к потере эффективности оценивания, но что для урезания это может быть и не так. Это справедливо также, когда наблюдения группированы (Сва-ми (1962а)). См. упражнение 32.26.

Гальперин (1952а) показал при условиях регулярности, аналогичных условиям в 18.16 и 18.26, что МП-оценки при цензурировании типа II состоятельны, асимптотически нормальны и эффективны (см. упражнение 32.15).

Хартли (1958) дает общий метод итерационного решения уравнений правдоподобия для неполных данных (включая как урезание, так и цензурирование) из дискретных распределений.

(Б) Несмещенные линейные оценки с минимальной дисперсией. Второй подход состоит в том, чтобы искать линейную функцию от имеющихся в наличии порядковых статистик, которая была бы несмещенной оценкой интересующего нас параметра с минимальной дисперсией. Для этого мы пользуемся методом наименьших квадратов в применении к упорядоченным наблюдениям. Мы уже рассматривали теорию этого в случае, когда имеются все наблюдения, в 19.18-21, и она может быть непосредственно применена к случаю урезания при условии, что вектор математических ожиданий и матрица рассеяния порядковых статистик вычисляются по урезанному распределению, а не по исходному распределению, над которым производилось урезание. Практическая трудность здесь состоит в том, что эта матрица рассеяния зависит от точек урезания так что несмещенная линейная функция с минимальной дисперсией будет меняться при изменении Работ в этой области мало или, может быть, нет совсем, по-видимому, из-за этой трудности.

Когда мы переходим к цензурированным выборкам, эта трудность сохраняется при цензурировании типа I, так как мы не знаем, сколько порядковых статистик окажется в пределах цензурирования Таким образом, оценка должна быть определена отдельно для каждого значения а ее математическое ожидание и дисперсия должны вычисляться по всем возможным и с соответствующей вероятностью для каждой комбинации. Снова мы не знаем случая, когда это было бы проделано. Однако при цензурировании типа II такой проблемы не возникает, так как фиксированы заранее, и мы всегда знаем, какие порядковых статистик имеются в наличии для целей оценивания. Зная их математические ожидания и матрицу рассеяния, мы можем непосредственно применить теорию НК из 19.18-21. Кроме того, математические ожидания и матрицу рассеяния всех порядковых статистик требуется вычислить лишь однажды для каждого Тогда для любых мы можем выбрать математических ожиданий имеющихся наблюдений и подматрицу, являющуюся их матрицей рассеяния.

Чернов и др. (1967) получили общие формулы для того, чтобы линейные комбинации функций от порядковых статистик давали эффективные оценки параметров сдвига и масштаба в цензурированных или нецензурированных выборках.

Рядом авторов были предложены более простые процедуры, чтобы избежать вычислительных сложностей методов МП и НК. Наиболее общие результаты были получены Бломом (1958), который построил «почти» несмещенные «почти» эффективные линейные оценки, и Плэкеттом (1958), который показал, что МП-оценки для параметров сдвига и масштаба асимптотически линейны и что линейные несмещенные МД-оценки асимптотически нормально распределены и эффективны. Таким образом, по крайней мере асимптотически, эти два подхода смыкаются.

Гастверт (1966) исследовал взаимосвязь между линейными несмещенными МД-оценками и соответствующими асимптотически наиболее мощными критериями.

32.18 Мы теперь кратко изложим результаты, имеющиеся для каждого из основных распределений, которые изучались с точки зрения урезания и цензурирования; численные подробности слишком обширны, чтобы приводить их здесь.

Нормальное распределение. Свами (1962b) показал, что урезание всегда снижает эффективность, когда оцениваются и среднее и дисперсия, и (1963) то же происходит обычно, когда наблюдения группированы (см. Гранди (1952)). Для одинарного и двойного урезания оценивание методом МП рассматривалось Коэном (1950а, 1957), где были даны графики, облегчающие итерационное решение уравнений МП; Коэн и Вудворд (1953)

приводят таблицы, а Хальд (1949) и Гальперин (1952b) - графики для МП-оценивания в случае одинарного урезания. Итерационные процедуры МП для случая одинарного и двойного цензурирования типа II даются Хартером и Муром (1966а), где имеется также обзор более ранних работ. МП-оценки имеют тенденцию давать несколько большую точность, особенно когда цензурирование сильно несимметрично, чем несмещенные линейные МД-оценки, изучавшиеся Сарханом и Гринбергом (1956, 1958), чья книга (1962) содержит таблицы коэффициентов этих оценок для всех комбинаций чисел цензурирования когда Линеаризованные МП-оценки, предложенные Плэкеттом (1958), имеют эффективность, всегда не меньшую чем 99,98% при Диксон (1957) показал, что при оценке среднего значения очень простая «обрубленная» оценка

имеет эффективность, всегда не меньшую, чем 99% при и предположительно также при тогда как среднее «двух наилучших» наблюдений (т. е. тех, среднее которых есть несмещенная оценка с минимальной дисперсией) имеет эффективность, медленно убывающую от 86,7% при до своего асимптотического значения 81%. «Двумя наилучшими» наблюдениями являются приближенно (см. упражнение 32.14). Аналогичные простые оценки стандартного отклонения о даются статистиками

с коэффициентами, обеспечивающими несмещенность, где суммирование включает 1, 2, 3 или 4 значения Наилучшая статистика такого типа при оценке всегда имеет эффективность не меньшую 96%.

Диксон (1960) показал, что если с каждой стороны цензурировано по наблюдений, то «винзоризованная» оценка среднего

имеет эффективность По меньшей мере 99,9% по сравнению с несмещенной линейной оценкой с минимальной дисперсией, а

при одностороннем цензурировании наблюдений (скажем, справа) аналогичная оценка

где а выбрано так, чтобы сделать та несмещенной, эффективна по меньшей мере на 96%.

Некоторые общие результаты об эффективности обрубленных и винзоризованных оценок среднего для симметричных и симметричных унимодальных распределений имеются у Бикела (1965).

Уолш (1950а) показал, что оценка процентной точки нормального распределения с помощью подходящей порядковой статистики очень эффективна (хотя эта процедура оценки действительна на самом деле для любой непрерывной при одностороннем цензурировании типа II, когда цензурирована большая часть выборки.

Со (1959) показал, что в выборках с односторонним цензурированием типа II теоретическое среднее может быть оценено с асимптотической эффективностью, не меньшей 94%, посредством линейной комбинации наблюдений, ближайших к точке цензурирования и простого среднего остальных наблюдений, а теоретическое стандартное отклонение оценивается с асимптотической эффективностью 100% с помощью суммы и суммы квадратов остальных наблюдений.. Со приводит таблицы соответствующих весов для Для цензурированиях выборок типа I Со (1961) предложил простые линейные оценки высокой эффективности.

32.19 Экспоненциальное распределение. Распределение , было очень полно изучено с точки зрения урезания и цензурирования, и причина этого — в его важности для изучения долговечности некоторых изделий, в частности электрических и электронных элементов. Очень полная библиография этой области испытаний на долговечность дана Менденхоллом (1958) и дополнена Говиндараджулу (1964).

Оценивание о (с известным методом МП при одностороннем урезании или цензурировании типа I справа рассматривалось Димером и Вотоу (1955) (см. упражнение 32.16). Их результаты обобщались на цензурированные выборки из смесей нескольких экспоненциальных распределений Менденхоллом и Хейдером (1958). Для цензурирования типа II справа МП-оценка для о дана Эпстейном и Собелом (1953), и оценка, являющаяся также несмещенной линейной МД-оценкой, — Сарханом (1955) (см. упражнения 32.17, 32.18).

Сархан и Гринберг (1957) приводят для объемов выборки до 10 таблицы коэффициентов несмещенных линейных оценок с минимальной дисперсией для отдельно и для совместно для всех комбинаций цензурирования типа II на краях. Несмещенные оценки с минимальной дисперсией, основанные на одной или двух порядковых статистиках, даются Хартером (1961b), Сарханом и др. (1963) и Сиддики (1963); такие же оценки, основанные на трех, четырех и пяти порядковых статистиках, — Куллдорфом (1963), где приводится и некоторая общая теория. См. также Лорент (1963). Салех (1966) получил оценки, основанные на порядковых статистиках.

32.20 Распределение Пуассона. Коэн (1954) дает МП-оценки и их асимптотические дисперсии для однократно и двукратно урезанных и (типа I) цензурированных выборок из распределения Пуассона и обсуждает ранние, менее общие, работы, относящиеся к этому распределению. Коэн (1960b) приводит таблицы и график для оценки методом МП, когда урезаются нулевые значения. Тейт и Гоэн (1958) получают несмещенную МД-оценку, когда урезание производится слева, и в частном случае, когда урезаны только нулевые значения, сравнивают ее с МП-оценкой (смещенной) и простой несмещенной оценкой, предложенной Плэкеттом (1953) (см. упражнения 32.20, 32.22-32.24).

Коэн (1960а) рассматривает МП-оценку пуассоновского параметра и параметра когда доля наблюденных значений «1» ошибочно классифицирована как «0», и тот же автор (1960с) дает процедуру МП-оценивания, когда нулевые значения и (ошибочно) часть значений «1» урезаны.

32.21 Другие распределения. Для гамма-распределения с тремя параметрами

Чепмэн (1956) рассматривает урезание справа и предлагает упрощенные оценки для при известном и для совместно. Коэн (1950b) рассматривал оценивание методом моментов в случае урезания. Радж (1953) и Ден Бродер (1955) рассматривали случаи цензурирования и урезания; последняя касается оценки параметра при урезании на каждом хвосте распределения. Уилк и др. (1962) дают МП-оценки для при известном и для совместно в случае цензурирования типа II справа.

Сархан и Гринберг (1959) рассматривают несмещенные линейные МД-оценки для равномерных распределений (см. упражнение 32.25). Даунтон (1966) рассматривает распределение экстремальных значений, приведенное в упражнении 18.6. Говиндараджулу (1966) делает то же самое для симметрично

цензурированного двойного экспоненциального распределения. Финни (1949а), Райдер (1955), Сэмпфорд (1955), Уилкинсон (1961) и Шах (1961) рассматривают однократно урезанные биномиальное и отрицательное биномиальное распределения. Шах (1961) рассматривает дважды урезанное биномиальное распределение.

Хартер и Мур (1966b) рассматривают локальное МП-оценивание для цензурированных выборок из трехпараметрического логнормального распределения (с неизвестной начальной точкой); прямая МП-оценка бесконечна (см. упражнение 18.23).

<< Предыдущий параграф Следующий параграф >>
Оглавление