Главная > Математика > Статистический анализ данных с пропусками
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

4.5. МЕТОДЫ ЗАПОЛНЕНИЯ ПРОПУСКОВ

4.5.1. Введение

Теперь в общих словах мы обсудим методы заполнения пропущенных значений. Они относятся к уже рассмотренным в разделе 3.4 быстрым методам. Перечислим основные методы заполнения в выборочных обследованиях.

а) Заполнение средними по присутствующим значениям в выборке. Этот метод был изложен в разделах 3.4.2 и 3.4.3. Средние могут формироваться и внутри групп аналогично группам, образуемым для взвешивающих процедур. При таком подходе заполнение средними ведет к оценкам, сходным с оценками методами взвешивания при условии постоянства выборочных весов в классах взвешивания.

б) Процедуру заполнения пропусков с (пристрастным) подбором можно, в общем, описать как метод, при котором подстановка выбирается для каждого пропущенного значения по оценке распределения в отличие от заполнения пропусков средними, когда подставляется среднее распределения. В большинстве приложений эмпирическое распределение задается присутствующими значениями, поэтому при заполнении с подбором подставляются различные значения из данных для сходных объектов без пропусков. Заполнение с подбором широко распространено. Оно может включать очень сложные схемы отбора объектов. Хотя практика подтвердила достоинства этого метода, литературы, посвященной его теоретическим свойствам, явно недостаточно. Читателю можно рекомендовать работы [Ernst (1980); Kalton and Kish (1981); Ford (1983)]. Ссылки на последние публикации содержатся в [David, Little, Samuhel and Triest (1986)].

в) Замена — метод обработки пропусков на этапе сбора данных при обследовании. Он состоит в замене объекта с отсутствием ответа на другой объект, не включенный в выборку. Например, если невозможен опрос домовладельца, то можно опросить его соседа, не включенного в списки опрашиваемых. Было бы неверно рассматривать получаемую таким образом выборку как полную, поскольку те, кто дает ответы, могут систематически отличаться от тех, кого не удается опросить. Поэтому при анализе следует рассматривать эту замену как заполнение определенного вида.

г) Заполнение без подбора (cold deck imputation). Пропуск заполняется постоянным значением из внешнего источника, например значением предыдущего наблюдения из этого же обследования. Как и при замене, полученные данные принято рассматривать как полную выборку, т. е. последствия заполнения игнорируют. Удовлетворительной теории анализа данных, полученных при заполнении без подбора, не существует.

д) Заполнение по регрессии (см. также раздел 3.4.3) состоит в заполнении пропусков значениями, предсказываемыми регрессией пропущенных для данного объекта переменных на присутствующие, вычисляемой обычно по комплектным объектам. Заполнение средними можно рассматривать как частный случай заполнения по регрессии, если считать предикторами фиктивные переменные, указывающие группу, внутри которой происходит подстановка средних. Регрессионное заполнение является, по существу, модельным методом. Более подробно оно будет рассмотрено в гл. 12.

е) Стохастическое заполнение по регрессии основано на замене пропуска значением, подставляемым при заполнении по регрессии, в сумме с остатком, отражающим неопределенность предсказываемого значения. При нормальной линейной регрессионной модели естественны нормальные остатки с нулевым средним и дисперсией, равной остаточной дисперсии регрессии. При бинарной переменной, как в логистической регрессии, предсказываемое значение — вероятность наблюдения 1 или 0, а подставляемые значения (1 или 0) выбираются с этой вероятностью. Херцог и Рубин [см. Herzog and Rubin (1983)] описывают двухэтапную процедуру, при которой используется стохастическая регрессия для нормальных и бинарных данных. Стохастическая регрессия также относится к модельному подходу и поэтому будет обсуждаться в гл. 12.

ж) Составные методы основаны на идеях нескольких методов. Например, можно объединить заполнение с подбором и заполнение по регрессии, вычисляя предсказываемое регрессией значение и добавляя затем остаток, случайно выбираемый из эмпирических остатков для предсказанных величин при формировании значений для подстановки (см., например, гибридную двухшаговую процедуру, приписываемую Шойрену в работе [Schieber (1978)]). В [David, Little, Samuhel and Triest (1986)] проводится сравнение составных методов и подстановки с подбором при пропусках величины заработка в текущем обследовании населения (Current Population Survey).

з) При методах многократного заполнения [см. Rubin (1978), (1987)] пропуск заполняется несколькими значениями. Существенный недостаток методов однократного заполнения заключается в том, что обычные формулы приводят для заполненных данных к систематически заниженным оценкам дисперсии оценок, даже если верна модель, применяемая для вычисления подставляемых значений. При многократном заполнении получаются правильные оценки дисперсии, которые можно получать обычными методами анализа полных данных. Методы многократного заполнения обсуждаются в гл. 12.

4.5.2. Заполнение средними

Пусть значение У для объекта в группе При заполнении средними для объектов выборки, не давших ответ, подставляется среднее по ответившим в группе. Для равновероятного плана среднее популяции У можно оценить средним присутствующих и подставленных значений, а именно

где среднее присутствующих и подставленных значений в группе. Теперь

так что получаемая оценка просто оценка с взвешиванием групп (4.10). Если в популяции известна доля каждой группы, то оценку пострасслоения также можно вывести как оценку, основанную на заполнении средними.

Мы показали, что для планов с равными весами взвешивание объектов, дающих ответ, по доле отвечающих в каждой группе позволяет получить такие же оценки средних и сумм, как подстановка средних по отвечающим для объектов, не дающих ответ. Это замечание относится и к неравновероятным планам при условии, что выборочные веса отражаются в оценках доли отвечающих и в подставляемых средних. Связи между заполнением пропусков и взвешиванием групп рассматриваются в [Oh and Scheuren (1983); David, Little, Samuhel and Triest (1983); Little (1986)].

Метод заполнения средними реализуется просто, но он обладает нежелательными свойствами, указанными в разделе 3.4.2. Во-первых, правильные оценки дисперсий нельзя получить с помощью обычных формул для дисперсии, примененных к заполненным данным. Реально объем выборки занижен из-за отсутствия ответов, поэтому обычные формулы приводят к заниженной оценке истинной дисперсии. Во-вторых, величины, не линейные по данным, такие, как дисперсия или корреляция между двумя переменными, нельзя состоятельно оценить с помощью стандартных методов для полных данных, если их применить к заполненным данным. -третьих, подстановка средних искажает эмпирическое распределение значений Y, что важно при исследовании распределения по гистограммам или по другим графикам, отображающим данные. Аналогичная проблема возникает, если значения объединены в группы для образования частотной таблицы, потому что пропуски в группах заполняются общим средним значением и, следовательно, относятся в результате к одной и той же группе Эта проблема побуждает искать распределенные значения для пропусков, используя методы их заполнения типа подстановки с подбором. Обратимся теперь к этому методу.

4.5.3. Подстановка с подбором

При большинстве методов подстановки с подбором (этот термин пока не стал общепринятым) пропуски заполняются значениями, полученными для другого сходного объекта выборки. Допустим, как и ранее, что извлечена выборка объема из объектов, и из объектов выборки зарегистрированы значения Y, где считаются в этом разделе фиксированными. Для простоты пронумеруем объекты так, что первые объектов находятся в выборке, и первые из них дали ответ. При равновероятной схеме выбора среднее можно оценить как среднее по имеющимся и по подставленным значениям, что можно записать в виде

где среднее по ответившим, и

где кратность, с которой у, использовалось для подстановки вместо пропуска Заметим, что равно числу объектов с пропуском.

Свойства зависят от способа формирования чисел Проще всего вывести формулы, если рассматривать подставленные значения как выборку значений для ответивших, полученную при вероятностном плане выбора, когда известно распределение при повторном применении подстановки с подбором.

Допустим, что задается случайным выбором с возвращением из зарегистрированных значений Условно по зарегистрированным значениям выборки распределение при повторениях процедуры подстановки с подбором полиномиальное с объемом выборки и вероятностями (см. раздел 2.8]. Отсюда

Пусть оценка (4.17) для по распределению Тогда

и

Моменты при повторном выборе из равны:

При простом случайном выборе и в предположении ОПС о распределении ответов по уравнению (4.5) мы получим

Отметим, что подстановка с подбором ведет к оценкам с большей дисперсией по сравнению с оценкой получаемой при заполнении средним. Из (4.20) следует, что дисперсия любой оценки при подстановке с подбором, для которой больше дисперсии среднего Преимущество метода подстановки с подбором в отличие от заполнения средним заключается в том, что искажения распределения выборочных значений отсутствуют.

Дополнительная дисперсия от выборочной подстановки с возвращением, определяемая уравнением (4.18), не является пренебрежимо малой. Ее можно уменьшить, задавая более эффективный план выбора. Допустим, например, что подставляемые значения извлекаются без возвращения. Если то мы можем выбрать из зарегистрированных значений у без возвращения и при этом равно 1, если объект отобран, и в противном случае. Чтобы определить процедуру в общем случае, запишем

где k — натуральное и При подстановке с подбором без возвращения к раз выбирают все зарегистрированные объекты, а затем «добирают» дополнительных объектов, чтобы обеспечить все значений, необходимых для пропусков. Таким образом,

где среднее добавочных значений Согласно теории простого случайного выбора

Если оценка У, полученная с помощью этой процедуры, то

и

что всегда меньше соответствующей добавочной компоненты дисперсии в (4.18). Точнее, в предположении простого случайного выбора и бернуллиевского распределения присутствия ответов, игнорируя поправку на конечную популяцию, мы получим, что 1) дисперсия не превосходит дисперсию более чем в 1,25 раза, и этот максимум достигается, если ; 2) дисперсия не превосходит дисперсии более чем в 1,125 раза, и этот максимум достигается при т. е. когда пропущена четверть значений [см. Kalton and Kish (1981)].

Другой метод генерирования значений для заполнения пропусков — последовательный подбор, при котором все объекты располагают в последовательность и пропущенное значение заменяется значением У ближайшего предшествующего в этой последовательности объекта, давшего ответ. Например, если присутствуют, а отсутствуют, то заменяются на на Если пропущен то потребуется некоторое начальное значение, выбранное, возможно, методом без подбора. Главным преимуществом последовательного подбора является его вычислительная простота. На его основе построены старые схемы заполнений для текущих обследований населения Бюро переписи (Census Bureau).

Допустим, что объекты выборки случайно упорядочены и извлечены путем простого случайного выбора, а также что действует бернуллиевский механизм порождения пропусков. Байлар и его соавторы [см. Baijar, Bailey and Corby (1978)] показали, что в этом случае оценка У методом последовательного подбора, скажем несмещенная с дисперсией, приближенно равной (при больших и без поправок на конечную популяцию)

Значит, дисперсия увеличивается по сравнению с раз, что равно доле пропущенных значений.

Можно уменьшить дополнительную дисперсию при подстановке с подбором, выбирая подстановку для пропусков с помощью самих значений у для образования выборочных слоев [Bailar and Bailar (1983); Kalton and Kish (1981)]. Самый крайний вид расслоения — упорядочить присутствующие значения Y, а затем систематически выбрать значений из этого списка.

Оценки подстановки с подбором, которые мы обсуждали до сих пор, не смещены только при общем нереальном предположении, что вероятность ответа не связана со значением Если имеется некоторая дополнительная информация об объектах, дающих ответ и не дающих его, то ее можно использовать для уменьшения смещения, возникающего из-за пропусков. Внимания заслуживают следующие два подхода.

а) Подстановка с подбором внутри групп. Формируются группы, и пропуски в каждой группе заполняются присутствующими значениями из нее же. При этом выбор групп основывается на тех же соображениях, что и выбор групп для взвешенных оценок. Среднее и дисперсию полученных таким методом оценок У можно найти, применяя приведенные выше формулы отдельно внутри групп, а затем объединяя полученные значения. Поскольку группы формируются по совместным уровням категориальных переменных, они не идеально подходят для переменных в интервальной шкале.

б) Подбор ближайшего соседа. Этот подход основан на введении метрики для измерения расстояния между объектами, определенной в пространстве сопутствующих переменных, и выборе подстановки по объекту с присутствующим значением, ближайшему к объекту с пропуском. Например, пусть значения сопеременных, измеренных в нормированных шкалах, у объекта с пропуском Определим расстояние

между объектами Мы можем выбирать подстановку для из тех объектов, у которых 1) наблюдаются меньше некоторого порога Число «кандидатов» — подходящих объектов — можно выбирать, изменяя . В [Sande (1983)] данные о «кандидате» должны удовлетворять еще некоторым дополнительным логическим ограничениям (например, неотрицательный возраст). Схемы ближайшего соседа требуют значительных вычислительных затрат. Они стали применяться сравнительно недавно. Существует много работ по методам подбора, написанных в контексте исследований, в которых для «обрабатываемых»

объектов подбирается («связанный») контрольный объект [см. Rubin (1973а, b); Cochran and Rubin (1973); Rubin (1976a, b)]. Поскольку подставляемые значения являются довольно сложными функциями от присутствующих признаков, квазирандомизационные свойства оценок в таких процедурах подбора пока мало изучены.

Пример 4.3. Последовательный подбор с упорядочением по сопеременной. В [Colledge, Johnson, Рагё and Sande (1978)] описан пример широкого применения метода подбора в обследовании строительных фирм в Канаде. Обследование охватило 50538 фирм, из которых 41432 были подвергнуты анализу. Признаки разделялись на четыре группы: а) полностью присутствующие ключевые показатели по данным об уплачиваемых налогах, включая район, стандартную индустриальную классификацию (SIC), общий доход (GBI), чистый доход (NBI) и показатель заработной платы и годового дохода (SWI); б) основные финансовые показатели по данным об уплачиваемых налогах, часть из которых отсутствовала; в) вторичные финансовые показатели и г) переменные обследования, собранные для различных, но пересекающихся подвыборок, и иногда отсутствовавшие. Только в 908 из 41432 записей была зарегистрирована вся информация о переменных четырех групп, в большинстве записей (34 181) наблюдались только ключевые показатели, в 2316 записях содержались только ключевые и основные финансовые показатели и в 4027 записях содержались ключевые показатели и переменные обследования. Подстановка с подбрром была проведена в несколько этапов. На каждом этапе пропуски в переменных одной группы заполнялись значениями из «донорских» записей, в которых содержались все переменные данной группы. Чтобы подобрать подходящие объекты из числа «доноров», показатели во всех записях были расслоены по провинции (району), по SIC и по SWI. На каждом этапе определялся набор «доноров» (набор подстановок) и набор «кандидатов» (объектов с пропусками). Внутри каждого слоя записи были упорядочены по GBI.

При подстановке значений в определенную запись для объекта-кандидата рассматривалось только по 5 доноров с каждой стороны, что давало 10 возможных доноров приблизительно с таким же значением GBI. Из этих десяти возможных доноров выбирался один, минимизировавший функцию расстояния, задаваемую в общем виде как

где ТЕХР = GBI - NBI - суммарные расходы (total expenses), индекс с означает «кандидат», d - «донор». Расстояние измерялось по расходам из-за того, что подстановка требовалась для многих показателей, которые являлись просто детальным разложением расходов или сильно коррелировали с ними. Заметим, что подбор доноров и кандидатов был основан только на ключевых показателях, которые наблюдались полностью. Кроме того, расстояние было обобщено так, чтобы оно зависело, кроме расходов, и от других показателей, и модифицировано для более широкого охвата доноров за счет превращения расстояния в возрастающую функцию от числа включений на данном этапе потенциального донора в действительные доноры.

После того как выбирался донор, пропущенные показатели у кандидата заменялись соответствующими значениями показателей донора. Иногда, чтобы гарантировать выполнение определенных ограничений, были необходимы некоторые преобразования или поправки. Например, допустим, что три неотрицательных показателя должны удовлетворять условию Значения этих показателей у донора равны тогда как у кандидата известно лишь значение Если просто записать значения как соответствующие показатели у кандидата, то может случиться, что а это недопустимо. В данном случае пропорционально уменьшали, чтобы выполнялось ограничение, а в качестве значений соответствующих показателей у кандидата подставляли

<< Предыдущий параграф Следующий параграф >>
Оглавление