Главная > Математика > Последовательный анализ
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

ОСНОВНЫЕ ИДЕИ ОБЩЕЙ ТЕОРИИ СТАТИСТИЧЕСКИХ РЕШЕНИЙ

А. Вальд

1. Введение.

Математическая статистика чрезвычайно сильно развилась за последние 30 лет. Математическая статистика развивалась главным образом двумя школами: школой Р. А. Фишера и школой Неймана и Пирсона. Вопросы,

разрабатываемые этими школами, касались в основном различных критериев наилучшего использования наблюдений для проверки статистических гипотез и оценок параметров распределений. В этой связи нам хотелось бы упомянуть об основных понятиях эффективности и достаточности, введенных Фишером, и о понятии мощности критериев, введенном Нейманом и Пирсоном. Нет необходимости подробно останавливаться на важности этих понятий, так как это хорошо известно статистикам.

Около 10 лет назад статистические теории, за исключением небольшого числа отдельных результатов, были недостаточны в двух важных пунктах: 1) эксперимент состоял из одной стадии, т. е. число наблюдений фиксировалось до эксперимента, 2) рассматривались лишь два типа задач статистических решений, известные в литературе под именем проверки гипотез и оценки точек и интервалов. В течение нескольких последующих лет развилась общая теория статистических решений свободная от этих недостатков. В этой теории рассматриваются эксперименты, состоящие из многих стадий, и изучаются общие статистические проблемы, в которых статистик должен принять одно из многих решений.

Мне хочется описать принципы этой общей теории и некоторые ее результаты.

Любая задача статистического решения формулируется относительно некоторой последовательности случайных величин. Для произвольной последовательности действительных чисел через обозначим вероятность того, что для всех целых положительных значений Функция называется функцией распределения вероятностей Типичная черта любой задачи статистического решения заключается в том, что неизвестна. Известно лишь, что принадлежит некоторому классу 2 функций распределения. Класс 2 должен рассматриваться как данное задачи. Другим данным этой задачи является пространство называемое пространством решений, элементы которого представляют собой возможные решения, которые может сделать статистик в этой задаче.

В этой работе для простоты будем полагать, что 1) каждая функция класса 2 абсолютно непрерывна, т. е. существует

плотность вероятности, 2) пространство содержит конечное число элементов эксперимент производится последовательно. На первой стадии эксперимента наблюдается величина После того как была наблюдена величина статистик решает, закончить ли эксперимент и принять некоторое решение или наблюдать величину В последнем случае после наблюдения величин статистик снова решает, закончить ли эксперимент, приняв решение или наблюдать величину

В общей теории, изложенной в цитированной выше работе (см. сноску на стр. 309), условия, которым должны удовлетворять пространства значительно более слабые. Приведенные выше условия вводятся здесь лишь для простоты изложения.

Решающее правило 8, т. е. правило выполнения эксперимента и принятия окончательного решения, определим при помощи последовательности действительных измеримых по Борелю функций где действительные переменные, а функции удовлетворяют условиям

Решающее правило определим следующим образом. Пусть обозначают наблюденные значения величин На каждой стадии эксперимента (после наблюдений, где любое целое число) рассматриваем функции и затем производим вспомогательный случайный эксперимент с исходами причем вероятность исхода равна Если исходом явится прекращаем эксперименты и принимаем решение Если исходом явится 0, делаем дополнительное наблюдение (наблюдаем величину и повторяем такую же процедуру, используя на этот раз функции

Описанное решающее правило может быть названо рандомизированным правилом, так как на каждой стадии эксперимента используется случайный механизм для решения вопроса о прекращении испытаний и принятии решения или о проведении дополнительных наблюдений.

Специальный случай, когда функции принимают только значения и 1, особенно интересен, так как в этом случае

на каждой стадии эксперимента решение принимается исключительно на основе наблюденных величин и не связано ни с каким случайным механизмом.

Мы назовем правило решения нерандомизированным, если функции принимают лишь значения и 1. Вопрос о достаточности одних нерандомизированных правил для целей статистических решений важен и интересен. Мы возвратимся к этому вопросу позже.

2. Функции потерь, стоимости и риска.

Основная проблема теории статистических решений заключается в выборе решающего правила 8. Чтобы судить о сравнительной ценности различных решающих правил, необходимо установить стоимость эксперимента, а также сравнительную характеристику различных решений, которые могут быть приняты, если функция из 2 является истинным распределением. В качестве такой характеристики можно выбрать неотрицательную функцию называемую функцией потерь, которая характеризует «убыток», понесенный статистиком, принявшим решение если является истинным распределением В большинстве задач статистических решений каждый элемент из можно интерпретировать как решение принять гипотезу о том, что неизвестное распределение является элементом некоторого данного подкласса о в В таких случаях полагаем если если Стоимость эксперимента может быть представлена последовательностью неотрицательных функций, где есть стоимость эксперимента, если он состоял из наблюдений, а были наблюденными значениями Функции потерь и стоимости эксперимента должны рассматриваться как данные задачи статистического решения. Функция стоимости предполагается, конечно, измеримой по Борелю.

Пусть обозначает условную вероятность того, что после наблюдений будет принято решение если 8 принятое решающее правило, наблюденные значения Очевидно

Для любого целого положительного числа через обозначим совместную плотность

распределения вероятностей величин если является истинной функцией распределения вероятностей Среднее значение потерь, т. е. среднее значение величины зависит только от распределения и принятого решающего правила . Оно дается выражением

где обозначает пространство всех -мерных векторов

Средняя стоимость эксперимента зависит только от истинного распределения и принятого решающего правила о. Она дается формулой

Пусть

Величина называется риском при условии, что истинное распределение, принятое решающее правило. Для любого фиксированного решающего правила 8° риск является функцией лишь Будем также называть функцией риска при заданном правиле решения 8°.

Интересно сравнить различные правила решений, основываясь только на связанных с ними функциях риска. Мы скажем, что решающее правило равномерно лучше решающего правила 82, если для всех хотя бы для одного элемента из 2. Решающее правило называется допустимым, если не существует равномерно лучших решающих правил. Два решающие правила и назовем эквивалентными, если они имеют одинаковые функции риска, т. е. для всех из 2. Для любого назовем решающие правила 81 и -эквивалентными, если для всех из 2.

3. Устранение рандомизации при конечных 2.

Дворецким, Вольфовицем и автором было доказано, что при конечном 2 для каждого решающего правила существует эквивалентное решающее нерандомизированное правило . Таким образом, в этих случаях можно избавиться от рандомизации и достаточно рассматривать только нерандомизированные решающие правила. Подобный результат для несколько более специального класса рандомизированных решающих правил был получен независимо Блэквеллом.

Доказательство основано на обобщении теоремы Ляпунова 3) о пространстве векторных мер. Непрерывность распределения (вытекающая из нашего допущения об абсолютной непрерывности существенна для сформулированных выше результатов. В случае разрывных распределений могут существовать рандомизированные решающие правила с функциями риска, имеющими некоторые предписанные свойства, которые нельзя получить при помощи какого-либо нерандомизированного решающего правила.

Конечность пространства 2 является очень стеснительным предположением, которое редко выполнено в задачах статистических решений. Однако при более общих условиях, которые обычно выполнены в задачах статистических решений, возникающих в приложениях, было показано, что для любого решающего правила 8 и для любого существует е-эквивалентное нерандомизированное решающее правило 8.

Интересный результат о возможности устранения рандомизации, в несколько иной постановке задачи, был недавно найден Ходжесом и Леманом. Они доказали, что в случае, когда задача статистического решения есть задача оценки точки, евклидово пространство и функция потерь есть выпуклая функция при любом для любого рандомизированного решающего правила 8 (с ограниченной функцией риска) существует нерандомизированное решающее

правило 8 такое, что для всех из 2. Заметим, что ни конечность 2, ни непрерывность его элементов не необходимы для получения этого результата.

4. Определение сходимости в пространстве решающих правил и некоторые теоремы непрерывности.

Естественное определение сходимости в пространстве решающих правил, казалось бы, должно быть таким: если

для всех всех и всех Это определение сходимости, однако, слишком сильно для наших целей. Вместо него примем следующее определение; мы скажем, что

если

и

для каждого измеримого множества в пространстве всех -мерных векторов

Было показано, что при таком определении сходимости справедлива следующая теорема.

Теорема 4.1. Пространство всех решающих правил компактно, т. е. всякая последовательность решающих правил имеет предел.

Эта теорема есть простое следствие известных теорем о слабой компактности множества функции

Прежде чем перейти к теоремам о непрерывности, сформулируем два условия, налагаемые на функции потерь и стоимости.

Условие есть ограниченная функция для

Условие II. Функция стоимости имеет следующие свойства: 1) есть ограниченная функция переменных для каждого фиксированного равномерно по всем

Следующая теорема о непрерывности была доказана ранее.

Теорема 4.2. Пусть есть такая последовательность решающих правил, что и

для всех при некотором целом положительном Тогда, если условия I и II выполнены, имеем для всех

Теорема 4.3. Если условия I и II выполнены, для всех

5. Байесовские и минимаксные решения в задачах статистических решений.

В этом пункте рассмотрим байесовские и минимаксные решения и некоторые их свойства. Эти решения представляют не только самостоятельный интерес, но играют также важную роль в построении различных классов решающих правил в следующих разделях статьи. Начнем с некоторых определений.

Под априорным распределением вероятностей на будем понимать неотрицательную и счетно-аддитивную функцию множеств заданную на соответствующем образом выбранном борелевском поле подмножеств 2, причем Борелевское поле выбирается таким образом, чтобы была измеримой функцией для каждого фиксированного .

Для любого априорного распределения вероятностей положим

Говорят, что решающее правило является байесовским решением относительно априорного распределения если

Говорят, что решающее правило есть байесовское решение в строгом смысле, если существует такое априорное распределение что есть байесовское решение относительно

Говорят, что правило есть байесовское решение относительно последовательности априорных распределений, если

где символ обозначает нижнюю грань относительно .

Мы скажем, что решающее правило есть байесовское решение в широком смысле, если существует последовательность априорных распределений, так что есть байесовское решение относительно

Решающее правило называется минимаксным решением, если

для всех , где символ означает верхнюю грань относительно

Априорное распределение называется наименее благоприятным, если удовлетворяется соотношение

Причина того, что априорное распределение удовлетворяющее этому соотношению, называется наименее благоприятным. такова: если априорное распределение действительно существует и известно статистику, то байесовское решение 8, соответствующее представляет собой удовлетворительное решение задачи статистического решения, так как 8 минимализирует средний риск (усредненный в соответствии с априорным распределением Минимум среднего риска, который может быть получен, будет, вообще говоря, различным при различных априорных распределениях, и априорное распределение может рассматриваться тем менее благоприятным с точки зрения статистика, чем больше средний риск, связанный с распределением Таким образом, априорное распределение, удовлетворяющее (5.5), будет наименее благоприятным с точки зрения статистика.

Приведем некоторые результаты, полученные для байесовских и минимаксных решений.

Теорема 5.1. Если выполнены условия I и II, то для любого априорного распределения существует решающее правило 8, являющееся байесовским решением относительно

Теорема 5.2. Если выполнены условия I и II, то существует минимаксное решение.

Эти теоремы существования могут легко быть получены из теорем п. 4. При помощи этих теорем можем также доказать более сильный результат о том, что существует допустимое байесовское и допустимое минимаксное решение.

Теорема 5.3. Если выполнены условия I и II, то минимаксное решение всегда является байесовским в широком смысле.

Теорема 5.4. Пусть 8° есть минимаксное решение и — наименее благоприятное априорное распределение; тогда, если условия I и II выполнены, то 8° есть байесовское решение относительно а множество функций из 2, для которых имеет вероятностную меру 1 относительно

Из последней части теоремы 5.4 вытекает, что функция риска минимаксного решения имеет постоянную величину на множестве из 2, вероятностная мера которого относительно каждого наименее благоприятного априорного

распределения равна 1. Во многих задачах статистических решений функция риска минимаксного решения постоянна на всем пространстве 2.

Несколько дополнительных результатов могут быть установлены, если выполняется следующее добавочное условие.

Условие III. Пространство 2 является компактным, а функция потерь непрерывна по в смысле следующего определения сходимости в 2: скажем, что если для любого положительного имеет место соотношение

равномерно для всех измеримых подмножеств в пространстве всех -мерных векторов

Теорема 5.5. Если выполнены условия I, II и III, то существует наименее благоприятное априорное распределение.

Доказательство этой теоремы основано на том факте, что множество всех вероятностных мер на компактном пространстве 2 компактно в смысле следующего определения сходимости: если для любого открытого подмножества пространства 2, граница которого имеет относительно вероятностную меру нуль. Этот результат был доказан автором. Близкий к этому результат был получен Крыловым и Боголюбовым. Их определение сходимости в пространстве вероятностных мер несколько отличается от используемого здесь.

Теорема 5.6. Если выполнены условия I, II, и III, то минимаксное решение всегда является байесовским решением в строгом смысле.

Эта теорема является прямым следствием теорем 5.4 и 5.5.

6. Полные классы решающих правил.

Класс С решающих правил 8 называется полным, если для любого не принадлежащего С правила 8 в С найдется равномерно лучшее правило 8. Мы будем говорить, что класс С решающих правил является существенно полным, если для любого не принадлежащего С правила 8 в С найдется такое правило 8. что для всех из 2.

Очевидно, что если С — полный или, по меньшей мере, существенно полный класс решающих правил, то мы можем не рассматривать правил, не принадлежащих С, и задача выбора решающего правила сводится к задаче выбора определенного элемента из С. Таким образом, построение полных или существенно полных классов решающих правил имеет важное значение для любой задачи статистического решения.

Первый результат, касающийся полных классов решаюших правил, получен Леманом, который построил такой класс для одного специального случая. Вскоре после появления работы Лемана был получен ряд весьма общих результатов. Чтобы сформулировать некоторые из этих результатов, обозначим через А множество всех решающих правил 8 с ограниченными функциями риска. Будем говорить, что класс С решающих правил является полным или существенно полным относительно А, если соответствующие условия выполнены для каждого 8 из А. Автором был доказан следующий результат.

Теорема 6.1. Вели выполнены условия то класс байесовских решений в широком смысле является полным относительно А.

Теорема 6.2. Если выполнены условия I и II, тогда замыкание класса всех байесовских решений в строгом смысле является существенно полным относительно

Теорема 6.3. Если выполнены условия I, II и III, то класс всех байесовских решений в строгом смысле является полным относительно А.

Во избежание неясностей заметим, что понятие байесовского решения и априорного распределения используется здесь просто как математический инструмент для выражения некоторых результатов, касающихся полных классов решающих правил; действительное существование рассматриваемых здесь априорных распределений совершенно необязательно.

7. Применение к теории игр Неймана.

Теория статистических решений в том виде, в котором она была изложена здесь, тесно свазана с неймановской теорией игр двух игроков с нулевой суммой. Нормальная форма игры двух игроков с нулевой суммой была дана Нейманом в следующем виде. Имеется два игрока и задана ограниченная действительная функция двух переменных и к где и может быть любой точкой пространства любой точкой пространства Игрок 1 выбирает точку и из а игрок 2 выбирает точку из V, причем точки выбираются независимо. Игрок 1 при этом выигрывает сумму а игрок 2 — сумму —

Любая задача статистического решения может рассматриваться как игра двух игроков с нулевой суммой. Игрок 1 представляет собой некоторую внешнюю силу, например природу, которая выбирает элемент из 2 и делает его истинным распределением X, а игрок 2, являющийся статистиком, выбирает решающее правило 8. Выигрыш дается функцией риска которая зависит от выбора природы и выбора статистика 8. Теория игр с двумя игроками и нулевой суммой была развита Нейманом для конечных пространств В задачах статистических решений, однако, число стратегий природы (число элементов 2) и число стратегий статистика (число решающих правил) обычно бесконечны. Многие результаты теории статистических решений могут быть получены обобщением неймановской теории на случай бесконечных пространств стратегий. В частности, автором было показано, что если выполнены условия I и II, то задача статистического решения, рассматриваемая как игра двух игроков с нулевой суммой, является строго определенной в смысле неймановской теории, т. е.

Это соотношение играет фундаментальную роль в теории игр с двумя игроками и нулевой суммой. В теории статистических решений это соотношение является основным при

установлении результатов, касающихся полных классов решающих правил, но особого самостоятельного интереса не представляет.

8. Некоторые специальные случаи.

Мне хочется кратко остановиться на применении общей теории к некоторым специальным случаям.

Предположим, что 2 состоит из двух элементов: Пусть случайные величины независимы и их совместному распределению соответствует плотность распределения каждой из них Пространство решений содержит два элемента: где означает решение принять гипотезу о том, что является истинным распределением . Пусть функция потерь если если Стоимость эксперимента установим пропорциональной числу наблюдений, т. е. где с — стоимость единичного наблюдения.

Априорное распределение дается парой неотрицательных чисел где Величина определяет априорную вероятность того, что истинное распределение. Вольфовицем и автором было показано, что любое байесовское решение должно быть решающим правилом следующего типа. Пусть наблюденное значение величины пусть

Выберем две константы и на каждой стадии эксперимента (после наблюдения, где любое целое число) подсчитываем накопленную сумму Как только нарушится соотношение прекращаем эксперимент. Если при этом то принимаем решение (принимаем гипотезу о том, что истинным распределением является если же будет принимаем решение (т. е. гипотезу о том, что истинным распределением является Решающее правило этого типа называется последовательным критерием отношений вероятностей.

Применяя теоремы о полных классах к этому случаю, можно получить следующий результат. Класс всех последовательных критериев отношений вероятностей, соответствующий всем возможным значениям постоянных является полным классом. Это означает, что если — произвольное решающее правило, не являющееся последовательным критерием отношений вероятностей, то существует такая пара чисел что последовательный критерий отношений вероятностей с константами равномерно лучше .

Вследствие полноты класса всех последовательных критериев отношений вероятностей задача выбора решающего правила сводится к задаче выбора значений констант Метод определения констант при которых последовательный критерий отношений вероятностей является минимаксным или байесовским решением относительно данного априорного распределения, рассматривался Арроу, Блэкуэллом и Гиршиком.

Свойства последовательных критериев отношений вероятностей изучены довольно широко. Недавно возникший последовательный анализ основывается на последовательном критерии отношений вероятностей. Интересно заметить, что стохастический процесс, возникающий в последовательном критерии отношений вероятностей, тождественен с процессом одномерных случайных блуждений, играющем важную роль в молекулярной физике.

Теперь рассмотрим случай, когда содержит конечное число элементов большее двух. Достаточно рассмотреть случай, когда 2 содержит 3 элемента так как обобщение на случай любого числа элементов трудностей не представляет. Как и выше, случайные величины независимы, причем плотность распределения каждой из них равна если является истинным распределением ). Пространство решений содержит

также три элемента где означает решение принять гипотезу о том, что истинным распределением является Пусть если если Стоимость эксперимента опять установим пропорциональной числу наблюдений, положив стоимость единичного наблюдения равной с. Любое априорное распределение может быть представлено точкой с координатами . Множество всех априорных распределений при этом заполняет треугольную область с вершинами и где представляет априорное распределение с компонентой равной 1 (рис. 17).

Рис. 17.

Чтобы построить полный класс решающих правил для этой задачи, необходимо определить байесовское решение, соответствующее любому данному априорному распределению Пусть обозначает наблюденное значение величины После наблюдений можем построить апостериорное распределение имеющее вид

На любой стадии эксперимента апостериорное распределение представляется точкой треугольной области

Вольфовицем и автором было показано, что в области можно выбрать три таких замкнутых и выпуклых множества (не зависящих от априорного распределения что байесовское решение, соответствующее будет представлять собой следующее решающее правило. На каждой стадии эксперимента (после наблюдений, где определяется точка в области Новые наблюдения производятся до тех пор, пока не попадает в одно

из множеств Если попадает внутрь области эксперимент прекращается и принимается решение Если попадает на границу области вопрос о прекращении эксперимента и принятии окончательного решения или о продолжении дальнейших наблюдений решается при помощи независимого случайного механизма.

Выпуклые множества зависят только от констант Пока не существует метода для точного построения множеств и по заданным величинам Развитие метода для точного построения множеств имело бы чрезвычайно большую ценность, так как оно, вероятно, указало бы пути преодоления подобных трудностей в большом числе других задач последовательных статистических решений.

Более общие результаты о байесовских решениях при допущении также нелинейных функций стоимости были получены Арроу, Блэкуэллом и Гиршиком.

В качестве последнего примера рассмотрим следующую задачу статистического решения. Известно, что независимые и одинаково распределенные величины. Распределение каждой из них прямоугольное. Средняя точка распределения является единственным неизвестным параметром, т. е. плотность распределения каждой из величин имеет вид

Для любой действительной величины обозначим через решение принять в качестве оценки для 0. Пространство решений состоит из элементов соответствующих всем действительным числам 0. Пусть функция потерь равна где истинная величина средней точки распределения, а принято решение Стоимость эксперимента установим пропорциональной числу сделанных наблюдений. Стоимость единичного наблюдения обозначим через с.

Ранее было показано, что минимаксное решение этой задачи дается следующим решающим правилом. Проводится

по меньшей мере одно наблюдение. На каждой стадии эксперимента наблюдений, где любое целое положительное число) подсчитывается величина

Эксперимент продолжается до тех пор, пока

Как только окажется, что эксперимент прекращается, и для 6 принимается оценка

Функция риска, связанная с минимаксным решением, постоянна на всем пространстве Допустимость этого минимаксного решения была доказана С. Блифом,

9. Заключительные замечания

В то время как общая теория получила значительное развитие в рассмотренных здесь направлениях и привела ко многим общим результатам, точные решения были разработаны для сравнительно небольшого числа специальных случаев. Математические трудности, с которыми приходится сталкиваться при получении точных решений, особенно в последовательном анализе, очень велики. Однако есть надежда, что в будущих исследованиях эти трудности будут преодолены и будут получены точные решения для большого числа различных проблем.

<< Предыдущий параграф Следующий параграф >>
Оглавление