Библиотека маркетолога

Калибровка выборки

С.В. СтепановКанд. соц. н., консалтинговая компания Планова-Консалтинг
Федеральный образовательный портал по экономике, социологии и менеджменту

В статье рассматриваются подходы к обработке данных выборочного наблюдения с учетом дополнительных источников информации на основе использования новых методов выборочного наблюдения. Основное внимание уделено методике обработки данных выборочного наблюдения на основе методов калибровки, выполнен обзор зарубежного опыта государственных статистических служб в этой тематике.

Исследование применимости предлагаемых методов в практике Росстата основывается на анализе применения методики калибровки на данных отдельных регионах России.

Решение задачи повышения эффективности выборочных обследований предполагает объединение в комплексном подходе решения разнородных подзадач, включая административные, например:

1. Контроль актуальности (выборочной основы);

2. Повышение уровня квалификации исполнителей выборочных обследований;

3. Совершенствование алгоритмов построения выборочных планов (дизайн выборки) с регулируемыми параметрами;

4. Повышение адекватности и точности выборочных оценок;

5. Снижение нагрузки на респондентов без снижения точности выборочных оценок;

6. Коррекция негативного влияния неответов респондентов и т.п.

Содержание этой работы сосредоточено на рекомендациях по решению подзадач 3, 4 и 5 в рамках современных возможностей технической и технологической базы Росстата. Выборочная технология, реализованная в Росстате для выборочных обследований предприятий, достаточно детально разработана и подробно описана в методологическом сборнике1. Последовательному продолжению развития статистической методологии в области выборочных обследований и посвящена эта статья в части использования дополнительных, вспомогательных источников информации для оптимизации выборки.

Калибровкой выборки называется процесс целенаправленного изменения таких параметров выборочного плана, как выборочный вес, а также непараметрические модификации состава выборки для сокращения ошибок выборки и повышения точности и устойчивости выборочных оценок статистических показателей. Такое преобразование базового выборочного плана становится возможным при использовании информации из дополнительных источников, например, при наличии количественных признаков в статистическом регистре предприятий, которые характеризуют разные аспекты размера объекта наблюдения или при использовании данных полных или экономических переписей.

Наличие в нашей стране большого количества регионов с существенно различной степенью экономического развития и с различной экономической структурой, делает необходимым использование в статистической практике таких методов, которые не зависели бы от местной конкретной специфики исследуемой совокупности. Методы оценки дисперсии, доверительных интервалов, коэффициента вариации и других точечных и интервальных параметров исследуемой совокупности, основанные на модели (model-based), обладают одной особенностью. Либо они основываются на предположении о намеренном упрощении процедуры отбора и чреваты смещением, связанным с таким упрощением, либо для каждой функции оценивания необходимо находить свою несмещенную формулу, учитывающую особенности конкретной процедуры, что не всегда просто2. Независимость от конкретных условий, неизвестных заранее функций распределения единиц наблюдения, способны обеспечить непараметрические методы многомерного статистического анализа 3, такие как методы jackknife (складного ножа) и bootstrap (бутстреп), которые, в частности, требуют значительных объемов вычислений.

1. Анализ современной теории калибровки выборочных весов с использованием дополнительной информации

1.1. Определения калибровки

Метод калибровки выборочных весов получил широкое распространение в службах государственной статистики крупнейших развитых стран и в практике Евростата. Развитие статистической теории, связанной с выборочными оценками и их улучшением путем калибровки выборок, сильно продвинулось с момента публикации в Журнале американской Статистической Ассоциации в 1992 году теперь широко известной статьи Жан-Клода Девиля4 и Карла-Эрика Сeндала5 «Оценочные функции калибровки в выборочном обследовании»6. (Сам термин «калибровка» происходит от французский «calage» («втискивание»), имеет коннотацию7 «стабильность»).

Основная идея получения калиброванных статистических оценок, предложенная Deville и Sarndal, заключается в расчете калиброванных весов выборки при условии ограничения вида: сумма весов первоначального плана выборки и сумма калиброванных весов — равны. Дополнительной информацией в виде суммы может являться не только сумма весов, но и, в общем случае, суммы по вспомогательным переменным. Обобщая, можно сказать, что методика калибровки для конечных совокупностей состоит из:

    (a) вычисления весов, которые включают определенную вспомогательную информацию и ограничены уравнениями калибровки,

    (b) использования этих весов, чтобы вычислить линейно взвешенные оценки сумм или других параметров конечной совокупности: взвешенных значений переменных, суммированных по определенным группам наблюдаемых объектов,

    (c) цели получить почти не смещенные выборочные оценки, при условии отсутствия неответов и ошибок, не связанных с выборкой.

В литературе термин «калибровка» часто соотносят только с (а), однако в этих рекомендациях мы часто будем подразумевать (а) вместе с (с). Более ранние определения, по существу, соответствуют приведенным выше. Pascal Ardilly определяет8 калибровку как метод перевзвешивания, при котором у исследователя есть доступ к нескольким переменным, качественным или количественным, на значениях которых он желает выполнить совместную настройку.

Kott (2006)9 определяет веса калибровки как ряд весов для объектов в выборке, которые удовлетворяют калибровке к известным итогам по совокупности и, таким образом, получающаяся оценка не противоречит вероятностному характеру выборочного плана, или, более строго, что смещение выборочного плана, при умеренных условиях, вносит асимптотически несущественный вклад в средний квадрат ошибки оценки статистического параметра. Это свойство калибровки Sarndal называет «почти не смещенным планом выборки».

В четвертом выпуске методологических рекомендаций статистики Канады (The Quality Guidelines (fourth edition) of Statistics Canada (2003)) говорится: «Калибровка — процедура, которую можно использовать, чтобы включить информацию, содержащуюся во вспомогательных данных. Эта процедура корректирует выборочные веса с помощью множителей, известных как факторы (коэффициенты) калибровки, которые приводят оценки статистических параметров в согласие с известными итогами. Получающиеся веса называются весами калибровки или конечными весами оценивания. Эти веса калибровки в общем случае приводят к оценкам, которые не противоречат выборочному плану и эти оценки имеют меньшую дисперсию, чем оценка Горвица-Томпсона».

Утверждение (с) требует комментария. Ничто не мешает рассчитывать веса, калиброванные к имеющейся вспомогательной информации без учета требования (с). Когда ошибки, не связанные с выборочным планом, присутствуют, смещение в оценках неизбежно, сделаны ли они с применением калибровки или каким-нибудь другим методом. В соответствии с (с) тема предлагаемых методологических рекомендаций ограничивается выборочным планом.

1.2. Развитие применяемых методик взвешивания

(1) Калибровка как линейный метод взвешивания. У калибровки есть близкая, по существу, методика, применяемая на практике. Назначение фиксированных весов как метод в практике ведущих национальных статистических агентств был важным и популярным инструментом практики до калибровочных методов.

Назначать соответствующий (вмененный) вес на наблюдаемое значение переменной и суммировать взвешенные значения переменных, чтобы сформировать соответствующие сводные показатели — постоянно используемая процедура. Этот способ используется статистическими службами для оценивания различных описательных параметров конечной совокупности: суммы, средние и функции от сумм. Взвешивание просто объяснить пользователям статистической информации и другим контрагентам статистических служб.

Взвешивание наблюдаемых значений объектов инверсией их вероятности включения нашло твердую научную поддержку в статьях, таких как Hansen и Hurwitz (1943)10, Horwitz и Tompson (1952)11. Взвешивание стало широко принято. Позже, постстратификационное взвешивание достигло того же уровня популярности. Калибровочное взвешивание обобщает и расширяет обе эти идеи. Калибровочное взвешивание — производное результата, так как веса зависят от наблюдаемой выборки.

Веса, обратные вероятности включения, по определению, больше или равны единице. В тоже время калиброванные веса не обязательно больше или равны единице, если это специально не предусмотрено вычислительным алгоритмом.

Взвешивание значений наблюдаемых переменных было важной темой, прежде чем калибровка стала популярным методом в среде статистических служб. Некоторые авторы получали веса, аргументируя тем, что они должны как можно меньше отличаться от несмещенных весов выборочного плана (обратных вероятности включения). Другие находили веса, подразумевая, что линейная регрессия оценки должна быть записана как линейно-взвешенная сумма наблюдаемых значений переменной исследования. Использовались термины, такие как «взвешивание выборочного обследования», «взвешивание по регрессии» и «взвешивание наблюдения». Среди таких «ранних статей» Alexander (1987), Bankier, Rathwell и Majkowski (1992), Bethlehem и Keller (1987), Chambers (1996), Fuller, Loughin и Baker (1994), Kalton и FloresCervantes (1998), Lemaitre и Dufour (1987)12 , Sarndal (1982) и Zieschang (1990)13. Более поздний термин «калибровка» имеет более определенный смысл и более точное руководство по производимым вычислениям, чем более старый термин «взвешивание».

(2) Калибровка как системный метод использования вспомогательной информации. Калибровка обеспечивает систематический способ принять во внимание вспомогательную информацию. Как указывают Rueda, Martinez, Martinez и Arcos (2007)14, «во многих стандартных условиях, калибрация обеспечивает простой практический подход к включению вспомогательной информации в оценку».

Вспомогательная информация использовалась, чтобы улучшить точность оценок обследования прежде, чем стала широко использоваться калибровка. Сегодня калибровка действительно предлагает систематизированный подход к использованию вспомогательной информации. Например, калибровка может эффективно применяться в обследованиях, где вспомогательная информация существует на разных уровнях. При осуществлении двухступенчатой выборки, одна информация может существовать для первой стадии отбора кластеров, связанных с категориальными переменными принадлежности, и другая информация — для второй стадии отбора объектов в кластерах. В обследованиях с предполагаемыми неответами (то есть, по существу, во всех обследованиях), информация может существовать «на уровне совокупности» (известны суммы по совокупности). Другая информация существует «на выборочном уровне» — значения вспомогательных переменных для всех, включенных в выборку, ответивших и не ответивших.

(3) Калибровка для достижения согласованности. Калибровка часто описывается как способ получить «согласованные оценки». (Здесь «согласованные...» подразумевается не в отношении к вероятностному способу выборки, а в смысле «совместимые с известными агрегированными данными»). Уравнения калибровки налагают такие ограничения на систему весов, чтобы, когда они применяются к вспомогательным переменным, это подтверждало бы их совместимость с известными агрегированными значениями для этих же самых вспомогательных переменных. Желание усилить доверие к конечным оценкам часто упоминается в публикуемой статистической литературе в связи с задаваемыми требованиями по согласованности. Некоторые пользователи статистической информации не находят удовлетворительным то обстоятельство, когда обнаруживают, что две или более оценки по одной и той же совокупности оказываются не согласованными.

Оцениваемые суммы, с помощью которых исследуется согласованность, часто называют управляемыми суммами. «Управляемые веса» или «калиброванные веса» предлагают улучшенную, более точную оценку. У согласованности, достигаемой посредством калибровки, есть более широкое значение, чем просто более точное согласование с известными вспомогательными суммами совокупности. Согласованность может быть, например, исследована с соответствующими оценками, получаемыми в как в текущем обследовании, так и в других обследованиях и иных (административных) источниках.

Согласованность в таблицах оценок, полученных в результате разных обследований, были поводом для разработки метода повторяемого взвешивания — методики, разработанной в голландском национальном статистическом агентстве CBS, и опубликованной в ряде статей: Renssen и Nieuwenbroek (1997)15; Renssen, Kroese, и Willeboordse (2001)16; Knottnerus и van Duin (2006)17 . Цель метода состоит в том, чтобы приспособить пользовательские запросы для производства согласованных выводов в численном виде. В последней упомянутой статье указывается, что повторяемое взвешивание может быть применено как дополнительный шаг калибровки для новой настройки уже калиброванных весов. Конечные веса принимаются согласованными в заданных (или определенных) границах.

Согласованность с известными или предполагаемыми суммами может принести дополнительный выигрыш в улучшении точности (более низкая дисперсия и/или уменьшенное смещение вследствие неответов). Однако, в некоторых статьях, особенно создаваемых в статистических агентствах, а значит, и в их практике, согласованность для удовлетворения представлений пользователей кажется более обязательным побуждением, нежели перспектива улучшения точности.

Если первичный мотив для применения калибровки более связан не столько с обеспечением согласованности с другими статистиками, сколько с уменьшением дисперсии и сокращением смещения, связанного с неответами, то более соответствующим описанием для калибровки является «система сбалансированных весов», а не «система согласованных весов». Цель состоит в том, чтобы балансировка весов отражала результат выборки, содержание ответов обследования и всю доступную информацию.

(4) Калибровка для удобства и прозрачности. Harms и Duchesne (2006)18 указывают: «Методика калибровки получили широкое распространение в практике, потому что получающиеся оценки просто интерпретировать и мотивировать, а основаны они на весах выборочного плана и естественных ограничениях калибровки». Калибровка на известных итогах кажется типичному пользователю прозрачной и естественной. Пользователи, которые понимают выборочное взвешивание, ценят влияние калибровки, так как уважают управляемые параметры в том смысле, что выборочные веса были «только немного изменены». Несмещенность только незначительно нарушена. Более простые формы калибровки не вызывают недоверия, так как применяются только «естественные ограничения». Очень ценится еще одно преимущество: во многих областях применения калибровка дает уникальную систему взвешивания, применимую ко всем переменным обследования, многие из которых есть в больших правительственных обследованиях и иных административных источниках.

(5) Калибровка в комбинации с другими терминами. Некоторые авторы используют термин «калибровка» в комбинации с другими терминами, чтобы описать различные направления рассуждений. Вот примеры этого быстрого увеличения терминов: Модель-калибровка (Wu и Sitter, 2001)19; g-калибровка (Vanderhoeft, Waeytens и Museux, 2000)20; гармонизированная калибровка (Webber, Latouche и Rancourt, 2000)21 ; высокоуровневая калибровка (Singh, Horn и Yu, 1998); калибровка по регрессии (Demnati и Rao, 2004); нелинейная калибровка (Plikusas, 2006)22; сверхобобщенная калибровка (Calage super generalise; Ardilly 2006)23; модель-калиброванная оценка с помощью нейронной сети и модель-калиброванная оценка локальным полиномом (Montanari и Ranalli, 2003, 2005)24, модель-калиброванная псевдо-эмпирическая оценка максимального правдоподобия (Wu, 2003)25, и другие. Кроме того, калибровка играет существенную роль в косвенных выборочных методах, предложенных Lavallee (2006)26. В несколько ином аспекте, здесь не рассматриваемом, предложены калиброванные вмененные значения для импутации данных (Beaumont 2005a)27, и смещение калибровки (Chambers, Dorfman и Wehrly (1993), Zheng и Little (2003)28). Приведенные статьи не дают абсолютно полный обзор всех инноваций в сфере калибровки, но и только одни названия действительно указывают на направления, которые были исследованы.

(6) Калибровка как новое направление исследований. Если калибровка представляет «новый подход» с явными отличиями в сравнении с предшествовавшими, мы должны исследовать такие вопросы как: обобщает ли калибровка более ранние теории или подходы? Дает ли калибровка лучшие, более удовлетворительные ответы на важные вопросы в сравнении с ранее исследованными методами?

Практика выборочных обследований сталкивается с «неприятностями», такими как неответы респондентов, ошибки идентификации и ошибки измерений. Верно, что импутация вмененных значений и перевзвешивание для преодоления смещения, вызванного неответами, широко распространены в практике посредством соответствующих методик. Но это — так или иначе «отдельные проблемы», которые все еще ждут, чтобы быть более полно внедренными во всестороннюю, более удовлетворительную теорию вывода в выборочных обследованиях. Много работ, посвященных выборочной теории касаются оценки для предполагаемого идеального обследования, не существующего практически, где неответы и другие ошибки, не связанные с планом отбора, отсутствуют. Исследования свойств калибровки показывают, что она может обеспечить более систематизированный взгляд в обследованиях, даже в присутствии различных ошибок, не связанных с планом выборки.

1.3. Модель калибровки, основанная на выборочном плане

Представим конечную совокупность Ω = {1, 2, ..., i, ..., N} из N объектов, из которой выполнена вероятностная выборка s (s Ω) фиксированного размера n, получена с вероятностью p(s) в соответствии с планом отбора p. Вероятности включения объекта в выборку πi = Pr(i s)29 и πij = Pr(ij s)30 предполагаются строго положительными и известны.

Пусть yi есть значение интересующей нас переменной у для i-го объекта совокупности, с которым также связана вспомогательная переменная xt или вектор вспомогательных переменных xi. Для объекта из выборки i s, мы можем наблюдать и измерить (уi, хi). Сумма по совокупности вспомогательной переменной х, нам доступна и известна. Цель состоит в том, чтобы получить оценку неизвестной нам суммы по совокупности . Для калибровки, для которой ведутся эти рассуждения, важно точно определить вспомогательную информацию. При прочих основных условиях мы должны различать две ситуации относительно xi:

(i) xi — известный вектор значений для каждого i Ω (полная вспомогательная информация),

(ii) — известные (полученные извне) итоги, и xi известен (измерен в обследовании) для каждого i s.

Зачастую среда или обстоятельства обследования диктуют ситуацию (i) или (ii), по преимуществу. Вариант (i), то есть наличие полной вспомогательной информации, имеет место, когда значения вектора xi определены и известны по всей выборочной основе для каждого i Ω (и, само собой, для каждого i s). Такая ситуация типична при индивидуальных обследованиях населения и при обследованиях домашних хозяйств, к примеру, в Скандинавии и странах Северной Европы, имеющих в своем распоряжении высококачественные административные регистры, которыми можно воспользоваться в качестве основы выборки, чтобы обеспечить большое количество потенциальных вспомогательных переменных. Итоги по совокупности можно получить, просто складывая xi.

Вариант (i) дает значительную свободу по структурированию вспомогательного вектора xi. К примеру, если xi являются значениями непрерывной переменной, определенными для каждого i Ω, то мы имеем возможность рассмотреть xi2 и другие функции от xi для включения их в xi, потому что итоги, такие как и , могут быть легко вычислены. Если зависимости с изучаемой переменной нелинейны, было бы большим упущением не принять во внимание такие доступные формы итогов, как квадратичные или логарифимические.

Вариант (ii) преобладает в обследованиях, где ситуация (i) не встречается, но где можно получить их внешних источников, которые считаются достаточно точными, а индивидуальные значения xi доступны (измерены в процессе сбора данных) для каждого i s. В этом случае иногда называют «независимым управляющим итогом», чтобы отметить его происхождение, внешнее по отношению к обследованию. Вариант (ii) менее гибок: если xi является переменной с итогом , взятым из внешнего надежного источника, то может быть недоступна, лишая возможности включения xi2 в вектор вспомогательных переменных xi.

1.4. Обобщенная оценка по регрессии для базовых условий. Концепция GREG

Прежде чем рассматривать различные реализации калибровки, следует определиться в отношении оценивания с помощью обощенной регрессии (generalized regression (GREG) estimation) (или точнее — регрессионное оценивание) с позиций двух серьезных точек зрения:

(1) во многих статьях справедливо утверждается, что GREG-оценивание есть систематизированный способ принять во внимание вспомогательную информацию;

(2) некоторые (но не все) GREG-оценки есть оценки калибровки, которые могут быть выражены в терминах (калиброванного) линейного взвешивания.

За прошлые два десятилетия интенсивно изучались GREG-оценки и оценки калибровки. Одни только термины «GREG-оценка» и «оценка калибровки» отражают ясное различие в методологическом подходе.

Понятие GREG-оценки постепенно развивалось с середины 1970-х годов. Простая (линейная) GREG-оценка описывается в Sarndal, Swensson and Wretman (1992)31. Центральная идея состоит в том, что предсказанные у-значения могут быть вычислены для всех N элементов совокупности, с помощью подобранной вспомогательной модели и использования вспомогательного вектора значений xi, известных для каждого i Ω. Предсказанные значения служат для того, чтобы построить почти не смещенную оценку суммы , зависимую от выборочного плана как:

(1)

Очевидная цель для создания такой конструкции, это перспектива получения очень точной оценки с помощью тонкого подбора вспомогательной модели, которая дает очень маленькие остатки .

Такое моделирование — краеугольный камень рассуждений в стиле «GREG-оценка». Некоторые авторы для конструкции (1) используют термин «общая оценка отличия».

Большое разнообразие возможных вспомогательных моделей порождает большое семейство GREG-оценок формы (1). У вспомогательной модели, предполагающей зависимость между x и у, может быть много форм: линейная, нелинейная, обобщенная линейная, смешанная (модель с некоторыми фиксированными и некоторыми случайными параметрами) и так далее. Безотносительно выбора формы, модель «только помогает», даже при том, что форма может быть «истинной», (1) соответствует плану выборки, почти не смещенному при умеренных условиях для вспомогательной модели и самого плана выборки.

1.5. Линейная GREG-оценка

Под линейной GREG-оценкой мы будем понимать такую, которая получена с помощью вспомогательной модели с линейными коэффициентами. Предсказанные значения , где

Совместно с (1) дает:

(2)

Здесь qi — масштабные коэффициенты, выбираемые статистиком. Стандартный выбор: qi = 1 для всех i. У выбора qi есть некоторое (но часто ограниченное) влияние на точность ; почти несмещенность сохраняется для любого выбора qi, за исключением чрезмерных. Хотя модель проста, используя линейную GREG (2), можно сформулировать много оценок, рассматривая множество возможных выборов вектора вспомогательных переменных xi и масштабных коэффициентов qi. При общих условиях

где это оценка Горвица-Томпсона для остатков .

Следовательно, связанные с планом выборки показатели и . Близкая подгонка линейной регрессии для у от x является ключом к малой дисперсии (и это очень отличается от утверждения, что «линейная регрессия — это истинная регрессия»).

Линейная GREG-оценка в Sarndal, Swensson и Wretman (1992)32 обосновывалась с помощью вспомогательной линейной модели ξ, формулируемой так: Eξ(yi) = β'xi и Vξ(yi) = σi2. Метод обобщенных наименьших квадратов дает оценку (2) с qi = 1/σi2. В этом контексте, обоснованное предположение о разбросе остатков yiβ'xi, определяет и qi. Когда вектор xi фиксирован, основные усилия по подбору модели сводятся к определению модели остатков. Выбор σi2 = σ2xi дает классическую оценку по отношению. Если qi = μхi для всех i Ω и μ есть вектор констант, тогда (2) сокращается до формы .

Beaumont и Alavi (2004)33 доказали, что линейная GREG-оценка является устойчивой по отношению к смещению (почти несмещенной, хотя вспомогательная модель теряет «корректность»), но она может быть значительно менее эффективна (имеет больший средний квадрат ошибки), чем альтернативные модели, имеющие хоть и большие смещения, но со значительно более малыми дисперсиями. Таким образом, можно утверждать, что линейная GREG-оценка не устойчива по отношению к дисперсии. Это — фундаментальное понятие теории выборочных обследований, основанных на выборочном плане.

Спецификация вектора xi должна включать переменные (с известными итогами), которые уже использовались для построения выборочного плана. Информация стадии построения выборочного плана на должна быть исключена на стадии оценивания, напротив, рекомендуется ее «повторное» использование. Например, в варианте простой случайной стратифицированной выборки, вектор xi в статистической оценке (2) должен включать, наряду с другими доступными переменными атрибутивные коды принадлежности к страте.

Мы можем записать Линейную GREG-оценку (2) как взвешенную выборочную сумму, , с весами:

. (3)

Веса wi калиброваны (совместимы с) известными x-итогами по совокупности: . То, что выражен как линейная взвешенная сумма с калиброванными весами, является побочным эффектом формализованного вывода. Это не часть GREG-стиля рассуждений, центральная идея которого, сформулированная в (1), есть подбор вспомогательной модели.

1.6. Калибровка при базовых условиях выборки

Решающий прием в использовании GREG-подхода это предсказание значений с помощью подбора вспомогательной модели. В противоположность этому, калибровочный подход, определенный в п. 1.1 не обращается явно ни к какой модели. Вместо этого подчеркивается существенность использования вспомогательной информации, по которой можно калибровать. Ключевым моментом в рассуждениях в калибровочном духе является линейное взвешивание наблюдаемых y-значений с весами, согласованными с вычисляемыми итогами. Это концептуальное различие будет приводить иногда к различным статистическим оценкам в этих двух подходах.

Калибровочный подход обладает значительной степенью общности: он может быть применен на множестве условий: сложные выборочные планы, корректировки неответов и ошибки основы выборки. Остановимся, однако, на базовых условиях: единственная стадия выборки и полные ответы. Данные, доступные для того, чтобы получить оценки итогов по совокупности , такие:

(1) значения исследуемой переменной yi получены в наблюдении для i s.

(2) известны веса выборочного плана di = 1/πi для i Ω,

(3) известен вектор переменных xi для i Ω или итоги, полученные из внешних источников .

Эти простые условия преобладают в описаниях Deville и Sarndal (1992) и Deville, Sarndal и Sautory (1993), статьях, которые дали подходу название и инициировали дальнейшую исследовательскую работу по калибровке. Даже при том, что условия ситуации просты, калибровка поднимает несколько проблем, некоторые из которых чисто вычислительные.

Цель методов калибровки в том, чтобы определить веса wi, такие, чтобы они удовлетворяли уравнениям ограничений калибровки , затем использовать их в формуле калиброванной оценки для Y в виде: , которую мы можем сопоставить с не смещенной оценкой Горвица-Томпсона, записав ее так: . Из этого следует, что смещение есть . Цель достижения почти не смещенного плана выборки требует , независимо и безотносительно y-переменной. Очевидно, калибровка должна способствовать уменьшению отклонений (wi – di).

Цель «калибровки, приводящей в соответствие с известными вспомогательными итогами по совокупности» может быть реализована многими путями. Мы можем получить множество наборов калиброванных весов для известных . Мы остановимся на методе минимизации расстояния и методе инструментального вектора. Некоторые другие методы конструирования калиброванных весов предложены в Demnati и Rao (2004)34.

1.7. Метод минимального расстояния

В этом методе калибровкой предполагается изменять начальные веса di = 1/πi к новым весам wi, определенным как «близкие» к di. В связи с этим, можно ввести функцию расстояния Gi(w, d), определенную для каждого w > 0, такого, что Gi(w, d) ≥ 0, Gi(d, d) = 0, дифференцируемую относительно w, строго выпуклую, с непрерывной производной , такой, что gi(d, d) = 0. Обычно, функция расстояния выбирается таким образом, что gi(w, d) = gi(w/d)/qi , где qi — соответственно выбранные масштабные коэффициенты, g(·) — функция одного аргумента, непрерывная, строго возрастающая, с g(1) = 0, g'(1) = 1. Пусть F(u) = g-1(u) функция, обратная g(·). Минимизируя сумму расстояний на ограничениях уравнений калибровки , получаем wi = diF(qixi), где λ получен как решение (предполагаем, что оно существует) для:

(4)

У весов есть свойство оптимальности, так как целевая функция минимизируется должным образом, но это — «слабая оптимальность» в том смысле, что есть много возможных форм функции расстояния и масштабных коэффициентов qi.

Большое внимание уделяется функции расстояния вида

Gi(wi, di) = (wi – di )2/ 2diqi. Она дает gi(wi, di) = (wi/di – 1)/qi; g(w / d) = w / d − 1; F(u) = g-1 + u. Термин «линейный вариант» в этом случае вполне подходит. Выражение (4) запишем как

, чтобы проще вычислить λ. Получающаяся оценка для есть с весами wi = digi, данными в (3). Поэтому , как указано в (2) и остатки, которые определяют асимптотическую дисперсию Ei = yi xi'BΩq, как дано в п. 1.5. Имеется возможность получения некоторого количества отрицательных весов wi.

Линейная GREG-оценка подразумевает веса, которые как будто калиброваны (по ), с другой стороны, линейный случай калибровки (с функцией расстояния по хи-квадрат) приводит к линейной GREG-оценке.

Уравнение калибровки удовлетворяется для любого выбора неотрицательных масштабных коэффициентов qi в (4). Простой выбор qi = 1 для всех i, но это не всегда предпочтительный выбор. К примеру, если есть единственная всегда неотрицательная вспомогательная переменная xi = xi, многие будут интуитивно предполагать, что приводит к обычной оценке по отношению: , и так оно и есть, но при qi = хi-1, а не при qi = 1.

Значительный интерес представляет другая функция расстояния: Gi(wi, di) = {wilog(wi/di) – wi + di} / di. Из нее следует F(u) = g-1(u) = exp(u), «экспоненциальный случай». Тогда (4) запишем как .

Численные методы требуют решения по λ для получения весов wi = diexp(qixi'λ). И никаких отрицательных весов не возникнет.

Deville и Sarndal (1992)35 показали, что множество функций расстояния, удовлетворяющих умеренным условиям, производят асимптотически эквивалентные статистические оценки калибровки. Альтернативные функции калибровки рассмотрены и подвергнуты сравнению в Deville, Sarndal и Sautory36 (1993), Singh и Mohl (1996), Stukel, Hidiroglou и Sarndal (1996)37. Некоторые функции расстояния можно задать так, чтобы они гарантировали, что веса будут находиться в пределах указанных границ, чтобы исключить возможность появления слишком больших или слишком маленьких (отрицательных) весов. Модификации функции расстояния часто имеют только незначительное влияние на дисперсию калиброванной оценки , даже если объем выборки будет довольно малым.

1.8. Вычислительные проблемы, критические веса и выбросы

Вычисление калиброванных весов поднимает важные вычислительные проблемы, обсуждаемые во многих статьях. Все вычисления должны проходить гладко и без чрезмерного вмешательства в практике получения информационного продукта национальным статистическим агентством. Многие практики придерживаются разумного требования, что все калиброванные веса должны быть позитивными (больше или равными единице) и следует избежать очень больших весов. Некоторые из весов, согласно формулам их вычисления, могут оказаться очень большими или отрицательными. Park и Fuller (2005)38 предлагают методы, как избежать нежелательных весов. В методе минимизации расстояния функция расстояния может быть сформулирована так, чтобы отрицательные веса были исключены, но при этом удовлетворяли по-прежнему уравнениям ограничений калибровки.

Программа, применяемая во Франции, CALMAR (Deville, Sarndal и Sautory, 1993)39 позволяет задавать несколько функций расстояния этого вида. Другие статистические агентства разработали свое собственное программное обеспечение для вычисления весов. Среди них — GES (Статистика Канады), CLAN97 (Статистика Швеции), Bascula 4.0 (Центральное бюро статистики, Нидерланды), g-CALIB (Статистика Бельгии). Все они имеют различные средства для преодоления вычислительных проблем.

GES использует линейное программирование для минимизации функции расстояния вида хи-квадрат, на ограничениях калибровки, а также индивидуальным границам весов. Программа g-CALIB, описанная в (Vanderhoeft, Waeytens и Museux, 2001)40, использует обобщенную инверсию матриц по Муру-Пенроузу для вычисления веса, следовательно, это предотвращает возможное вырождение матриц вследствие избыточности (и — линейной зависимости) вспомогательной информации.

Вмешательство в ограничение весов поднимает вопрос, как далеко можно отклониться от весов выборочного плана di не ставя под угрозу цель получения плана, дающего почти не смещенные оценки. Идея состоит в том, чтобы изменить набор ограничений так, чтобы не нарушались разрешенные допуски между статистической оценкой вспомогательных переменных и соответствующими известными итогами. К примеру, Chambers и Dorfman (1996)41 предлагают минимизировать «функцию потерь с быстро возрастающей стоимостью».

Значения выбросов во вспомогательных переменных могут быть причиной критических весов. Калибровка при наличии выбросов обсуждается в Duchesne (1999)42. Его методика «робастной калибровки» может добавить определенное смещение в оценках, но это, однако, может быть более чем компенсировано сокращением дисперсии. В тех случаях, когда набор ограничений расширяется ограничениями с допустимыми интервалами для весов, решение задачи оптимизации не гарантируется. Вопросы существования решения рассматриваются в Theberge (2000)43, там же предлагаются методы для ситуаций с выбросами.

2. О возможности использования предлагаемой методики в практике Росстата

2.1. Вычисление калиброванных весов в случае только выборочной вспомогательной информации

Две особенности линейной GREG-оценки (2) делают ее популярным инструментом в практике статистических служб.

(1) Итоги по совокупности вспомогательных переменных могут быть «вынесены за скобки» и процесс вычисления оценки может продолжаться так долго, пока точные значения итогов не будут вычислены или получены из внешних источников.

(2) Хоть оценка и записана как линейная взвешенная сумма , система весов (3) независима от конкретной y-переменной и, таким образом, может быть применена ко всем y-переменным в обследовании.

Нам не нужно знать значения вектора xi для каждого объекта i Ω по всей совокупности, знания итогов достаточно. Само собой разумеется, если мы знаем все xi для i Ω, могут быть найдены более эффективные члены семейства GREG-оценок (1) (все еще почти несмещенные). Это можно противопоставить другой критике линейных GREG-оценок, а именно, что линейная модель не реалистична для многих моделей данных. Например, для дихотомической у-переменной логарифмическая вспомогательная модель может быть и более реалистичной и может привести к более точной (нелинейной) GREG-оценке.

Мы можем суммировать анализ GREG-оценки для калибровки весов следующим образом. У линейной GREG-оценки есть практические преимущества, для масштабного применения в практике выборочных наблюдений Росстата. Такая оценка может быть выражена как линейная взвешенная сумма значений интересующей нас переменной с весами, калиброванными по известным итогам , веса независимы от значений у-переменной и могут быть применены ко всем у-переменным в обследовании. Для этого достаточно знать значения вспомогательных итогов , полученных из надежного источника. Нелинейная GREG-оценка может дать значительно уменьшенную дисперсию в результате применения более совершенных моделей, которые можно рассматривать, когда есть полная вспомогательная информация (известен вектор xi для каждого объекта i Ω), почти несмещенность выборочного плана сохраняется. Определенные нелинейные GREG-оценки могут быть сформулированы как линейно взвешенные суммы.

В академических упражнениях с искусственно созданными совокупностями и зависимостями можно вызвать ситуации, где у нелинейной GREG-оценки есть большое преимущество в величине дисперсии перед линейной GREG-оценкой. Такие эксперименты важны для иллюстрации. Однако, при рассмотрении ежедневных практических потребностей Росстата в организации выборочных обследований и обработке их данных, «неправдоподобная» форма нелинейной GREG-оценки, кажется, представляет в данный момент довольно отдаленный интерес. Вспомогательные модели для GREG-оценки должны отвечать требованиям надежности и практичности, в том числе, иметь хорошо объясняемую форму, связанную с социально-экономическими смыслами. Привлекательность незначительного сокращения дисперсии может быть уничтожена проблемами в другом — ошибками, не связанными с моделированием и выборочным планом, ошибками наблюдения и прочими неприятностями, происходящими в ежедневном рабочем процессе статистической службы. Прогресс методологии от линейной к нелинейной GREG-оценке создает возможности, но и порождает вопросы. Какова самая соответствующая формулировка математического ожидания для нелинейной оценки? Насколько чувствительны результаты к спецификации вспомогательной модели в части формулы дисперсии? До какой степени является проблемой вычислительная эффективность в широком понимании этого термина?

Deville и Sarndal (1992)44 предложили калиброванную оценку:

(5)

для оценки Горвица-Томпсона (1952)45:

(6)

где di = 1/πi — базовый вес плана выборки и калиброванные веса wi, i s, полученные при минимизации функции расстояния типа хи-квадрат:

(7)

на ограничениях калибровки:

(8)

Здесь qi, i s это неотрицательные константы, с помощью которых можно задать веса объектов, не связанные с выборочным планом. В большинстве ситуаций значение qi принимают равным 1. Форма статистической оценки (5) зависит от выбора qi. Минимизация (7), подчиненной уравнению калибровки (8) приводит к калиброванным весам вида:

(1.9)

Подстановка значений wi из (1.9) в (5) приводит к обобщенной регрессионной оценке (GREG) суммы Y по всей совокупности:

где

Выражения в предложенной форме вполне пригодны для включения в расчетный алгоритм для расчета калиброванных весов и вычисления калиброванных оценок итогов для простого случая с одной вспомогательной переменной или функцией, объединяющей несколько вспомогательных переменных.

2.2. Пример калибровки по данным Республики Коми

Обследована совокупность предприятий в Республике Коми. По переписи: 3910 предприятий с ненулевой выручкой. Составим выборочный план, выполним выборку, подставим данные обследования и вычислим оценки в среде SPSS.

Таблица 1. Описательные статистики

 

N

Минимум

Максимум

Сумма

Среднее

Дисперсия

Выручка

3910

0

347404.0

11448544.8

2928.017

140696220,1

Численность

4123

0

100

53217

12.91

289.176

N валидных (целиком)

3910

 

 

 

 

 


Рис. 1. Гистограмма распределения предприятий по размеру Выручки


Рис. 2. Гистограмма распределения предприятий по численности работников

Представленные гистограммы показывают, что распределение предприятий как по величине Выручки, так и по Численности сильно отличаются от нормального распределения. Основа выборки — статистический регистр предприятий.

Выборочный план: простая случайная выборка без возвращения, объем выборки — 20%, всего выбрано 981 предприятие.

Таблица 2. Оценки Горвица-Томпсона по выборке

 

Оценка

Стандартная ошибка

95% доверительный интервал (границы)

Коэффициент вариации

Эффект плана

Нижняя

Верхняя

Среднее

Выручка

3068.770

338.0301

2405.248

3732.292

0.110

1.000

Численность

12.68

0.521

11.66

13.71

0.041

1.000

Сумма

Выручка

12392774.8

1.3651E6

9713239.3

15072310.4

0.110

1.000

Численность

54008

2219.169

49652

58364

0.041

1.000

Изучаемая у-переменная — Выручка.

Вспомогательная х-переменная — Численность, ее известный итог 53217, оценка 54008.

Вспомогательная переменная одна, поэтому масштабные коэффициенты qi можно принять равными единице.

Калиброванные веса, согласно (1.9):

Таблица 3. Оценки по выборке с калиброванными весами

 

Оценка

Стандартная ошибка

95% доверительный интервал (границы)

Коэффициент вариации

Нижняя

Верхняя

Среднее

Выручка

3046.753

332.9601

2393.183

3700.323

0.109

Численность

12.56

0.512

11.56

13.57

0.041

Сумма

Выручка

12242467.3

1.3371E6

9617833.9

14867100.6

0.109

Численность

53239

2157.010

49005

57473

0.041

Сведем полученные результаты в отельную таблицу. Эффект, достигаемый калибровкой, будем оценивать по относительному смещению в % (Relative Percentage Bias (RB%)) в сравнении с истинной суммой и оценкой Горвица-Томпсона, полученной по выборке с начальными весами:

, где — оценка Горвица-Томпсона, — истинная сумма интересующей нас переменной, полученная по сплошному обследованию. Аналогичная формула применена для калиброванной оценки .

Таблица 9.4. Эффект калибровки

 

Истинная сумма по сплошному обследованию

Оценка Горвица-Томпсона с начальными весами

Оценка с калиброванными весами

Сумма

Относите льная ошибка

RBHT%

Сумма

Относите льная ошибка

RBCAL%

Выручка

11448544.8

12392774.8

8.25

12242467.3

6.93

Численность

53217

54008

1.48

53239

0.04

Резкое снижение ошибки по калиброванной оценке Численности связано с тем, что именно эта переменная была нами выбрана в качестве вспомогательной и именно по ее итогу проводилась калибровка. Очевидное снижение ошибки по Выручке не столь заметно в предлагаемом случае, так как и некалиброванная оценка уже достаточно хороша. Тем не менее, даже в таком варианте калибровка дает ощутимый эффект снижения смещения оценки и этот эффект будет тем больше, чем хуже будет некалиброванная оценка и чем больше ошибок, не связанных с выборочным планом (неответы, недостаточная актуальность основы выборки и пр.), встретится в процессе проведения обследования.


1 Методологические положения по статистике. Вып. 3 / М 54 Госкомстат России. — М., 2000. — с. 9 — 26.

2 Roberts G., Binder D., Kovacevic M., Pantel M., Phillips O., Using an estimating function bootstrap approach for obtaining variance estimates when modelling complex health survey data./ SSC Annual Meeting, June 2003.,Proceedings of the Survey Methods Section.

3 Эфрон, Б. Нетрадиционные методы многомерного статистического анализа: Сб. статей: Пер с англ./ — М., Финансы и статистика, 1988. — с. 19 — 48.

4 Жан-Клод Девиль (Jean-Claude Deville) — руководитель отдела статистической методологии и выборки Национального института статистики и экономических исследований Франции (Institut National de la Statistique et des ' Etudes ' Economiques (INSEE)).

5 Карл-Эрик Сендал (Carl-Erik Sarndal) — профессор отдела математики и статистики Университета Монреаля, Канада.

6 Deville Jean-Claude., Sarndal Carl-Erik. Calibration Estimators in Survey Sampling./ Journal of the American Statistical Association, Vol. 87, No. 418. Jun 1992, 376–382.

7 КОННОТАЦИЯ, тип лексической информации, сопутствующей значению слова. Иногда называется также (семантической) ассоциацией. Коннотация слова отражает такой признак обозначаемого им объекта, который, хотя и не составляет необходимого условия для применения данного слова, но устойчиво связан с обозначаемым объектом в сознании носителей языка.

8 Ardilly, P. Les techniques de sondage. 2006, Paris: Editions Technip.

9 Kott, P.S. Using calibration weighting to adjust for nonresponse and coverage errors. Survey Methodology, 2006, 32, 133­142.

10 Hansen, M.H., and Hurwitz, W.N. On the theory of sampling from finite populations. Annals of Mathematical Statistics, 1943,14, 333–362.

11 Horvitz, D.G., and Thompson, D.J. A generalization of sampling without replacement from a finite universe. Journal of the American Statistical Association, 1952, 47, 663–685.

12 Lemaitre, G., and Dufour, J. An integrated method for weighting persons and families. Survey Methodology, 1987, 13, 199–207.

13 Zieschang, K.D. Sample weighting methods and estimation of totals in the Consumer Expenditure Survey. Journal of the American Statistical Association, 1990, 85, 986–1001.

14 Rueda, M., Martinez, S., Martinez, H. and Arcos, A. Estimation of the distribution function with calibration methods. Journal of Statistical Planning and Inference, 2007, 137, 435–448.

15 Renssen, R.H., and Nieuwenbroek, N.J. Aligning estimates for common variables in two or more sample surveys. Journal of the American Statistical Association, 1997, 92, 368–374.

16 Renssen, R.H., Kroese, A.H. and Willeboordse, A.J. Aligning estimates by repeated weighting. Report, Central Bureau of Statistics, 2001, The Netherlands.

17 Knottnerus, P., and van Duin, C. Variances in repeated weighting with an application to the Dutch Labour Force Survey. Journal of Official Statistics, 2006, 22, 565–584.

18 Harms, T., and Duchesne, P. On calibration estimation for quantiles. Survey Methodology, 2006, 32, 37–52.

19 Wu, C., and Sitter, R.R. A model-calibration approach to using complete auxiliary information from survey data. Journal of the American Statistical Association, 2001, 96, 185193.

20 Vanderhoeft, C., Waeytens, E. and Museux, J.M. Generalised calibration with SPSS 9.0 for Windows baser. In Enquetes, Modeles et Applications (Eds. J.J. Droesbeke and L. Lebart), 2001, Paris: Dunod.

21 Webber, M., Latouche, M. and Rancourt, E. Harmonised calibration of income statistics. Statistics Canada, internal document, April 2000.

22 Plikusas, A. Nonlinear calibration. Proceedings. Workshop on Survey Sampling, 2006, Venspils, Latvia. Riga: Central Statistical Bureau of Latvia.

23 Ardilly, P. Les techniques de sondage. 2006, Paris: Editions Technip.

24 Montanari, G.E., and Ranalli, M.G. On calibration methods for design-based finite population inferences. 2006, Bulletin of the International Statistical Institute, 54 th session, volume LX, contributed papers, book 2, 81 -82.

Montanari, G.E., and Ranalli, M.G. Nonparametric model-calibration estimation in survey sampling. Journal of the American Statistical Association, 2005, 100, 1429–1442.

25 Wu, C., and Sitter, R.R. A model-calibration approach to using complete auxiliary information from survey data. Journal of the American Statistical Association, 2001, 96, 185193.

26 Lavallee, P. Indirect Sampling. 2007, New York: Springer Verlag.

27 Beaumont, J.F. Calibrated imputation in surveys under a quasi model-assisted approach. Journal of the Royal Statistical Society B, 2005, 67, 445–458.

28 Zheng, H., and Little, R.J.A. Penalized spline model-based estimation of the finite population total from probability- proportional-to-size-samples. Journal of Official Statistics, 2003, 19, 99–117.

29 Вероятность включения первого порядка.

30 Вероятность включения второго порядка.

31 Sarndal, C.E., Swensson, B. and Wretman, J. Model-assisted Survey Sampling. 1992, New York: SpringerVerlag.

32 Sarndal, C.E., Swensson, B. and Wretman, J. Model-assisted Survey Sampling. 1992, New York: SpringerVerlag.

33 Beaumont, J.F.,and Alavi, A. Robust generalized regression estimation. Survey Methodology, 2004, 30, 195–208.

34 Demnati, A., and Rao, J.N.K Linearization variance estimators for survey data. Survey Methodology, 2004, 30, 17–26.

35 Deville Jean-Claude., Sarndal Carl-Erik. Calibration Estimators in Survey Sampling./ Journal of the American Statistical Association, Vol. 87, No. 418. Jun 1992, 376–382.

36 Deville, J.-C., Sarndal, C.-E. and Sautory, O. (1993) Generalized Raking Procedures in Survey Sampling, Journal of the American Statistical Association, Vol. 88, No. 423, 1013–1020.

37 Stukel, D.M., Hidiroglou, M.A. and Sarndal, C.E. Variance estimation for calibration estimators: A comparison of jackknifing versus Taylor linearization. Survey Methodology, 1996, 22, 117–125.

38 Park, M. and Fuller, W.A. Towards nonnegative regression weights for survey samples. Survey Methodology, 2005, 31, 85–93.

39 Deville, J.-C., Sarndal, C.-E. and Sautory, O. (1993) Generalized Raking Procedures in Survey Sampling, Journal of the American Statistical Association, Vol. 88, No. 423, 1013–1020.

40 Vanderhoeft, C., Waeytens, E. and Museux, J.M. Generalised calibration with SPSS 9.0 for Windows baser. In Enquetes, Modeles et Applications (Eds. J.J. Droesbeke and L. Lebart), 2001, Paris: Dunod

41 Chambers, R.L., Dorfman, A.H. and Wehrly, T.E. Bias robust estimation in finite populations nonparametric calibration. Journal of the American Statistical Association, 1993, 88, 268–277.

42 Duchesne, P. Robust calibration estimators. Survey Methodology, 1999, 25, 43–56.

43 Theberge, A. Calibration and restricted weights. Survey Methodology, 2000, 26, 99–107.

44 Deville Jean-Claude., Sarndal Carl-Erik. Calibration Estimators in Survey Sampling./ Journal of the American Statistical Association, Vol. 87, No. 418. Jun 1992, 376–382.

45 Horvitz, D.G., and Thompson, D.J. A generalization of sampling without replacement from a finite universe. Journal of the American Statistical Association, 1952, 47, 663–685.