Библиотека маркетолога

«Средняя температура по больнице»: насколько объективна выборка?

Дарелл Хафф Глава из книги «Как лгать при помощи статистики»
Издательство «Альпина Паблишер»

«Средний выпускник Йельского университета 1924 г. зарабатывает $25 111 в год» — это было опубликовано однажды в журнале Time в ответ на какой-то материал, вышедший в нью-йоркской газете Sun.

Ну что ж, зарабатывает — вот и молодец!

Но погодите-ка. А что, собственно, означает эта внушительная цифра? Будет ли она, как это кажется на первый взгляд, свидетельством того, что, если вы отправите своего отпрыска учиться в Йельский университет, вам уже не придется работать на старости лет (да и ему тоже)?

Уже при первом настороженном взгляде на эту цифру бросаются в глаза две особенности. Сама цифра на удивление точна. И потом, она неправдоподобно велика.

Маловероятно, чтобы средний доход любой сколько-нибудь обширной группы был бы известен с точностью до последнего доллара. Не так уж вероятно, чтобы вы с такой же точностью могли бы сказать, каким был ваш собственный доход в прошлом году, разве что весь он был получен исключительно за счет зарплаты. А годовой доход в размере $25 000 редко когда складывается только из заработной платы; люди с доходом такого уровня склонны делать инвестиции, причем их вложения предусмотрительно и с умом распределены между несколькими «корзинами».

Кроме того, этот восхитительный средний показатель рассчитан, несомненно, на основании тех сумм, которые, как сообщили сами выпускники Йеля, они зарабатывают. Даже если в 1924 г. у них там в Нью-Хейвене и имелась система доверия, то где гарантия, что и сегодня, четверть века спустя, она по-прежнему существует и все данные, представленные этими выпускниками, соответствуют действительности? Иные, отвечая на вопрос о личных доходах, склонны преувеличивать их — то ли из тщеславия, то ли потому, что настроены оптимистически. Другие же намеренно занижают свои доходы, особенно (и на то есть причины) в своих налоговых декларациях, а сделавши это, боятся, как бы данные, указанные ими где-нибудь еще, не опровергали тех, что значатся у них в декларации. Ведь неизвестно, какие сведения могут попасться на глаза чиновникам налогового управления. Вполне могло быть так, что эти две тенденции (завышать свои доходы или занижать их) нейтрализуют одна другую, но едва ли это вероятно. Одна из двух может быть намного сильнее другой, а вот которая — нам не известно.

Мы начали с того, что проанализировали цифру, которая, как подсказывает здравый смысл, вряд ли соответствует действительности. А теперь давайте разберемся с возможной причиной серьезной ошибки: почему эти самые $25 111 указываются в качестве среднего дохода неких людей, чей фактический средний доход с таким же успехом может быть и вполовину меньше названной суммы?

Причина тому — процедура составления выборки, и именно она представляет собой сердцевину большей части статистических данных, которые встречаются в самых разнообразных сферах. Основа этой процедуры довольно проста, а вот старания усовершенствовать ее на поверку только заводили на всяческие глухие окольные тропы, иногда весьма малопочтенные. Если у вас есть мешок бобов, часть из которых красного, а часть белого цвета, то единственный способ точно определить, сколько у вас белых бобов и сколько красных, — это пересчитать их. Однако есть и более простой способ приблизительно оценить количество красных и белых бобов — зачерпнуть пригоршню и сосчитать, сколько в ней будет белых бобов и сколько красных, исходя из предположения, что и в общем объеме белые и красные бобы содержатся в такой же пропорции. Если взятая вами для исследования пригоршня бобов, то есть выборка, достаточно велика и правильно отобрана, то для большинства надобностей она будет вполне репрезентативной. В противном случае выборка даст вам значительно менее точное представление о целом, чем сколько-нибудь обоснованные прикидки, а ее единственным достоинством будет разве что иллюзорное впечатление научной точности. Как ни печально, а выводы на основе такого рода выборок (необъективных или слишком малых, чтобы верно отразить свойства целого, или страдающих обоими этими изъянами) как раз и лежат в основе большинства из того, о чем нам доводится читать, или того, что мы, как нам представляется, знаем.

Упомянутые газетой сведения о доходах выпускников Йельского университета основаны на выборке. В этом можно не сомневаться, поскольку, как подсказывает здравый смысл, невозможно опросить всех выпускников 1924 г. Наверняка среди них довольно много людей, чье место проживания сейчас, спустя четверть века после выпуска, неизвестно.

А среди тех, чьи адреса известны, многие не стали бы заполнять анкету, тем более с вопросами такого щекотливого свойства. Для некоторых анкет, рассылаемых по почте, 5-10% ответивших уже считается достаточно высоким результатом. Данная анкета, надо полагать, добилась большего успеха, но ее результат явно далек от стопроцентного.

Итак, мы выяснили, что размер дохода вычислен на основе выборки, составленной из всех выпускников, адреса которых были известны и которые ответили на анкету. Репрезентативная ли это выборка? Иными словами, можно ли считать эту группу выпускников равной с точки зрения доходов группе выпускников, не представленных в выборке, то есть тех, чьи адреса не удалось раздобыть, и тех, кто не пожелал заполнить анкету?

Так кто же эти заблудшие овечки из числа выпускников Йельского университета, которые прошли по категории «адрес неизвестен»? Возможно ли, что они хорошо зарабатывают — ну, скажем, это дельцы с Уолл-стрит, директора компаний, руководители разных сортов? Нет, установить адреса людей состоятельных не составило бы труда. Большинство из самых преуспевающих выпускников того курса можно было бы найти в справочнике «Кто есть кто в Америке» или в других изданиях, даже если сами эти люди не пожелали поддерживать контакты с ассоциацией выпускников. Вполне правдоподобной представляется догадка, что найти не удалось имена тех выпускников, кто двадцать пять лет назад покинул стены Йельского университета с дипломом бакалавра гуманитарных наук, но так и не сумел заявить о себе чем-нибудь выдающимся. Это простые клерки, механики, бродяги, безработные алкоголики или перебивающиеся с хлеба на воду писатели и художники... в общем, те, кто только вшестером, если не больше, могли бы общими усилиями наскрести те самые $25 111 в год. Люди подобного сорта не так уж часто изъявляют желание встретиться со своими однокашниками, хотя бы по той причине, что не могут позволить себе подобную поездку.

Так кто они, те люди, что выкинули в ближайшую мусорную корзину анкету выпускника, присланную по почте? Знать наверняка мы не можем, но будет резонно предположить, что многие из них просто не могут похвастаться своими заработками. Они чем-то напоминают парня, который получил свою первую зарплату и увидел, что к чеку пришпилена записка. В ней выражалась уверенность, что он считает размер своей заработной платы конфиденциальной информацией и не станет обсуждать ее в разговорах с коллегами. «Не беспокойтесь, — говорит этот парень своему боссу, — я стыжусь размера этой суммы не меньше вас».

Итак, нам уже ясно, что в выборку не были включены две группы выпускников, чьи доходы, скорее всего, уменьшили бы средний показатель годового заработка. И вот сумма $25 111 получает наконец свое объяснение. Если эта цифра и вправду в чем-то верна, то она относится всего лишь к определенной группе йельских выпускников 1924 г. — к тем, чьи адреса известны и кто пожелал открыто заявить, сколько зарабатывает в год. Но даже этот вывод следует основывать на том допущении, что все эти достойные господа сказали правду.

А такое предположение не следует с ходу принимать за само собой разумеющееся. Как показывает опыт проведения выборочного исследования одной из категорий, а именно изучения рыночной конъюнктуры, такое допущение едва ли вообще имеет право на существование. Как-то раз был проведен сплошной опрос населения, который имел целью изучить читательскую аудиторию популярных журналов. Основной вопрос, который задавали исследователи, один за другим обходя дома, был сформулирован так: «Какие журналы читают члены вашей семьи?» Когда результаты опроса свели в таблицы и проанализировали, выяснилось, что огромное количество американцев обожают Harper's, а вот журнал True Story1 читают очень немногие. Между тем у издателей имелись в то время данные, которые очень четко показывали, что True Story выпускается миллионными тиражами, а Harper's — в сотни тысяч экземпляров. «Должно быть, мы опрашивали не тот контингент, какой следовало бы», — сказали себе организаторы опроса. Но нет: опросы проводились в самых разных районах по всей стране. В таком случае единственное разумное объяснение таково: значительная часть респондентов (так называют людей, когда они принимают участие в подобных опросах) попросту сказала неправду. В итоге практически единственное, что удалось выявить при помощи данного опроса, — порядочный снобизм населения.

В итоге стало понятно, что, если требуется определить, что читает определенная группа людей, нет смысла спрашивать их об этом. Можно собрать намного больше сведений, если обходить дома этих людей под тем предлогом, что вы хотите купить старые журналы, и спрашивать, найдется ли у них что-нибудь в этом роде. А затем вам останется всего лишь пересчитать добытые экземпляры научного журнала Yale Review и душещипательного чтива Love Romances. Однако даже такой отчасти сомнительный способ, безусловно, не даст представления о том, какие издания читает ваш контингент, а только укажет, какие издания попадают в руки этим людям.

Подобным образом в следующий раз, когда вы прочитаете, что средний американец (в наши дни вы узнаете об этом субъекте много всякой всячины, причем по большей части все это слегка неправдоподобно) чистит зубы 1,02 раза в день — эту цифру я придумал прямо сейчас, но она ничем не уступает любой другой, — задайте себе вопрос: каким образом кому-то удалось собрать такие сведения? Неужели женщина, начитавшаяся бесчисленных рекламных объявлений, где утверждается, что люди, не чистящие зубов, оскорбляют общественные устои, сознается совершенно незнакомому человеку, что делает это нерегулярно? Такого рода статистика может представлять интерес только для тех, кто хочет определить, что говорят люди о чистке зубов, но она мало что скажет о том, как часто щетка соприкасается с зубами респондентов.

Река, как нас учат, не может подняться выше своих истоков. Это верно, такое было бы возможно, только если где-нибудь неподалеку от нее находилась бы насосная станция. И в такой же степени верно утверждение, что результат выборочного исследования не может быть лучше выборки, на которой оно основано. К тому моменту, когда собранные данные, пройдя сквозь все процедуры статистических манипуляций, сведены к средним показателям, выраженным с точностью до десятых долей, они уже приобретают некий ореол убедительности, от которой не останется и следа, если повнимательнее взглянуть на сам процесс выборочного исследования.

Правда ли, что ранняя диагностика рака сохраняет жизни пациентов? Очень может быть. Однако, основываясь на цифрах, часто используемых для подкрепления этого тезиса, можно сказать, что они вовсе не подтверждают это. Цифры эти, представленные в Онкологическом реестре Коннектикута, относятся к 1935 г. и на первый взгляд указывают, что в период с того самого 1935 г. по 1941 г. существенно улучшился показатель выживаемости больных в течение пяти лет с момента диагностики у них ракового заболевания. На самом деле фиксация таких данных началась в 1941 г., а данные за предшествующие годы были получены путем ретроспективного исследования. Многие пациенты уехали из Коннектикута, и невозможно было установить, живы они или скончались. Возникшая из-за этого изначальная необъективность выборки «была достаточной, чтобы практически полностью объяснить заявленное улучшение показателя выживаемости», считает журналист Леонард Энджел, специализирующийся на медицинской тематике.

Чтобы данные выборочного исследования имели значительную ценность, они должны основываться на репрезентативной выборке, то есть на выборке, из которой устранены все возможные источники предвзятости. Вот где наша цифра, обозначающая доходы выпускников Йеля, показывает свою несостоятельность. По этим же соображениям огромное количество сведений, встречающихся на страницах газет и журналов, лишены какого бы то ни было смысла.

Один психиатр заявил, что практически любой человек — неврастеник. Оставим в стороне тот факт, что подобное обращение с термином «неврастеник» лишает его всякого смысла, и посмотрим на выборку, послужившую основой для такого вывода. Иными словами, спросим себя: каких именно людей наблюдал данный психиатр? Оказывается, он пришел к такому поучительному выводу, изучая своих пациентов, а они более чем неподходящие кандидатуры на роль выборки из всего населения. Если человек был вполне нормален, у нашего психиатра не было никаких шансов увидеть его у себя на приеме.

Подвергайте такому осмыслению все прочитанное, и тогда вы сумеете оградить себя от великого множества сведений, не имеющих под собой реальной почвы.

Полезно помнить и о том, что скрытые источники необъективности способны с такой же легкостью подорвать надежность выборки, как и очевидные. Я имею в виду, что, даже если вам не удается обнаружить явный источник необъективности, позвольте себе некоторую долю сомнений и не доверяйте выводам безоговорочно, если имеется хоть какая-то вероятность, что они предвзяты. А это, поверьте, всегда возможно. В доказательство достаточно вспомнить президентские выборы в 1948-м и 1952 г., и всякие сомнения в этом отпадут2.

Для вящей убедительности давайте вернемся в 1936 г., к временам, когда влиятельнейший журнал Literary Digest, общепризнанный в то время лидер изучения предпочтений американских избирателей, потерпел приснопамятное фиаско. Те десять миллионов опрошенных телефонных абонентов и подписчиков Literary Digest, которые уверили редакцию злополучного журнала, что победителем в президентской гонки выйдет республиканец Альфред Лэндон с 370 голосами выборщиков против 161 голоса за Франклина Рузвельта, были из того же списка рассылки, каким журнал воспользовался в 1932 г., когда блестяще предсказал итоги президентских выборов.

Разве можно было заподозрить в предвзятости людей из списка, который в прошлом так хорошо себя зарекомендовал? Но, разумеется, предвзятость имела место, и список был нерепрезентативен, что и установили авторы диссертаций и прочие любители изысканий постфактум. Контингент населения, который в 1936 г. мог себе позволить иметь телефон и подписываться на Literary Digest, не был срезом всей совокупности избирателей. В экономическом плане это была особая категория населения, то есть нерепрезентативная выборка, поскольку она изобиловала теми, кто поддерживал Республиканскую партию. Данная выборка и отдала предпочтение Лэндону, тогда как избиратели в массе своей имели другое мнение на этот счет.

Базовая выборка относится к категории случайной (вероятностной) выборки. Она отбирается произвольным образом из генеральной совокупности, под которой статистики понимают весь обследуемый массив. Например, выбирается каждое десятое имя в картотеке индексных карточек. Или из шляпы, полной свернутых бумажек, наугад выбираются пятьдесят штук. Или интервьюируется каждый двадцатый человек на главной улице Сан-Франциско Маркет-стрит. (К вашему сведению, последняя из упомянутых не будет выборкой ни населения всего мира, ни Соединенных Штатов, ни самого Сан-Франциско, это всего лишь выборка из всей массы людей, находящихся в это конкретное время на Маркет-стрит. Одна дама, проводившая опрос общественного мнения, рассказывала, что находила респондентов на железнодорожной станции, поскольку «на вокзалах можно обнаружить людей всех возможных категорий». Следовало бы указать ей, что матери малолетних ребятишек, например, могли быть недостаточно представлены в вокзальной толпе.)

Проверить, действительно ли выборка имеет случайный (произвольный) характер, можно с помощью такого вопроса: каждое ли имя или предмет из обследуемой совокупности имеют равный шанс попасть в выборку?

Безупречно случайная — единственный тип выборки, которую можно исследовать при помощи статистических методов с полной уверенностью в надежности результата. Но у нее имеется один недостаток. Получить такую выборку для множества надобностей настолько трудно и дорого, что чисто материальные соображения заставляют отказаться от этой идеи. Более экономной заменой, повсеместно используемой в таких сферах, как изучение общественного мнения и рыночной конъюнктуры, будет стратифицированная случайная выборка.

Чтобы получить стратифицированную выборку, вы должны разбить генеральную совокупность на несколько групп (страт) пропорционально известному показателю их распространенности в совокупности. Вот тут-то и начнутся трудности: сведения о том, каково соотношение групп в генеральной совокупности, могут быть некорректны. Вы инструктируете интервьюеров, которые будут проводить опрос, и наказываете им проследить, чтобы среди опрошенных было столько-то чернокожих, такой-то процент людей, относящихся к нескольким группам населения по размеру доходов, определенное число фермеров и т. п. Но вместе с тем в группе должно быть представлено равное количество людей в возрасте старше и моложе сорока лет.

Все это выглядит убедительно, но что происходит на деле? В том, что касается цвета кожи респондентов — белый это или чернокожий, интервьюеры в большинстве случаев не ошибутся. Но они допустят больше ошибок в оценке размера доходов опрашиваемых. А если говорить о фермерах, то как вы классифицируете человека, который часть времени трудится на ферме, но вдобавок имеет работу в городе? Даже такой вопрос, как возрастная категория респондента, может создать некоторые трудности, но интервьюеры преодолевают их самым простым способом — выбирают респондентов, которые явно старше или значительно моложе сорока лет. Правда, в таких случаях выборка будет предвзятой ввиду фактического отсутствия в ней лиц в возрасте под сорок и тех, кому сорок с небольшим. Так что, как ни крути, хорошего решения все равно нет.

А кроме всего прочего, как на условиях стратификации получить вероятностную выборку? Самое очевидное решение — сначала переписать всех, кто входит в страту, а затем найти и опросить выбранных из этого списка случайным образом. Но это слишком уж дорогостоящая процедура. И тогда вы просто выходите на улицу — и сами искажаете свою выборку, поскольку в ней не будут представлены люди, которые сидят в это время по домам. Если вы будете стучаться в двери днем — значит, не охватите большинство тех, кто работает. Решив проводить опросы по вечерам, вы упустите любителей кинематографа и завсегдатаев ночных клубов.

В итоге проведение опроса сводится к стараниям побороть источники необъективности, и эту битву ведут все до единой почтенные организации, занимающиеся проведением опросов. Те, кто читает их доклады, должны помнить: эту битву никто и никогда не выигрывает. Всякий раз, когда вам где-нибудь встречается вывод, что «67% американцев против» того-то или того-то, вам следует задаться вопросом: 67% каких именно американцев?

То же самое относится и к «трактату о женской сексуальности» доктора Альфреда Кинси3.

Проблема с этим трудом (как и со всеми прочими, в основу которых положены выборки) заключается в том, как ознакомиться с ним (или его кратким изложением) и при этом не намотать на ус слишком много суждений, которые не обязательно истинны. В труде доктора Кинси задействованы выборки как минимум на трех уровнях. Сделанные самим Кинси выборки из всего населения страны (один уровень) далеки от вероятностных и могут быть не особенно репрезентативны, но они колоссальны в сравнении с тем, что было сделано в этой области раньше. Приведенные Кинси цифры следует воспринимать как данные, на многое проливающие свет и значимые, даже если они и не вполне точны. Наверное, важнее иметь в виду, что любой вопросник или анкета представляют собой всего лишь выборку (еще один уровень) из всего множества возможных вопросов и что ответы женщин на эти вопросы — тоже не более чем выборка (вот вам третий уровень) из их личных взглядов и жизненного опыта по каждому заданному вопросу. Сама личность интервьюера также способна довольно любопытным образом повлиять на ответы респондентов в ходе опроса. Несколько лет назад, еще во время войны4, Национальный центр изучения общественного мнения направил в один город на юге страны две группы интервьюеров с поручением задать три вопроса пятистам чернокожим горожанам. Одна группа состояла из белых, а вторая — из чернокожих интервьюеров.

Один из вопросов формулировался так: «Лучше или хуже обращались бы у нас с чернокожими, если бы японцы завоевали США?» По данным группы чернокожих интервьюеров, ответ «лучше» дали 9% опрошенных ими респондентов. А белые интервьюеры зафиксировали всего 2% таких ответов. И если чернокожие интервьюеры обнаружили всего 25% респондентов, полагавших, что обращение с чернокожими ухудшится, то у белых интервьюеров доля респондентов, придерживающихся такой точки зрения, неожиданно оказалась равной 45%.

В ответ на второй вопрос, аналогичный первому за тем исключением, что в формулировке значились не «японцы», а «нацисты», были получены похожие результаты.

Третий вопрос был призван прояснить взгляды респондентов, которые могли сформироваться на основе мнений, высказанных ими при ответах на первые два вопроса. «На чем, по вашему мнению, важнее сосредоточить усилия: на том, чтобы победить страны "оси"5, или на том, чтобы здесь, у себя дома, усилить действенность демократии?» Ответ «победить страны "оси"», по данным чернокожих интервьюеров, дали 39% респондентов, а у белых интервьюеров этот показатель составил 62%.

Перед нами пример предвзятости, обусловленной некими неизвестными факторами. Как представляется, самым сильнодействующим фактором будет тенденция, которую никогда не следует сбрасывать со счетов, когда знакомишься с результатами социологических опросов: желание респондента угодить интервьюеру. Стоит ли удивляться, что, отвечая на вопрос с подтекстом, намекающим на возможную нелояльность своей стране в военное время, чернокожие жители Юга скорее предпочли ответить белому интервьюеру так, чтобы их ответ выглядел достойно, чем сообщить ему, что они думают в действительности? Также нельзя исключать, что разные группы интервьюеров выбирали себе в респонденты разных людей.

Как бы там ни было, а результаты опроса, безусловно, до такой степени предвзяты и необъективны, что это их практически обесценивает. Можете сами судить, сколь многие сделанные на основе опросов выводы и умозаключения до такой же степени предвзяты, равно как и ни к чему не годны — разве что у нас нет никакой возможности проверить их и изобличить их несостоятельность.

Теперь у нас достаточно оснований сделать следующий шаг и предположить, что все социологические опросы в целом грешат предвзятостью — того же сорта, что и допущенный Literary Digest просчет. Это крен в сторону людей более состоятельных, более образованных, более информированных и осторожных, с более пристойным внешним видом, общепринятым поведением и с более устоявшимися привычками, чем у того среднестатистического гражданина, представлять которого их выбрали.

Не так уж трудно понять, отчего такое происходит. Давайте представим, что вам поручили встать на углу улицы и задать ряд вопросов какому-то одному человеку. Вам попадаются на глаза двое прохожих, и оба вроде бы подходят под ту категорию, представителя которой вам предписано опросить, а именно — горожанина в возрасте старше сорока лет. Один прохожий одет чисто и аккуратно, другой же — во что-то непотребное, да к тому же угрюм и неприветлив на вид. Вы, чтобы выполнить свое задание, естественно, обратитесь к тому из двоих, кто выглядит приличнее, и точно так же поступают ваши коллеги-интервьюеры по всей стране.

Среди прочих сильнейшая неприязнь к опросам общественного мнения наблюдается в кругах либералов и сторонников левых идей, где довольно-таки прочно укоренилось мнение, что социологические опросы в большинстве своем — подтасовки и надувательство. Это мнение зиждется на том факте, что результаты социологических опросов очень часто не сообразуются с убеждениями и чаяниями тех, кто не разделяет консервативных взглядов. Если верить опросам, указывают они, то получается, что победят республиканцы, даже когда через считаные дни избиратели делают иной выбор.

На самом деле, как мы уже убедились, это вовсе не означает, что социологические опросы фальсифицируются — иными словами, что кто-то намеренно искажает их результаты, чтобы создать ложное впечатление. Свойственная выборке тенденция к систематическому смещению в сторону более состоятельных респондентов может исказить результаты любого опроса.


1 Harper's Magazine — один из наиболее уважаемых ежемесячных журналов в США, посвященный литературе, политике, культуре, экономике и искусству. True Story — ежемесячный журнал, который печатает сентиментальные рассказы о любовных переживаниях и рассчитан на невзыскательный вкус. — Прим. пер.

2 На президентских выборах 1948 г. Гарри Трумэн вопреки прогнозам авторитетных исследователей общественного мнения уверенно обошел кандидата-республиканца Томаса Дьюи, а в 1952 г. Дуайт Эйзенхауэр с большим перевесом одержал победу над демократом Эдлаем Стивенсоном и тем самым положил конец двадцатилетнему правлению демократической партии. — Прим. пер.

3 Речь об одном из двух «Отчетов Кинси» на тему сексуального поведения — «Половое поведение самки человека» (Sexual Behavior in the Human Female) (1953); до этого, в 1948 г., Кинси опубликовал аналогичный труд о сексуальном поведении мужчин «Половое поведение самца человека» (Sexual Behavior in the Human Male). Альфред Чарлз Кинси — американский биолог и сексолог, профессор энтомологии и зоологии, основатель института по изучению секса, пола и воспроизводства, называемого ныне Институтом Кинси. Кинси считается отцом сексологии и систематического изучения сексуальности человека. Данные для своих исследований Кинси собирал посредством интервьюирования многих тысяч людей. — Прим. пер.

4 Имеется в виду Вторая мировая война. — Прим. ред.

5 Страны «оси» — агрессивный военный союз Германии, Италии, Японии и других государств, которому противостояла во время Второй мировой войны антигитлеровская коалиция. — Прим. ред.