Как не нужно проводить опросы
Пример плохого исследования.
В декабре прошлого года Дмитрий Гудков и Дмитрий Некрасов опубликовали результаты своего исследования «Цена жизни. Исследования готовности россиян служить по контракту», цель которого они обозначили как «изучение желания и готовности мужчин в России для участия в специальной военной операции (СВО) на условиях заключения контракта с Министерством обороны РФ» Кроме этого, они заявили, что согласно полученным результатам, число желающих заключить контракт составляет «несколько миллионов человек», хотя обоснование данной оценки нигде в отчете не приводится.
Попробуем оценить качество представленного проекта исключительно с точки зрения выборки и инструмента, не касаясь выводов и аргументов, и понять, насколько оценке в несколько миллионов потенциальных добровольцев можно доверять.
Из теории выборки известно, что если исследователь намерен что-то измерить в изучаемой социальной общности, неважно, сколько человек смотрело какой-то телевизионный канал на прошлой неделе, или сколько семей намерены приобрести жилье в ближайший год, он должен задаться целью репрезентировать в собранной им выборке респондентов всю генеральную совокупность, в отношении которой и проводится собственно измерение. В данном случае речь идет о российских мужчинах от 18 до 60 лет. Для такой репрезентации используются случайные выборки. Например, для телефонного опроса случайным образом из всего множества телефонных номеров российских провайдеров формируется стартовая выборка, то есть та, по которой будут звонить (не факт, что дозвонятся) респондентам. Если у исследователя нет такой возможности, и он вынужден проводить, например, уличный опрос, то применяются какие-то процедуры, рандомизирующие отбор респондентов. Например, при экзит-полах (разновидность уличных опросов) опрос проводится с каким-то шагом – каждый 3-ий избиратель или каждый 6-ой, или каждый 15-ый. Случайная выборка – ключевое условие репрезентации, а репрезентация – единственная возможность распространить данные по выборке на всю генеральную совокупность.
Посмотрим, как с этой задачей справились авторы данного исследователя.
Во-первых, они исключили из опроса жителей Москвы и Московской области. Это очень странное решение, потому как в двух этих субъектах федерации проживает 15% жителей страны. На странице 7 авторы утверждают, что они исключены «из исследования в связи с трудностью их достижимости». Однако, более половины выборки (1004 респондента) были собраны в Москве и более того, среди респондентов были жители «московского региона», которые потом были удалены из массива. Но зачем их удалять, если они уже опрошены? Авторы дают ответ – из-за «низкой готовности респондентов обсуждать необходимый̆ размер выплаты». Хорошо, но другой, не менее, а может быть, более важной, целью был расчет доли желающих заключить контракт с минобороны. И если из выборки исключается 15% населения страны, причем населения региона, где доля желающих это сделать минимальна, то такой шаг попросту смещает выборку в сторону регионов с более высокой готовностью отправиться на фронт. Уже в результате такого шага распространять результаты опроса на всех жителей страны представляется ошибочным.
Во-вторых, авторы принимают решение опросить посетителей вокзалов и автовокзалов Москвы, а также Владимира, Рязани, Тулы, Калуги, Твери и Томска. Начнем с выбора городов. Прежде всего, легко убедиться, что среди городов нет ни одного из 15(!) городов-миллионников, в которых проживает около 13% населения РФ. Таким образом, из выборки произвольно удалены наряду с Москвой почти треть (28%) населения страны. Причем, авторы изучают зависимость желания заключить контракт от дохода потенциальных контрактников, а крупные города, очевидно, дают своим жителям больше возможности заработать. В итоге выборка смещается еще больше в сторону менее крупных населенных пунктов, а, значит, в сторону желающих заключить контракт. Кроме этого, все города, кроме Томска, находятся в непосредственной близости к Москве и представляют ЦФО. Томск – СФО и нет никакой представленности остальных федеральных округов, что также ухудшает представленность выборки.
Теперь – о решении опрашивать на вокзалах и автовокзалах. Авторы упоминают две причины такого решения. Во-первых, «на выбор мест и методологию полевого исследования серьезное влияние оказывал риск репрессивных действий властей в отношении исследователей» (стр. 10). Не ясно, почему с этой целью нельзя было бы использовать телефонный или онлайн-опрос, которые создают для исследователя максимально безопасные условия опроса? Во-вторых, «для проведения опросов выбирались локации, где, по мнению организаторов опроса, была заведомо более высокая вероятность получить большее количество ответов о материальных стимулах к участию в войне за меньшее число контактов с респондентами» (стр.10). Отсюда следует, что выборка формировалась не для целей точного измерения доли намеренных заключить контракт, для чего нужна была бы репрезентативная выборка, а для максимально «большого количества ответов о материальных стимулах». Таким образом, выбор локаций еще больше смещает выборку в сторону предрасположенных к заключению контракта.
Авторы отмечают, что им «удалось охватить представителей̆ различных регионов, включая национальные республики и регионы Дальнего Востока» (стр. 13). Однако, на графике 1 доли респондентов из разных федеральных округов, Дальневосточного, например, не представлены, как и доли респондентов хотя бы из одной национальной республики. Напротив, жители пяти регионов ЦФО составляют 46% выборки, хотя во всем населении страны они представляют лишь 26%. Как видим, и в географическом разрезе выборка исследования смещена, и распространять выводы, сделанные на этой выборке, на все мужское населения России от 18 до 60 лет совершенно необоснованно.
Посмотрим теперь на результат опроса. Сами авторы отмечают, что «возрастная структура выборки отличается от общероссийской смещением в сторону более молодых возрастных групп от 18 до 30 лет». (стр. 13). Как видим, авторы вполне отдают себе отчет в значимом смещении выборки. Что обычно делают исследователи в таких случаях? Верно, перевзвешивают выборку. Что делают авторы? – Ничего. При этом сама процедура им известна – «Если … наложить на них (результаты – ВЗ) фактическую возрастную структуру российских мужчин 18–60 лет, то количество готовых к участию в СВО возрастет на 2–4% для каждой категории» (стр. 18). Но они ее по какой-то причине не выполняют.
Любопытный результат получен по доходам респондентов. Согласно графику 4, доходы посетителей вокзалов и автовокзалов существенно выше среднероссийских. Отчасти это вполне объяснимо – люди, имеющие низкие доходы, например, больные, малоподвижные, имеющие много детей, вряд ли путешествуют активнее бездетных и здоровых. Но ведь согласно представленным результатам, существует зависимость между доходом и желанием отправиться на СВО, и если выборка смещена в сторону более доходных групп, значит и оценка доли намеренных заключить контракт также смещена.
Как видим, и план выборки и полученная выборочная совокупность значимо смещены, и если в итоге получена высокая оценка готовых заключить контракт, то это вполне объяснимо выбранной процедурой формирования выборки. Смещение настолько многомерные и значимые, что любые измерения, полученные на этой выборке, можно использовать лишь в отношении самой выборки, и необходимо отказаться от распространения их на всю генеральную совокупность.
Влияние инструмента на формирования выборки исследования
Кроме собственно выборки, большое влияние на полученный результат имеет инструмент, включающий в себя, помимо анкеты, описание отборочных процедур. Здесь также существуют некоторые базовые принципы, нарушение которых лишает сбор данных смысла. Прежде всего, это индивидуальная коммуникация между респондентом и интервьюером. Напрямую в отчете это не указывается, но по контексту («особенно при прохождении опроса в присутствии знакомых и друзей»), очевидно, что респондент опрашивался в присутствии своих знакомых и друзей. Анонимность опроса – фундаментальное свойство корректного сбора данных, поскольку в присутствии знакомых респондент будет отвечать именно им, а не интервьюеру, поскольку интервьюера он видит в первый и последний раз в жизни, а среди знакомых ему жить и жить.
О присутствии членов семьи при интервьюировании авторы умалчивают, но, очевидно, что ситуация, когда российские мужчины на вокзалы приходят вместе со своими домашними должна встречаться не реже, чем когда они приходят туда вместе с друзьями. Представленные в отчете результаты показывают значимое влияние семьи на решение заключить контракт, то есть выбранный режим сбора информации обесценивает сделанные выводы.
Как видим, выбранные способы формирования выборки и используемые инструменты для сбора данных в представленном исследовании в значительной степени обесценивают его результаты. Скорее всего, они ничего не представляют, и относиться к ним нужно как к плохой попытке измерить социально значимые формы социального поведения. Будем надеяться, что последующие попытки будут лучше.