Размер выборки
Лучшие специалисты по статистическим прогнозам американских выборов проводят эти дни, умоляя своих читательниц: не надо пытаться делать прогнозы на основе статистики досрочного голосования!
Казалось бы, почему нет? Выборка – досрочное голосование – огромная. Уже проголосовало 57 миллионов человек – это в десять тысяч раз больше чем стандартная выборка хорошего опроса. Почему опросы предсказывают, пусть с большой ошибкой, результаты предстоящих выборов, а досрочное голосование – нет?
Всё дело в том, что большая выборка – это НЕ преимущество, если выборка “непредставительна” – то есть смещена каким-то систематическим образом. Делая выборку больше, систематическую ошибку исправить невозможно.
В 1936 году журнал Literary Digest получил ответы от 2,3 миллионов граждан об их планах относительно голосования – и Альф Ландон, кандидат от республиканцев, победил действующего президента Рузвельта 57% на 43% в этом опросе. На самом деле Рузвельт выиграл с преимуществом в 24%, одержав одну из крупнейших побед в истории. У той ошибки в формировании выборки были, возможно, разные причины – есть простые объяснения, есть более сложные. Но так или иначе – опрос с огромного размера выборкой дал ошибку в 38%.
Так же и с досрочным голосованием. Мы не знаем, почему люди голосуют досрочно – из-за того ли, что кандидатка уговорила их проголосовать досрочно вместо того, чтобы голосовать в день выборов (это никакого голоса к финальному итогу не прибавляет) или из-за того, что это новый избиратель, который в день выборов бы не пришёл (это прибавляет).
Можно посмотреть на табличку 2016 года (первая колонка досрочное, вторая – окончательный результат). Отклонение 14%. Ошибка опросов в 2016 году была, напоминаю, меньше 3%.