T-invariant: Осторожно, данные закрываются. Россия становится всё менее прозрачной для исследователей
T-invariant, 22.07.24
Автор: Александр Семенов
С весны 2022 года российские органы власти начали массово скрывать любую прежде доступную информацию: персональные данные о чиновниках и топ-менеджерах госкомпаний, экономические показатели, статистику о валютных внебиржевых торгах. Особенно сложно стало проводить социологические исследования, которые и раньше были не самой простой задачей. Растущее административное давление, угроза политических репрессий и закрытость данных ставят перед учёными-исследователями новые вызовы. Но, несмотря на эти препятствия, существуют стратегии и методы, которые позволяют даже во время войны проводить научные исследования в России. T-invariant выяснил, как учёные, журналисты и аналитики преодолевают сложности, связанные с закрытостью данных и противодействием со стороны государства, — по следам недавней онлайн-дискуссии с участием видных data-scientists.
Процесс закрытия больших данных от «посторонних» (под которыми государство понимает как иностранных наблюдателей, так и российских исследователей или независимых журналистов) в России тем нагляднее, что до недавнего времени в стране активно развивалась «инфраструктура открытости». Благодаря таким проектам, как «Госзакупки» и «Открытое правительство», объём открытых данных в России был больше, чем в большинстве автократий и даже в большинстве европейских стран. Однако в последние шесть-семь лет, реагируя на иностранные санкции и антикоррупционные расследования общественников и СМИ, госструктуры стали прятать данные, удаляя их из публичного доступа.
Например, с 2017 года российское правительство существенно ограничило доступ к данным о государственных закупках, ссылаясь на вопросы национальной безопасности. Многие контракты, особенно связанные с военными и стратегически важными объектами, больше не публикуются в открытых источниках. После начала войны, в феврале 2024 года, этот процесс ускорился, а data-исследователи столкнулись с тем, что утратили доступ сразу к десяткам датасетов, открытым базам данных. О сложностях работы с открытыми данными в России после 24 февраля 2022 года социологи, политологи и дата-журналисты рассказали в рамках научной дискуссии на YouTube-стриме исследовательского центра «Коллективное действие».
Хаос как союзник учёных
Российское государство по-прежнему является слабо организованной структурой, поэтому процесс закрытия данных сейчас является хаотичным. Как отмечает Арнольд Хачатуров, data-журналист и основатель аналитического центра CEDAR (Center for data and research on Russia), из почти 500 доступных прежде датасетов только в этом году было закрыто 76. Но при этом «под замок» убирают не только важные, но часто и бесполезные, технические и нечувствительные данные.
— Нет продуманного и целенаправленного процесса зачистки, идёт хаотичная реакция с высоким уровнем дискреции, — говорит Хачатуров. — Всё это не выглядит так, как будто есть какая-то методичка. В итоге одни ведомства закрывают важные данные, другие удаляют совершенно бесполезные и нечувствительные данные, третьи всё оставляют как есть. При этом некоторые данные сложно закрыть без ущерба для государства, поэтому их вынужденно оставляют в открытом доступе. Хотя в целом, конечно, процесс закрытия данных усилился. В первую очередь закрывают всё, что имеет отношение к экономике и что закрыли под предлогом риска санкций. Далее закрывают те базы, которые стали предметом журналистских расследований (например, о военных потерях или масштабах мобилизации). В третью очередь закрывают «на всякий случай» — например, цены на бензин вызывают беспокойство, поэтому их прячут с формулировкой «чтобы россияне не нервничали».
В итоге неорганизованность и хаос помогают исследователям: они получают доступ к данным, которые в теории должны быть закрыты. При этом данных в России очень много: до аннексии Крыма и ещё несколько лет после российские власти пытались интегрироваться в мировое сообщество, охотились за иностранными инвестициями и потому выстраивали инфраструктуру открытых данных, чтобы повышать свои рейтинги инвестиционной привлекательности.
Также в числе мотивов было повышение качества госуправления и строительство цифрового авторитаризма, говорит Арнольд Хачатуров. Теперь первые два фактора: интеграция и инвестиции — утратили свою актуальность для Кремля, поэтому процесс пошел в обратную сторону.
Виктория Полторацкая, старший аналитик в Government Transparency Institute, считает, что данных, особенно о госзакупках, в России по-прежнему много — даже если сравнивать с государствами Евросоюза. Доступность и качество данных в ЕС неоднородны от страны к стране, к тому же суды запрещают раскрывать данные о владельцах компаний и в целом очень трепетно относятся к охране персональных данных. В России масштабы и глубина данных по госзакупкам выше. Вдобавок закрытие публичных данных частично компенсируется наличием большого объема «неэтичных данных», которые были украдены хакерами и слиты в общий доступ. Особенно это ценно для исследователей, изучающих коррупционные связи с использованием госзакупок, подставных подрядчиков и компаний-матрёшек.
— В России, по сравнению с Европой, есть большое количество агрегаторов, которые собирают данные из разных кусочков российского интернета в какую-то базу данных, — добавляет Полторацкая. — Глубина данных отличная. То есть про те же самые компании я могу узнать в целом всё: могу посмотреть, как они связаны с другими компаниями, кто их бенефициар, сколько они зарабатывают, какие у них долги, какие у них были проверки. Однако есть и проблемы с тем, что сейчас многие данные по госконтрактам начали скрываться. Плюс доступ к ним теперь нельзя получить без VPN, если ты находишься за пределами России.
Впрочем, Виктория Полтарацкая признаёт, что даже сейчас дотошный исследователь может извлечь пропавшие из открытого доступа нужные ему данные, если знает, где они хранятся и кого нужно попросить ими поделиться.
Вопрос качества
Но тут встаёт уже другой вопрос — о качестве и достоверности данных. Потому что, даже если данные доступны, их качество может быть сомнительным. Так, статистические данные о населении и миграции часто оказываются неточными. Как и данные об экономическом благосостоянии россиян или уровне трудовой занятости. Например, в 2020 году Росстат изменил методику подсчета численности населения, что привело к значительным расхождениям в данных. Такие изменения затрудняют проведение долгосрочных исследований и требуют дополнительных усилий по верификации данных. О проблеме низкого качества имеющихся данных рассказала политолог, старший научный сотрудник Финского института международных отношений Маргарита Завадская:
— Моя специализация — опросные данные. Я много работаю с данными ЦИК, работала с базой данных муниципальных образований. И, чем больше в эти данные погружалась, тем больше разочаровывалась. Я нашла несколько паттернов, которые указывали на то, что это либо систематические ошибки, либо откровенный фальсификат. Достоверные внятные данные можно собрать лишь по отдельным регионам. Поэтому я в большом разочаровании с этими данными рассталась и больше с ними не работаю. Так что могу сказать, что ещё до того, как данные начали закрывать, во многих сферах они были ужасными сами по себе. И сейчас мы можем только догадываться, какие объёмы полезной информации мы потеряли из-за фальсификации, ошибок, ручного ввода и прочих структурных факторов.
Ярким примером недостоверности собираемых российскими госструктурами данных Маргарита Завадская называет ситуацию с миграцией россиян из-за войны. До сих пор нет чёткого ответа, сколько россиян в последние два с половиной года выехало из страны и сколько из них вернулось.
За опрос — на допрос
Особняком стоят данные, собираемые в ходе опросов. Во-первых, есть аспект weaponization, то есть «оружеизации» опросов, когда тиражируемые результаты — например, о высоком уровне поддержки войны в российском обществе — могут нанести урон тем, кто является жертвой происходящего. Во-вторых, доверие к результатам опросов провластных ВЦИОМ и ФОМ очень низкое, так как они косвенно контролируются государством. В-третьих, участие в опросах и оглашение ответов, вступающих в конфликт с государственной позицией на тему войны, несут реальные риски уголовного преследования для респондентов и интервьюеров. Всё это затрудняет работу с опросами.
— Вопрос, насколько безопасно или небезопасно… Я, честно говоря, считаю, что вот опрашивать, например, людей на улице в России под камеру уже просто нельзя после того, как человека арестовали за то, что он дал интервью на улице (москвича Юрия Коховца приговорили к пяти годам принудительных работ по статье о «военных фейках» после участия в уличном опросе «Радио Свобода». — T-invariant), – говорит социолог, сотрудница Тель-Авивского университета Ника Костенко. — И те люди, которые проводят опросы, тоже не знают, не станут ли они завтра нежелательными или иностранными агентами. И поскольку мы знаем, что такого рода вещи умеют быть релевантными задним числом, то это все, конечно, очень сложный этический выбор для исследователей. То есть понятно, что у нас есть довольно сильное давление и на исследователей, и на респондентов.
Нехватка ресурсов
В то же время Ника Костенко признаёт, что данных в России куда больше, чем существующее количество аналитиков и исследователей может обработать в ближайшее время. Эти данные были накоплены ещё до 2020 года, до войны и до пандемии, когда в стране работали большие международные опросы от European Value Study, World Value Survey и др. Сейчас социологи лишены динамики по собранным данным — имеется большой провал в опросных исследованиях за последние несколько лет, что сегодня мешает составить достоверную картину. Но по-прежнему можно пытаться строить длинные временные ряды на основе уже собранных данных. Однако для этого необходимо больше исследователей, более глубокий уровень их кооперации между собой.
— Если бы в России было больше аналитиков данных, мы бы больше знали, — говорит Костенко. — На самом деле, мы располагаем не таким большим количеством людей и команд, которые могут это делать. Но, вообще-то говоря, данных намного больше, чем мы пока можем обработать. Если закрытие данных и дальше будет происходить, как мы можем этому противостоять? С помощью того, что уже было собрано, систематизацией того, что было собрано, обучением аналитиков, чтобы с тем, что уже есть, что-то сделать. И сохранением того, что ещё осталось.
О том же — нехватке ресурсов для обработки уже имеющихся данных — говорит и социолог, научный руководитель Kazakhstan Sociology Lab Дмитрий Серебренников. Доступ к данным прошлых лет есть, благодаря большому количеству инициатив гражданского общества, но их «невозможно прожевать».
— Закрытие данных пока для нас не критично — резюмирует Серебренников. — Да, какое-то количество важных для нас полей закрывается, но в пустотах иногда можно найти интересные точки, в которые можно влезть и сделать там интересную работу. И эти возможности сохранятся и дальше. Сейчас вопрос больше в финансировании, в наличии ресурсов для реализации возможностей.
Практически все участники дискуссии отметили, что сейчас более острой проблемой, чем постепенное закрытие данных в России, является снижение финансирования исследований, связанных с Россией. Международное академическое сообщество отреагировало на события 2022 года и оказало большую поддержку уехавшим из России учёным; журналистам, которым требовалась релокация, были выделены гранты для работы. Но спустя два с половиной года этот вопрос как будто уже не находится в фокусе внимания — и финансирование снижается.
А российские учёные и аналитики данных, переехавшие в другие страны, вступают чуть ли не в вынужденную конкуренцию за ресурсы с представителями местных академических сообществ.
Можно подытожить, что исследование России в условиях закрытых данных и противодействия со стороны государства — задача непростая, но выполнимая. Есть возможность использовать альтернативные источники данных, анализировать уже накопленные, искать лазейки в возводимых барьерах, но для этого требуется более глубокая кооперация с международными коллегами и рост интереса со стороны иностранного академического сообщества к социальным и экономическим процессам, происходящим внутри России.