Что не так с «научной статьей» про авторство текстов Навального
Окей, давайте разберём, что не так с «научной статьей» киевпоста про авторство текстов Навального. Вот она.
1. Начнём с уровня экспертизы. Анализ текста – это знание из области лингвистики. Автор статьи – социолог. Которому, безусловно, в этой области помогают знания методов стат. анализа их интерпретации.
Срочный сбор
Нам нужна помощь как никогда
2. Источники. В статье этот текст называется «научным исследованием», кратко описывается методология и источник данных, но сама статья со всеми подробностями будет опубликована только в следующем месяце. Возвращайтесь за пруфами позже.
3. Воспроизводимость. Автор пишет, что взяли публично доступные тексты Навального. Какие? Откуда? В каком количестве? За какой период? Неизвестно. Но автор нас троллит и говорит – если вы не верите выводам, можете сами взять эти тексты и тулзы и перепроверить.
4. Находка 1: The analysis showed that much of the FBK’s leadership uses similar writing. Таблицу читать так:
0 – тот же набор текстов
< 1 – один и тот же автор написал тексты
>1.5 – разные авторы написали тексты.
Видим, что все похожи на всех, >1.5 у нас ни одного значения.
5. Но автор забивает на то, как выглядит датасет в целом, и находит то, что подтверждает его изначальную гипотезу, т.е. то, что желает найти: значения < 1. Их которых делает вывод, что тексты Навального в заключении больше всего похожи на Албурова и Певчих.
6. Вероятности. Дальше автор пишет вывод, что ок конечно похожи, может они вообще все тексты вместе пишут, но с ВЫСОКОЙ вероятностью Навальный тексты пишет не сам. Какая вероятность-то? Почему ты её так интерпретировал?
7. Вероятность ошибки. У нас нет вообще никакого контекста, как интерпретировать полученные автором значения и коэффициенты. Только эпитет «высокая вероятность».
8. Метод анализа данных. Русский язык, на котором написан корпус изучаемых текстов, не поддерживается Stylo, который автор использует исследования.
9. Размер выборки. Поскольку ничего неизвестно про тексты, на которых проводился анализ и про их количество, мы также не можем оценить точность выводов, которая зависит от размера выборки. Здесь опять предлагается ждать научной публикации.
10. Контрольная группа. Из таблиц в анализе видно, что используются только тексты сотрудников ФБК, и нет ни одного постороннего «контрольного» персонажа для валидации. Так можно было бы показать, что метод реально работает и другом непохожем тексте выдаст действительно > 1.5
11. Методы – предпроцессинг текста. Вся важная описательная часть предпроцессинга текстов в этом анализе опущена и ожидается только в полноценной научной публикации. На этом этапе можно обработать тексты так, что они потеряют свой фингерпринт, который дальше и изучается.
12. Сначала было бы круто доказать, что посты до-тюремного Навального писал сам Навальный.
13. Небрежность в оформлении. Давайте этим мягким словосочетанием назовём несимметричность главной таблицы, на который основываются все выводы автора статьи.
Нет преступной войне, которую развязала Россия в Украине. Свободу Алексею Навальному и политзаключённым.