Разбор лекции «Антигуманизм феминизма XXI века» Екатерины Виноградовой

Кандидат биологических наук Екатерина Виноградова в рамках второй Международной научно-практической конференции имени В.Л. Гинзбурга и Э.П. Круглякова «Лженаука в современном мире: медиасфера, высшее образование, школа» выступила с докладом «Антигуманизм феминизма XXI века». Нам стало интересно, какая была найдена связь между общественно-политическим движением за права женщин и лженаукой, а также в чем заключается «антигуманизм» (мы полагаем, что столь громкое название больше подошло бы журналистской статье, нежели выступлению на научно-практической конференции).

Вторая причина нашего интереса заключается в том, что вокруг этого доклада ранее уже возник оживленный спор, постепенно переросший в скандал, в котором все стороны показали себя не с лучшей стороны. Исходя из принципа «лучше поздно, чем никогда» мы решили беспристрастно разобраться в этом вопросе.

С разу следует сказать, что изначально делать доклад Екатерина Виноградова должна была вместе с Дмитрием Жуковым, который не смог прибыть вовремя. В связи с этим мы не будем излишне строги к мелочам (например, на 18:15 докладчик сама признает, что ошиблась, внося правки в таблицы на слайдах). Во-первых, Екатерине Виноградовой пришлось делать доклад в одиночку, а во-вторых, такие ошибки не критичны и случаются у всех. Мы постараемся сконцентрировать внимание на наиболее значимых с нашей точки зрения промахах. Также мы искренне надеемся, что наша статья не будет воспринята как личные нападки. Мы уважаем стремление распространять научное знание, бороться со лженаукой и просвещать людей. Но мы также убеждены, что честная и недвусмысленная критика — это необходимый элемент как для развития науки в целом, так и для профессионального роста каждого ученого в отдельности.

Итак, основная часть доклада строится вокруг одного (исследования шведских специалистов). Ниже мы рассмотрим и результаты, полученные шведами, и их пересказ с интерпретацией Екатерины Виноградовой.

Что сделали шведские ученые?

В шведской работе анализируются связи между количеством дней родительского отпуска, взятого отцами и матерями (вернее, соотношением количества дней матери и отца) и последующим психическим здоровьем детей. Последнее оценивается по количеству детей, которым либо прописывали противотревожные препараты или антидепрессанты, либо ставили диагнозы, связанные с тревожным расстройством или депрессией. Семьи были разбиты на несколько категорий в зависимости от соотношения количества дней отпуска матери и отца — в «традиционных» семьях большую часть отпуска брала мать, в «нетрадиционных» — отец, а в «равноправных» — примерно поровну.

Экстраординарное утверждение требует экстраординарных доказательств

Прежде чем переходить к обсуждению исследования в деталях, мы хотим обратить внимание на две вещи. Мы исходим из принципа, что если ученый делает громкие публичные заявления (а «гендерное равенство — это антигуманно и вредно для здоровья детей!» безусловно является громким заявлением), основываясь на одном исследовании, то требуется досконально проанализировать само это исследование. Кроме того, мы считаем, что в просветительскую обязанность ученого входит объективное освещение данных в любых обстоятельствах. Давайте посмотрим, насколько соответствует этим двум пунктам доклад Екатерины Виноградовой.

С самого начала о нейтральности докладчика говорить не приходится. Прежде чем она начинает говорить о каких-либо данных, уже идет заявление: «Гендерное равенство в семье — риск психических расстройств детей? […] По итогам — “да”, получается».

«Гендерное равенство в семье — риск психических расстройств детей? По итогам — “да”, получается».

Когда человек выступает как научный авторитет для публики и с самого начала говорит, как нужно интерпретировать данные, не стоит ждать, что слушатели подумают о чем-то другом, придумают свои интересные объяснения. Это может показаться придиркой с нашей стороны, однако далее мы покажем, что столь однозначный вывод на самом деле сделать нельзя.

Проблема шведского исследования: не все данные доступны для анализа

Само исследование, к сожалению, страдает огромным количеством проблем. Прежде всего это проблемы в статистической обработке данных и в их доступности для читателей. Часть статистических процедур (в том числе о «достоверности» которых говорит Екатерина Виноградова) вообще в статье не описывается (см. далее). Остальные описываются не в полноте деталей, а данные опубликованы таким образом, что их нельзя проверить. Например, количество семей в той или иной категории опубликовано в таблице 1, но количество детей, которым прописывали препараты или ставили диагноз, не указано, хотя было бы очень просто это сделать. Дан только округленный процент[1] от общего числа, что не позволяет повторить анализ и верифицировать результат.

Проблема в интерпретации: размер выборки

Некоторые слова докладчика вызвали у нас крайне сильное удивление. Когда она только начала описывать исследование, то говорила о размере выборки: «И тот результат, который они получили, вызвал удивление у самих авторов, и поскольку он получился сильно неполиткорректный, то они крайне, вот, они все набирали-набирали статистику, набирали, а чем больше они набирали, тем больше эта выраженность».

Почему Екатерина Виноградова решила, что авторы так обеспокоены политкорректностью результата, остается лишь предполагать: оставим это в стороне. Но с «набором статистики» необходимо сделать два замечания.

Во-первых, это неправда. Это исследование было проведено на всех данных, имеющихся в государственной базе, то есть вообще на всех шведских семьях, подходящих под критерии исследования. Никакой статистики тут не «набирали-набирали», просто использовали все, что было.

Во-вторых, просто так увеличивать размер выборки нельзя. Представление о том, что это только поднимет качество статистического анализа, не соответствует действительности.

Почему нельзя просто увеличить размер выборки?

Увеличение выборки только по той причине, что получается нежелательный результат — это разновидность научной махинации, за которую можно лишиться и репутации, и регалий. Размер выборки должен основываться на оценке разброса данных и статистической мощности для эффекта, который нужно обнаружить. В самом крайнем случае, если вышеозначенные параметры нельзя оценить, размер выборки должен быть решен заранее, как раз для того, чтобы подобных махинаций с изменением размера не происходило. Единственное к чему они ведут — это увеличение количества ложноположительных результатов и раздутие (инфляция) величины эффекта (интересующиеся причинами этого могут прочитать объяснение на английском).

Проблема с исследованием: ошибка в одной из таблиц

Далее, Екатерина Виноградова описывала результаты: «Оказалось, что среди мальчиков в “традиционных” и “очень традиционных” семьях процент обращений достоверно ниже, чем в “равных” и “скорее нетрадиционных”. Очень высокие там цифры, и это все достоверно».

В первую очередь надо заметить, что в таблице с этими результатами (таблица 1) в статье допущена ошибка, которую легко заметить. Итак, таблица 1, количество семей в разделе мальчики («Boys») и категории «равноправные» («Equal») — вторая колонка, строчка 4 — там стоит цифра 420. То есть было 420 семей в этой категории с сыновьями. Теперь та же категория семьи с дочерьми — вторая колонка, строчка 3 — таких семей было 1234. Сам факт, что соотношение полов детей у семей в этой категории настолько разный, должен насторожить.

Может быть настрой на равноправие у родителей увеличивает шанс рождения девочки? Вот это был бы интересный результат. Но на самом деле все намного прозаичнее. Если посмотреть на суммарное количество семей (both) — вторая колонка, строчка 3 — всего равноправных семей было 2551. 1234 + 420 никак не дает 2551. Что произошло? В разделе «мальчики» были перепутаны названия категорий. На самом деле третья строчка должна быть «равноправные семьи», четвертая — «довольно нетрадиционные», и пятая — «очень нетрадиционные». Тогда все числа сходятся.

Таблица 1 из обсуждаемой статьи. Красным обведены цифры, относящиеся к «равноправным» по смыслу таблицы. Синим отмечены семьи, которые на самом деле относятся к «равноправным».

Что интересно, на слайдах у Екатерины Виноградовой эта ошибка исправлена. Можно увидеть, что проценты, которые она показывает по депрессии у мальчиков, стоят в правильном порядке.

Неправильные значения в таблице в статье и исправленные значения в презентации Екатерины Виноградовой.

Неясно, каким образом рецензенты шведской статьи не заметили этой ошибки, но это случается время от времени. Поэтому в научном сообществе считается хорошим тоном написать автору статьи, чья электронная почта всегда специально указывается в публикации, и указать на ошибку. Тогда журнал может выпустить поправку в печатном виде и исправить ошибку в онлайн публикации. Мы написали одной из авторов статьи, и она подтвердила наличие ошибки (почему Екатерина Виноградова или же Дмитрий Жуков сами не сообщили ученым об ошибке — неизвестно). По мнению авторов статьи, переставленные значения в таблице не повлияли на результаты, так что мы продолжим анализ, считая, что остальная часть исследования выполнена без ошибок.

Достоверность исследования и общие замечания о статистике

Теперь давайте обратимся к тому, как докладчик описывала результат. На слайде она привела значение Хи-квадрат: р = 0,052. При этом она говорит о том, что «это все достоверно». Что же означает этот Хи-квадрат, это р (читается как «пи») и почему там на самом деле все не так достоверно, как утверждает Екатерина Виноградова? Чтобы разобраться, придется немного углубиться в статистику.

«Это все достоверно».

Статистика — не волшебная палочка, позволяющая однозначно выяснить, есть ли какая-то разница между группами или нет. Единственное, что статистический тест может сделать, — это оценить вероятность того, что, если разницы между группами на самом деле нет, мы увидим тот эффект, который мы видим.

Вот мы собрали какие-то данные, например, по двум категориям семей — «традиционные» и «равноправные». Вот есть цифры по количеству мальчиков, страдающих депрессией. Действительно ли есть разница между семьями? Никто точно не знает. Статистика может только сказать следующее: если разницы нет, т.е. если на самом деле процент мальчиков с депрессией одинаковый у традиционных и равноправных семей, то вы увидите те экспериментальные результаты, которые вы увидели, с вероятностью «p». Иными словами, «p» — это вероятность того, что результат ложноположителен: на самом деле разницы нет, а мы (неправильно) заключили, что она есть. Почему так вообще может получиться? Почему вдруг мы по результатам эксперимента можем заключить, что разница есть, хотя ее на самом деле нет? Дело в том, что выборка всегда подразумевает фактор случайности. Если вы хотите сделать вывод о всех семьях (и тех, что были в прошлом, и тех, что будут в будущем), вам в идеале «просто» нужно собрать данные о всех когда-либо существовавших семьях, и дело с концом. Но «просто» не случайно взято в кавычки: как вы соберете данные о будущих семьях? Этого сделать невозможно, поэтому приходится удовлетворяться теми, что есть. Например, семьями с детьми в 1989-1990 годах, как в этом исследовании.

А вдруг так случилось, что в равноправных семьях в этот год, по чистой случайности, родилось больше детей с предрасположенностью к депрессии? То есть на самом деле, если бы мы взяли данные всех на свете семей, или хотя бы данные за большее количество лет, мы бы не обнаружили разницы, а вот в этот год так не повезло. Может такое быть? Еще как может, и тогда мы ошибочно заключим, что равноправие в семьях коррелирует с повышенным риском депрессии. Это и называется ложноположительный результат. И именно это значение выражает «p».

Другой и, может быть, более простой способ посмотреть на значение «p»: если по результатам статистического теста p ≅ 0,05 (или 1/20), это означает, что если вы проведете 20 подобных исследований, вы в среднем в одном из них найдете различия, даже если их там на самом деле нет. А это уже серьезно — в среднем, каждый двадцатый научный результат, в котором разница между группами оценена с p ≅ 0,05, на самом деле ложноположителен. То есть на самом деле разницы, которую «нашли» ученые, может не быть вовсе, а может быть всего лишь результат случайных различий в выборках. [В данном абзаце содержится ошибка, на которую нам указали в комментариях после публикации, она несущественна для статьи в целом, однако лучше ее разъяснить, смотри здесь].

Когда смотришь на статистику с этой позиции, начинаешь понимать, что статистические инструменты — это не кувалда, которой можно ковать данные, пока не получится что-то удобоваримое. Это скорее набор инженера-электротехника, инструмент, нуждающийся в тонкой настройке под конкретное задание. Здесь важно и что делаешь, и в каком порядке, и как интерпретируешь. Иначе рискуешь попасть впросак, и истории известны случаи, когда неправильная интерпретация статистики в исследованиях вела к гибели множества людей.

Все это мы пишем для того, чтобы было понятно — это не просто придирки к докладу Екатерины Виноградовой, эти детали действительно имеют значение, особенно когда исследование в конечном счете сводится к «феминизм вреден для детей» или «феминизм не вреден для детей». Малейшие различия в понимании происходящего ведут к неправильной интерпретации. Например, что такое тест Хи-квадрат. В этом контексте — статистический тест, который позволяет оценить, влияет ли категория (в данном случае — тип семьи, «традиционные», «равноправные» и т.д.) на какую-то другую переменную (в данном случае — вероятность депрессии у сына). Значение «р» в данном случае выражает вероятность того, что если на самом деле не влияет, то вы увидите те результаты, которые увидели, вот с этой вероятностью «р». То есть в данном случае это 5,2% (p=0,052).

Поскольку общепринятый максимальный уровень «р» для заключения «статистической достоверности различий» — 5%, в данном случае различия, вопреки словам Екатерины Виноградовой, не достоверны (с этим согласны и авторы статьи — см. дальше).

Ошибка доклада: что с чем сравнивали авторы исследования

Екатерина Виноградова говорила: «Оказалось, что среди мальчиков в “традиционных” и “очень традиционных” семьях процент обращений достоверно ниже, чем в “равных” и “скорее нетрадиционных”».

Но так ли это? Нет, это не так. Сравнивались не “традиционные”+“очень традиционные” со всеми остальными. Сравнивался эффект типа семьи в целом на вероятность депрессии. Это совершенно разные вещи и разные тесты, которые дадут разные результаты. Результат теста, о котором говорит Екатерина Виноградова, ни нам, ни ей не известен.

Предложенная ею интерпретация неправильна. Та же ситуация с девочками (следующий слайд). Здесь «р» заметно ниже, но, опять же, это не отражает достоверность различия каждой категории семей с каждой другой. То есть утверждение Екатерины Виноградовой про то что «хуже всего для девочек, когда нет мамы и папы, когда они одинаковые, когда функции мамы и папы не разделены» основана на неправильной интерпретации теста.

Результаты исследования не означают, что в «традиционных» и «нетрадиционных» семьях вероятность депрессии достоверно ниже, чем в «равноправных». Они лишь обозначают, что эффект типа семьи в целом есть.

Хотя, есть ли? Нас очень удивило, что авторы статьи не описывают в деталях статистические процедуры для теста Хи-квадрат. У них даже есть специальная секция «Статистический анализ» в разделе «Методы», но о тесте Хи-квадрат там ни слова. Авторы считают, что их «р» недостаточно малы для того, чтобы заключить эффект типа семьи!

Что пишут авторы исследования?

Они так и писали в тексте статьи, когда обсуждали таблицу 1 — "At a descriptive level, the mental ill-health outcomes do not vary by (in)equality category…"[2], — и тут же переходили к результатам регрессионного анализа, сделанного дальше в статье. То есть проценты из таблицы 1, приведенные на слайдах Екатерины Виноградовой, и значения «р» по Хи-квадрат, самими авторами статьи не признаются как статистически значимые (и не зря, потому что 0,052 и 0,031 это достаточно высокие значения «р», особенно если учесть проблему множественных сравнений — о которой мы еще поговорим далее). Нужно оговориться, что, хотя мы понимаем мотивацию авторов статьи, отсутствие достоверности при тестировании не оправдывает отсутствие описания статистического теста в разделе со статистическими процедурами. Если тесты проведены, они должны быть описаны в статье. Отсутствие четкого описания лишь сбивает с толку тех, кто не занимается статистикой профессионально.

Ложноположительные результаты и множественные сравнения

Выше мы говорили о ложноположительных результатах и о том, что «p» выражает вероятность того, что результат ложноположителен. Мы также упомянули, что если вы принимаете различия как достоверные[3] при p

По этой теме читайте также:

Примечания

1. У авторов было какое-то количество детей, чьи родители обращались к врачам. Они указывают процент от общего числа детей. По проценту невозможно восстановить, каково точное количество детей, и нельзя повторить тест Хи-квадрат (об этом тесте мы поговорим ниже). Например, если известно, что заболевания были у 5,0% от 10000 детей, то это может быть любое число от 495 до 504 — они все округляются до 5,0%. Эта разница важна в тесте и без нее тест повторить не удастся.

2. «На описательном уровне [имеется в виду описательная статистика] уровень психических заболеваний [у детей] не зависит от категории семьи по равенству».

📎📎📎📎📎📎📎📎📎📎