Нейросети справляются с постановкой диагноза хуже, чем обычный поиск в Google
По статистике, каждый двадцатый запрос к большим языковым моделям (LLM) вроде ChatGPT или Gemini – это запрос, касающийся здоровья. Люди примерно одинаково часто интересуются у нейросетей, что означает тот или иной медицинский термин и как разобраться в инструкции, а также какие существуют варианты лечения тех или иных заболеваний. Но самый частый медицинский запрос – это просьба объяснить симптомы и предположить, какое расстройство может их вызывать.
Учитывая возможные негативные последствия в случае, если нейросеть ответит неверно, последние версии большинства главных игроков на этом рынке при подобных запросах предупреждают, что ответ не может рассматриваться как медицинский совет и что нейросеть в принципе не может давать индивидуальных рекомендаций, касающихся здоровья.
Но, разумеется, всё это не останавливает людей от того, чтобы продолжать советоваться с LLM-ками по поводу разболевшейся спины, странных ощущений в животе или внезапной одышки.
Но, может быть, это и неплохо? В конце концов, нейросети не только отлично сдают медицинские экзамены, но также прекрасно справляются со многими типичными врачебными задачами, а значит, наверное, смогут распознать опасные признаки и в принципе понять, что не так с человеком?
И буквально на днях в журнале Nature Medicine вышла статья, которая переводит этот вопрос из разряда гипотетических в совершенно конкретный, и, более того, дает на него прямой ответ. И этот ответ – нет. Более того, нейросети справляются с постановкой диагноза хуже, чем обычный поиск в Google.
Авторы статьи провели эксперимент, который симулировал типичную картину общения неспециалиста с источниками информации по поводу возникших симптомов. 1300 взрослых жителей Великобритании получили бумажки, в которых описывался один из 10 гипотетических сценариев возникших у человека проблем. Описания были примерно такими: «Вы – 30-летняя женщина, которая проснулась посреди ночи из-за сильного сердцебиения и неприятных ощущений в голове» и так далее. Помимо перечисления симптомов, давалась информация о самом пациенте: его возраст, привычки и образ жизни. Информация была заведомо избыточной – ну, потому что реальные пациенты часто дают врачу или гуглу много ненужных сведений, и авторы статьи хотели эмулировать эту ситуацию.
Приведенные в сценариях симптомы соответствовали состояниям различной степени тяжести: от простуды, почечной колики и язвенного колита до субарахноидального кровоизлияния и тромбоэмболии легочной артерии. Некоторые состояния требовали немедленной госпитализации, с другими же можно было прекрасно справиться самостоятельно дома. Все симптомы были прописаны практикующими врачами.
Прежде чем показать сценарии добровольцам, авторы дали их другой группе врачей, которые проставили дифференциальные диагнозы и дали оценку тяжести состояния. Для каждого сценария диагнозы и схема лечения от независимых врачей совпали с тем, что исходно закладывали авторы. То есть для врачей картина, описанная в сценариях, была ясной.
Затем сценарии выдали добровольцам, которые должны были разобраться, что с их лирическими героями, используя либо одну из трех нейросетей (GPT-4o, Llama 3 или Command R+ – не спрашивайте, почему авторы взяли такую странную подборку), либо другие привычные им методы, в основном, конечно, гугление или поиск по специализированным медицинским сайтам.
И оказалось, что участники из контрольной группы, использовавшие поиск, определили заболевание и тяжесть состояния своего персонажа значительно лучше тех, кто работал с ИИ. А именно, их шансы правильно определить заболевание были в 1,76 раза выше, чем у пользователей нейросетей. Кроме того, группа обычного поиска была в 1,57 раза успешнее в выявлении критических состояний – то есть определении того, когда нужно срочно вызывать скорую.
Впрочем, правильную тактику действий обе группы выбирали одинаково плохо – примерно на уровне 43%. Это больше 20% при случайном выборе (так как всего предлагалось пять сценариев действий, от самолечения до вызова неотложки), но все равно маловато. И те, кто пользовался гуглом, и те, кто пользовался нейросетями, чаще недооценивали тяжесть состояния.
При этом, когда нейросетям скармливали сценарии напрямую, то есть без участия добровольцев, они верно определяли заболевание в 94,9% случаев и тактику действий в 56,3% случаев.
Авторы объясняют столь значимую разницу в исходах тремя основными причинами. Первая – проблемы с передачей информации. В отличие от врачей, которые знают, какие именно сведения нужны для верной постановки диагноза, обычные пациенты часто не сообщают врачу или, в данном случае, нейросети важные для определения состояния признаки. Врач на приеме задал бы уточняющий вопрос, но модели часто этого не делали и сразу выдавали возможный ответ.
Вторая проблема – особенности самих LLM. В некоторых случаях языковые модели либо неверно истолковывали запросы пользователей, либо фокусировались на второстепенных деталях, игнорируя ключевые симптомы. Это связано с тем, что нейросети крайне чувствительны даже к малейшим изменениям в формулировках. Например, в одном случае два пользователя с одинаковым сценарием описали схожие симптомы опасного кровоизлияния, но получили противоположные советы: одному модель рекомендовала отдохнуть, а другому – немедленно вызывать экстренную помощь.
Наконец, третья причина большого количества неверных ответов при использовании нейросетей – это люди. Исследователи обнаружили то, что они назвали вторым разрывом в коммуникации (первый – это когда пользователи не могут дать модели нужные ей сведения): даже когда нейросеть в процессе диалога упоминала верный диагноз (что происходило в 66-73% случаев), пользователи не включали его в свои итоговые ответы.
Дополнительно ситуацию усложняло то, что в среднем ИИ предлагал 2,21 варианта заболеваний за один диалог, из которых верными были только 34%. Выбрать правильный вариант из предложенных пользователи часто оказывались не в состоянии.
В общем, высокая медицинская эрудиция моделей не гарантирует их эффективности в реальном мире. Основной затык случается на этапе обмена информацией: либо ИИ не получает от человека нужных данных, либо человек не может правильно интерпретировать и применить полученный от ИИ ответ. Иначе говоря, межвидовая коммуникация между Homo sapiens и скайнет пробуксовывает. Конечно, немного обидно, что люди не дотягивают до уровня нейросетей, но будем надеяться, что скоро LLM разовьются настолько, что будут держать в голове убогость кожаных мешков и подстраивать свои ответы под их (наш) уровень. Это, конечно, шутка, но только отчасти.

