Купить мерч «Эха»:

Нейросети справляются с постановкой диагноза хуже, чем обычный поиск в Google

Ирина Якутенко
Ирина Якутенкобиолог, научный журналист, популяризатор науки
Мнения13 февраля 2026

По статистике, каждый двадцатый запрос к большим языковым моделям (LLM) вроде ChatGPT или Gemini – это запрос, касающийся здоровья. Люди примерно одинаково часто интересуются у нейросетей, что означает тот или иной медицинский термин и как разобраться в инструкции, а также какие существуют варианты лечения тех или иных заболеваний. Но самый частый медицинский запрос – это просьба объяснить симптомы и предположить, какое расстройство может их вызывать.

Учитывая возможные негативные последствия в случае, если нейросеть ответит неверно, последние версии большинства главных игроков на этом рынке при подобных запросах предупреждают, что ответ не может рассматриваться как медицинский совет и что нейросеть в принципе не может давать индивидуальных рекомендаций, касающихся здоровья.

Но, разумеется, всё это не останавливает людей от того, чтобы продолжать советоваться с LLM-ками по поводу разболевшейся спины, странных ощущений в животе или внезапной одышки.

Но, может быть, это и неплохо? В конце концов, нейросети не только отлично сдают медицинские экзамены, но также прекрасно справляются со многими типичными врачебными задачами, а значит, наверное, смогут распознать опасные признаки и в принципе понять, что не так с человеком?

И буквально на днях в журнале Nature Medicine вышла статья, которая переводит этот вопрос из разряда гипотетических в совершенно конкретный, и, более того, дает на него прямой ответ. И этот ответ – нет. Более того, нейросети справляются с постановкой диагноза хуже, чем обычный поиск в Google.

Авторы статьи провели эксперимент, который симулировал типичную картину общения неспециалиста с источниками информации по поводу возникших симптомов. 1300 взрослых жителей Великобритании получили бумажки, в которых описывался один из 10 гипотетических сценариев возникших у человека проблем. Описания были примерно такими: «Вы – 30-летняя женщина, которая проснулась посреди ночи из-за сильного сердцебиения и неприятных ощущений в голове» и так далее. Помимо перечисления симптомов, давалась информация о самом пациенте: его возраст, привычки и образ жизни. Информация была заведомо избыточной – ну, потому что реальные пациенты часто дают врачу или гуглу много ненужных сведений, и авторы статьи хотели эмулировать эту ситуацию.

Приведенные в сценариях симптомы соответствовали состояниям различной степени тяжести: от простуды, почечной колики и язвенного колита до субарахноидального кровоизлияния и тромбоэмболии легочной артерии. Некоторые состояния требовали немедленной госпитализации, с другими же можно было прекрасно справиться самостоятельно дома. Все симптомы были прописаны практикующими врачами.

Прежде чем показать сценарии добровольцам, авторы дали их другой группе врачей, которые проставили дифференциальные диагнозы и дали оценку тяжести состояния. Для каждого сценария диагнозы и схема лечения от независимых врачей совпали с тем, что исходно закладывали авторы. То есть для врачей картина, описанная в сценариях, была ясной.

Затем сценарии выдали добровольцам, которые должны были разобраться, что с их лирическими героями, используя либо одну из трех нейросетей (GPT-4o, Llama 3 или Command R+ – не спрашивайте, почему авторы взяли такую странную подборку), либо другие привычные им методы, в основном, конечно, гугление или поиск по специализированным медицинским сайтам.

И оказалось, что участники из контрольной группы, использовавшие поиск, определили заболевание и тяжесть состояния своего персонажа значительно лучше тех, кто работал с ИИ. А именно, их шансы правильно определить заболевание были в 1,76 раза выше, чем у пользователей нейросетей. Кроме того, группа обычного поиска была в 1,57 раза успешнее в выявлении критических состояний – то есть определении того, когда нужно срочно вызывать скорую.

Впрочем, правильную тактику действий обе группы выбирали одинаково плохо – примерно на уровне 43%. Это больше 20% при случайном выборе (так как всего предлагалось пять сценариев действий, от самолечения до вызова неотложки), но все равно маловато. И те, кто пользовался гуглом, и те, кто пользовался нейросетями, чаще недооценивали тяжесть состояния.

При этом, когда нейросетям скармливали сценарии напрямую, то есть без участия добровольцев, они верно определяли заболевание в 94,9% случаев и тактику действий в 56,3% случаев.

Авторы объясняют столь значимую разницу в исходах тремя основными причинами. Первая – проблемы с передачей информации. В отличие от врачей, которые знают, какие именно сведения нужны для верной постановки диагноза, обычные пациенты часто не сообщают врачу или, в данном случае, нейросети важные для определения состояния признаки. Врач на приеме задал бы уточняющий вопрос, но модели часто этого не делали и сразу выдавали возможный ответ.

Вторая проблема – особенности самих LLM. В некоторых случаях языковые модели либо неверно истолковывали запросы пользователей, либо фокусировались на второстепенных деталях, игнорируя ключевые симптомы. Это связано с тем, что нейросети крайне чувствительны даже к малейшим изменениям в формулировках. Например, в одном случае два пользователя с одинаковым сценарием описали схожие симптомы опасного кровоизлияния, но получили противоположные советы: одному модель рекомендовала отдохнуть, а другому – немедленно вызывать экстренную помощь.

Наконец, третья причина большого количества неверных ответов при использовании нейросетей – это люди. Исследователи обнаружили то, что они назвали вторым разрывом в коммуникации (первый – это когда пользователи не могут дать модели нужные ей сведения): даже когда нейросеть в процессе диалога упоминала верный диагноз (что происходило в 66-73% случаев), пользователи не включали его в свои итоговые ответы.

Дополнительно ситуацию усложняло то, что в среднем ИИ предлагал 2,21 варианта заболеваний за один диалог, из которых верными были только 34%. Выбрать правильный вариант из предложенных пользователи часто оказывались не в состоянии.

В общем, высокая медицинская эрудиция моделей не гарантирует их эффективности в реальном мире. Основной затык случается на этапе обмена информацией: либо ИИ не получает от человека нужных данных, либо человек не может правильно интерпретировать и применить полученный от ИИ ответ. Иначе говоря, межвидовая коммуникация между Homo sapiens и скайнет пробуксовывает. Конечно, немного обидно, что люди не дотягивают до уровня нейросетей, но будем надеяться, что скоро LLM разовьются настолько, что будут держать в голове убогость кожаных мешков и подстраивать свои ответы под их (наш) уровень. Это, конечно, шутка, но только отчасти.

Оригинал

Купить книги Ирины Якутенко на сайте «Эхо Книги»



Боитесь пропустить интересное?

Подпишитесь на рассылку «Эха»

Это еженедельный дайджест ключевых материалов сайта