«Апостериори»: ИИ научился анализировать химические реакции
Новости науки и технологий
Поддержите «Эхо», если вы не в России
Химики показали, что большие языковые модели могут использоваться не только для поиска информации или генерации текста, но и для анализа химических реакций и планирования синтеза веществ. В исследовании, опубликованном в журнале Cell Press, учёные продемонстрировали систему, в которой большие языковые модели оценивают возможные пути синтеза и механизмы реакций.
Современная органическая химия во многом опирается на ретросинтез – метод, при котором сложную молекулу как бы разбивают на более простые фрагменты, постепенно сводя её к доступным исходным веществам. Такой подход особенно важен при разработке лекарств, красителей, полимеров и других сложных соединений. Уже несколько десятилетий существуют компьютерные системы, помогающие химикам искать возможные пути синтеза. Однако такие алгоритмы обычно оценивают главным образом формальную достижимость маршрута, а не его практическую или стратегическую целесообразность.
При этом для химиков важны не только сами реакции, но и порядок их выполнения. Например, на каком этапе лучше вводить чувствительные функциональные группы, какие промежуточные продукты окажутся нестабильными, и какие реакции могут привести к большому количеству побочных веществ. Именно такие решения часто отличают удачный синтез от практически невыполнимого.
Авторы новой работы предложили использовать большие языковые модели не для непосредственного создания химических структур, а для анализа уже найденных вариантов. Система получила название Synthegy. В ней обычный алгоритм сначала генерирует множество возможных путей синтеза, а затем языковая модель оценивает их с точки зрения химической логики и соответствия заданной стратегии.
При этом требования к синтезу можно формулировать обычным языком. Например, исследователь может указать, что определённый фрагмент молекулы желательно сформировать на ранней стадии синтеза, или попросить минимизировать использование защитных групп – временных химических модификаций, необходимых для предотвращения нежелательных реакций. После этого система ранжирует найденные маршруты по степени соответствия этим критериям.
Для проверки работы системы авторы сравнили её оценки с мнением независимых химиков. В исследовании приняли участие 36 специалистов, которым показывали разные варианты синтеза сложных молекул. В среднем оценки системы совпадали с мнением экспертов примерно в 71 проценте случаев. При этом, как отмечают авторы, эксперты нередко расходились друг с другом в оценке наиболее удачного маршрута.
Исследователи также показали, что способность языковых моделей к подобному химическому анализу зависит от масштаба модели. Небольшие модели практически не справлялись с задачей, тогда как крупные системы демонстрировали значительно более высокие результаты. Особенно заметный прогресс, по словам авторов, произошёл в течение последних двух лет.
Помимо планирования синтеза, учёные протестировали аналогичный подход для анализа механизмов химических реакций. В химии механизм реакции описывает последовательность элементарных перемещений электронов, которые превращают исходные вещества в конечные продукты. Именно понимание механизмов позволяет химикам предсказывать поведение новых молекул и разрабатывать более эффективные реакции.
Исследователи разбили механизмы реакций на простейшие элементарные действия – например, атаку нуклеофила или разрыв химической связи. Алгоритм перебирал возможные последовательности таких шагов, а языковая модель оценивала, насколько каждый следующий шаг соответствует химическим принципам и общему ходу реакции.
На простых реакциях лучшие модели почти безошибочно выбирали корректные элементарные стадии. На более сложных механизмах точность снижалась, однако системы всё равно заметно превосходили случайный выбор. Исследователи также показали, что результаты можно дополнительно улучшить, если снабжать модель текстовыми подсказками – например, описанием предполагаемого механизма реакции или экспериментальных условий.
Авторы подчёркивают, что подобные системы пока нельзя рассматривать как полноценную замену классическому подходу. Языковые модели всё ещё совершают ошибки, иногда неверно интерпретируют химические схемы или переоценивают реалистичность отдельных реакций. Тем не менее исследование показывает, что большие языковые модели начинают демонстрировать не только способность воспроизводить химическую информацию, но и нечто, напоминающее стратегическое химическое мышление.
По мнению авторов, в будущем подобные системы могут стать инструментом, позволяющим быстро анализировать тысячи возможных путей синтеза, подбирать наиболее реалистичные варианты и помогать исследователям при разработке новых лекарств и материалов.

