Статья: Консенсусный подход к созданию атом-атомного отображения в химических реакциях

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

Полная исследовательская публикация ___ Маджидов Т.И., Нугманов Р.И., Гимадиев Т.Р., Лиин А.И.,

Антипин И.С. и Варнек А.

176 _____ http://butlerov.com/ _____ ©--Butlerov Communications. 2015. Vol.44. No.12. P.170-176. (English Preprint)

Полная исследовательская публикация Тематический раздел: Компьютерные химические исследования.

Регистрационный код публикации: 15-44-12-170 Подраздел: Хемоинформатика.

170 _________ ©--Бутлеровские сообщения. 2015. Т.44. №12. ________ г. Казань. Республика Татарстан. Россия.

УДК 544.412.

Кафедра органической химии. Химический институт

им. А.М. Бутлерова

Консенсусный подход к созданию атом-атомного отображения в химических реакциях

Маджидов Тимур Исмаилович

Атом-атомное отображение (ААО) является центральной проблемой компьютерного анализа данных по химическим реакциям [1]. Суть его заключается в установлении соответст-вия между атомами реагентов и продуктов (рис. 1). Без предварительного установления ААО невозможно автоматически определить, какая именно произошла трансформация в ходе хими-ческой реакции. По этой причине хранение данных по химическим реакциям, осуществление структурного поиска в реакциях (структурный, подструктурный и по схожести), определение типа и классификация реакций по механизмам требует предварительного установления ААО. В последнее время были предложены подходы, которые позволяют проводить моделирование связи «структура-реакционная способность» [2] в случае известного отображения атомов или связей в реакции.

Рис. 1. Атом-атомное отображение в реакциях. Цифрами указано соответствие атомов.

На рисунке приведено корректное ААО: разрывается связь C8-I7 и образуется связь C8-N4 (химическая дистанция равна 2).

Установление ААО является исключительно сложной задачей, поскольку она является NР-полной [3] (то есть решается за время, которое экспоненциально растет с числом атомов) и ее решение возможно только путем комбинаторной оптимизации. На данный момент имеется 2 основных способа установления ААО:

Ш Нахождение максимальной общей подструктуры (МОП) графов реагентов и продуктов, то есть атомов, окружение которых не изменилось в ходе реакции. В последующем это позво-ляет идентифицировать реакционный центр и создать ААО. Одним из наиболее известных алгоритмов такого типа является метод, предложенный М. Линчем и П. Виллетом [4]. В настоящее время существует несколько алгоритмов такого типа [5]. Основными недостат-ками их является вычислительная сложность определения МОП, зачастую имеется нес-колько эквивалентных решений. Методы такого типа субоптимальны (то есть нельзя быть уверенным, что предложенное решение является лучшим из потенциально возможных) и поэтому выдаваемое решение может зависеть от нумерации атомов, либо требуется боль-шое количество специальных правил (эвристик). Если реакционный центр захватывает большую долю атомов, то метод такого типа не способен дать корректное решение проб-лемы ААО.

Ш Оптимизационные алгоритмы основаны на принципе наименьшей химической дистанции (НХД) [6]. Принцип НХД гласит, что реакции зачастую идут с наименьшим числом изменившихся связей. Таким образом, методы такого типа минимизируют целевую функ-цию, зависящую от числа разорванных и образованных связей. Эта задача вычислительно еще более сложна, чем методы основанные на МОП. Для решения таких проблем исполь-зуются детерминистические методы комбинаторной оптимизации, например алгоритм А* [7], линейного ограниченного программирования [8], либо стохастической оптимизации, например, эволюционное программирование [9]. Преимуществом данных методов является то, что потенциально они могут давать лучшее решение из возможных (то есть решение с минимальным НХД). Проблема методов такого типа в том, что не всегда принцип НХД дает химически корректное отображение атомов и такая постановка вычислительно существенно затратнее, чем методы, основанные на МОП.

Поскольку все известные алгоритмы ААО в ряде случаев ошибаются, то автоматическое обнаружение некорректного отображения представляет особую важность. В статье [10] был предложен первый алгоритм для обнаружения некорректного ААО. Если находить реакции с ошибочными ААО, то в последующем можно использовать более строгие методы, или исправлять ошибки вручную.

Существуют и другие весьма эффективно работающие методы, зачастую являющиеся комбинацией известных [11], всего несколько десятков программ написано до настоящего времени, но подавляющее большинство из них не способны работать с незаполненными химическими реакциями. При этом основная часть (более 90%) реакций в базах данных приведена в незаполненном виде. Практически всегда отсутствует информация о низкомоле-кулярных продуктах и реагентах, атомы которых отсутствуют в описанном продукте. Для многостадийных реакций часто описываются только начальные и конечные молекулы и не соблюдаются стехиометрические коэффициенты. Поскольку, согласно концепции ААО, одному атому реагента может соответствовать один атом продукта, то формальное отображе-ние атомов одного реагента в атомы нескольких продуктов или наоборот может затруднять дальнейшую интерпретацию реакции. При этом нам известно 5 программ, которые позволяют проводить ААО в незаполненных реакциях: ICMap [12], Accelrys Automapper [13], ChemOffice [14], Indigo [15], ChemAxon JChem [16], причем только два последних доступны бесплатно для академического пользования. Все эти программы используют алгоритмы, основанные на поиске МОП.

В данной работе мы предлагаем подход, который позволяет использовать преимущества нескольких программ для создания ААО. Это подход может использоваться для уточнения атом-атомного отображения в незаполненных реакциях. Основная идея подхода заключается в том, что после проведения атом-атомного отображения несколькими различными алгорит-мами, можно выбрать наиболее корректное из нескольких вариантов. Чем большее коли-чество различных алгоритмов будет использовано, тем больше шанс получить корректное отображение. Таким образом, создаваемое отображение является «консенсусом» нескольких различных подходов.

Экспериментальная часть

В качестве алгоритмов для создания ААО использовались программы Indigo, версия 1.1.12 [15] и ChemAxon JChem, версии 6.1[16]. Еще одна программа RеactMap была разработана в нашей лабо-ратории и воплощает генетический алгоритм для комбинаторной оптимизации, предложенной в работе [9]. В настоящее время эта программа адаптирована только для стехиометрически уравновешенных реакций. Также в ряде случаев использовался общедоступный сервер DREAM [17, 18].

Для сравнения различных подходов использовалось 4 набора данных: реакции SN2 типа (всего 765 реакций), реакции Е2 типа (всего 709 реакций), реакции таутомеризации (всего 744 реакций) и набор из 50 000 разнообразных реакций из создаваемой в настоящее время базы данных ChemSpider Reactions. Первые 3 набора данных представляют собой собранные вручную данные, в которых приведены все реагенты и продукты. Последний набор данных является экстрактом из реальной базы данных и содержит, в основном, незаполненные реакции.

Предварительно проводилась стандартизация представления атомных группировок (нитро-, азидных и прочих групп), а также ароматизация, удаление явно указанных водородов в использован-ных наборах реакций с использованием ChemAxon JChem Standardizer, версии 6.1 [16].

Для выполнения работы было написано несколько скриптов с использованием языка Python 3.4.

Результаты и их обсуждение

Для решения поставленной цели необходимо определить, какой из предложенных про-граммами ААО является некорректным. Для этого мы использовали принцип наименьшей химической дистанции: наиболее верным является ААО, в котором число разорванных и об-разованных связей является наименьшим (рис. 2).

Рис. 2. Некорректное атом-атомное отображение для реакции, приведенной на рис. 1.

На данном рисунке ААО соответствует разрыву связей C8-I7, С15-Н и образованию связей C8-Н, С15-N4. Таким образом, химическая дистанция равна 4 (при корректном отображении - 2, см. рис. 1).

Оригинальный подход [6] наименьшей химической дистанции использовал матрицы связности атомов для вычисления значений и не работает с несбалансированными реакциями. Для решения этой проблемы предлагается использовать подход конденсированного графа реакции (КГР), который позволяет обойти это ограничение. В подходе КГР химической дистанцией является число динамических связей графа. Подход основан на работе Г. Владуца [19], который предложил вместо ансамбля молекулярных графов, математически кодирующих структуру молекул (вершины графа - атомы, ребра - связи) использовать один граф реакции, метки ребер которого могут обозначать образование, разрушение и изменение порядка связи. С. Фужита [20] расширил этот подход на представление реакционного превращения в целом (а не только реакционного центра) на одном графе, названного им «мнимым переходным состоянием», а позже - конденсированным графом реакции [21]. А. Варнек с соавт. [2, 22], предложили формально рассматривать конденсированный граф реакции как псевдомолекулу и использовать его для поиска по схожести и моделирования «структура-свойство». Для построения КГР достаточно наличие отображений атомов только реакционного центра (рис. 3). Далее наложением атомов можно получить конденсированный граф реакции, в котором легко посчитать число разорванных и образованных связей (то есть число динамических связей).

Если тип реакций известен, то число разорванных и образованных связей при правиль-ном отображении атомов известно, что позволяет идентифицировать реакции с ошибками ААО. В табл. 1 приведено сравнение различных подходов для создания ААО в сбалансиро-ванных реакциях. Видно, что даже в случае относительно простых реакций SN2, E2 и тауто-меризации, программы ошибаются в создании ААО в 2-24% случаев.

Рис. 3. (1) Атом-атомное отображение для стехиометрически неуравновешенной реакции нуклеофильного замещения. (2) Соответствующий данному отображению

Tабл. 1. Количество ошибок при создании ААО разными программами

Программа

SN2

E2

Таутомеризация

ChemAxon JChem

37 (4.8%)

12 (1.7%)

48 (6.5%)

GGA Indigo

92 (12.0%)

34 (4.8%)

83 (11.1%)

DREAM

247 (15.4%)

172 (24.0%)

0 (0%)

ReactMap

64 (8,4%)

76 (10,7%)

112 (15,0%)

НХД-консенсус (ChemAxon JChem + GGA Indigo)

0 (0%)

1 (0.1%)

18 (2,4%)

Было обнаружено, что зачастую ошибки не пересекаются, иначе говоря, программы делают ошибки на разных реакциях. Это можно использовать для последующего уточнения ААО. Реакции, в которых идентифицированы ошибки ААО, могут быть обработаны другим алгоритмом и так далее. Этот подход показывает очень хорошие результаты: даже при последовательном использовании трех программ количество ошибочно определенных ААО уменьшается до 0 (табл. 2). Используя наиболее времязатратные подходы на поздних этапах можно существенно улучшить качество выдаваемого ААО с минимальным приростом вре-мени расчета. Недостатком этого подхода является необходимость знания типа (механизма) реакции. Только в этом случае можно знать, какое количество динамических связей должно присутствовать в КГР при правильном отображении, и отсеивать ААО, для которых это число отличается. Последовательный подход можно использовать при создании ААО только в базах данных реакций известного типа.

Табл. 2. Количество ошибочных ААО при последовательном использовании программ ChemAxon JChem, Indigo и ReactMap

Реакции

ChemAxon JChem

(1 этап)

Indigo

(2 этап)

ReactMap

(3 этап)

SN2

37

0

0

E2

12

1

0

Таутомеризация

48

18

0

Предложенный подход не может быть использован на реакциях с неизвестным типом и, следовательно, не может применяться в большинстве реакционных баз. Как уже было сказано, принцип НХД используется в качестве критерия верности отображения в оптимизационных методах. Поэтому его можно использовать при сравнения отображений, полученных разными алгоритмами. В отличие от предыдущего (последовательного) подхода, для реакций с неизвестным механизмом можно создать ААО различными алгоритмами, построить КГР для каждого, вычислить число разорванных и образованных связей, и выбрать такой вариант, которому соответствует минимальное число динамических связей. Данный (параллельный) подход был применен на 3 наборах реакций известного типа с использованием двух программ для создания ААО - ChemAxon JChem и Indigo. Результаты приведены в табл. 1 в графе «НХД-консенсус». Из данных табл. 1 следует, что для реакций SN2-типа в результате кон-сенсуса не осталось ни одной ошибки ААО, существенное (в 10-40 раз) уменьшение количества ошибочных отображений наблюдается для других типов реакций. Вообще говоря, специфика данного метода консунсуса такова, что количество ошибок ААО, полученных в результате НХД-консенсуса не превышает (а обычно существенно меньше) количества ошибок лучшего из использованных в консенсусе алгоритмов.