Полная исследовательская публикация ___ Маджидов Т.И., Нугманов Р.И., Гимадиев Т.Р., Лиин А.И.,
Антипин И.С. и Варнек А.
176 _____ http://butlerov.com/ _____ ©--Butlerov Communications. 2015. Vol.44. No.12. P.170-176. (English Preprint)
Полная исследовательская публикация Тематический раздел: Компьютерные химические исследования.
Регистрационный код публикации: 15-44-12-170 Подраздел: Хемоинформатика.
170 _________ ©--Бутлеровские сообщения. 2015. Т.44. №12. ________ г. Казань. Республика Татарстан. Россия.
УДК 544.412.
Кафедра органической химии. Химический институт
им. А.М. Бутлерова
Консенсусный подход к созданию атом-атомного отображения в химических реакциях
Маджидов Тимур Исмаилович
Атом-атомное отображение (ААО) является центральной проблемой компьютерного анализа данных по химическим реакциям [1]. Суть его заключается в установлении соответст-вия между атомами реагентов и продуктов (рис. 1). Без предварительного установления ААО невозможно автоматически определить, какая именно произошла трансформация в ходе хими-ческой реакции. По этой причине хранение данных по химическим реакциям, осуществление структурного поиска в реакциях (структурный, подструктурный и по схожести), определение типа и классификация реакций по механизмам требует предварительного установления ААО. В последнее время были предложены подходы, которые позволяют проводить моделирование связи «структура-реакционная способность» [2] в случае известного отображения атомов или связей в реакции.
Рис. 1. Атом-атомное отображение в реакциях. Цифрами указано соответствие атомов.
На рисунке приведено корректное ААО: разрывается связь C8-I7 и образуется связь C8-N4 (химическая дистанция равна 2).
Установление ААО является исключительно сложной задачей, поскольку она является NР-полной [3] (то есть решается за время, которое экспоненциально растет с числом атомов) и ее решение возможно только путем комбинаторной оптимизации. На данный момент имеется 2 основных способа установления ААО:
Ш Нахождение максимальной общей подструктуры (МОП) графов реагентов и продуктов, то есть атомов, окружение которых не изменилось в ходе реакции. В последующем это позво-ляет идентифицировать реакционный центр и создать ААО. Одним из наиболее известных алгоритмов такого типа является метод, предложенный М. Линчем и П. Виллетом [4]. В настоящее время существует несколько алгоритмов такого типа [5]. Основными недостат-ками их является вычислительная сложность определения МОП, зачастую имеется нес-колько эквивалентных решений. Методы такого типа субоптимальны (то есть нельзя быть уверенным, что предложенное решение является лучшим из потенциально возможных) и поэтому выдаваемое решение может зависеть от нумерации атомов, либо требуется боль-шое количество специальных правил (эвристик). Если реакционный центр захватывает большую долю атомов, то метод такого типа не способен дать корректное решение проб-лемы ААО.
Ш Оптимизационные алгоритмы основаны на принципе наименьшей химической дистанции (НХД) [6]. Принцип НХД гласит, что реакции зачастую идут с наименьшим числом изменившихся связей. Таким образом, методы такого типа минимизируют целевую функ-цию, зависящую от числа разорванных и образованных связей. Эта задача вычислительно еще более сложна, чем методы основанные на МОП. Для решения таких проблем исполь-зуются детерминистические методы комбинаторной оптимизации, например алгоритм А* [7], линейного ограниченного программирования [8], либо стохастической оптимизации, например, эволюционное программирование [9]. Преимуществом данных методов является то, что потенциально они могут давать лучшее решение из возможных (то есть решение с минимальным НХД). Проблема методов такого типа в том, что не всегда принцип НХД дает химически корректное отображение атомов и такая постановка вычислительно существенно затратнее, чем методы, основанные на МОП.
Поскольку все известные алгоритмы ААО в ряде случаев ошибаются, то автоматическое обнаружение некорректного отображения представляет особую важность. В статье [10] был предложен первый алгоритм для обнаружения некорректного ААО. Если находить реакции с ошибочными ААО, то в последующем можно использовать более строгие методы, или исправлять ошибки вручную.
Существуют и другие весьма эффективно работающие методы, зачастую являющиеся комбинацией известных [11], всего несколько десятков программ написано до настоящего времени, но подавляющее большинство из них не способны работать с незаполненными химическими реакциями. При этом основная часть (более 90%) реакций в базах данных приведена в незаполненном виде. Практически всегда отсутствует информация о низкомоле-кулярных продуктах и реагентах, атомы которых отсутствуют в описанном продукте. Для многостадийных реакций часто описываются только начальные и конечные молекулы и не соблюдаются стехиометрические коэффициенты. Поскольку, согласно концепции ААО, одному атому реагента может соответствовать один атом продукта, то формальное отображе-ние атомов одного реагента в атомы нескольких продуктов или наоборот может затруднять дальнейшую интерпретацию реакции. При этом нам известно 5 программ, которые позволяют проводить ААО в незаполненных реакциях: ICMap [12], Accelrys Automapper [13], ChemOffice [14], Indigo [15], ChemAxon JChem [16], причем только два последних доступны бесплатно для академического пользования. Все эти программы используют алгоритмы, основанные на поиске МОП.
В данной работе мы предлагаем подход, который позволяет использовать преимущества нескольких программ для создания ААО. Это подход может использоваться для уточнения атом-атомного отображения в незаполненных реакциях. Основная идея подхода заключается в том, что после проведения атом-атомного отображения несколькими различными алгорит-мами, можно выбрать наиболее корректное из нескольких вариантов. Чем большее коли-чество различных алгоритмов будет использовано, тем больше шанс получить корректное отображение. Таким образом, создаваемое отображение является «консенсусом» нескольких различных подходов.
Экспериментальная часть
В качестве алгоритмов для создания ААО использовались программы Indigo, версия 1.1.12 [15] и ChemAxon JChem, версии 6.1[16]. Еще одна программа RеactMap была разработана в нашей лабо-ратории и воплощает генетический алгоритм для комбинаторной оптимизации, предложенной в работе [9]. В настоящее время эта программа адаптирована только для стехиометрически уравновешенных реакций. Также в ряде случаев использовался общедоступный сервер DREAM [17, 18].
Для сравнения различных подходов использовалось 4 набора данных: реакции SN2 типа (всего 765 реакций), реакции Е2 типа (всего 709 реакций), реакции таутомеризации (всего 744 реакций) и набор из 50 000 разнообразных реакций из создаваемой в настоящее время базы данных ChemSpider Reactions. Первые 3 набора данных представляют собой собранные вручную данные, в которых приведены все реагенты и продукты. Последний набор данных является экстрактом из реальной базы данных и содержит, в основном, незаполненные реакции.
Предварительно проводилась стандартизация представления атомных группировок (нитро-, азидных и прочих групп), а также ароматизация, удаление явно указанных водородов в использован-ных наборах реакций с использованием ChemAxon JChem Standardizer, версии 6.1 [16].
Для выполнения работы было написано несколько скриптов с использованием языка Python 3.4.
Результаты и их обсуждение
Для решения поставленной цели необходимо определить, какой из предложенных про-граммами ААО является некорректным. Для этого мы использовали принцип наименьшей химической дистанции: наиболее верным является ААО, в котором число разорванных и об-разованных связей является наименьшим (рис. 2).
Рис. 2. Некорректное атом-атомное отображение для реакции, приведенной на рис. 1.
На данном рисунке ААО соответствует разрыву связей C8-I7, С15-Н и образованию связей C8-Н, С15-N4. Таким образом, химическая дистанция равна 4 (при корректном отображении - 2, см. рис. 1).
Оригинальный подход [6] наименьшей химической дистанции использовал матрицы связности атомов для вычисления значений и не работает с несбалансированными реакциями. Для решения этой проблемы предлагается использовать подход конденсированного графа реакции (КГР), который позволяет обойти это ограничение. В подходе КГР химической дистанцией является число динамических связей графа. Подход основан на работе Г. Владуца [19], который предложил вместо ансамбля молекулярных графов, математически кодирующих структуру молекул (вершины графа - атомы, ребра - связи) использовать один граф реакции, метки ребер которого могут обозначать образование, разрушение и изменение порядка связи. С. Фужита [20] расширил этот подход на представление реакционного превращения в целом (а не только реакционного центра) на одном графе, названного им «мнимым переходным состоянием», а позже - конденсированным графом реакции [21]. А. Варнек с соавт. [2, 22], предложили формально рассматривать конденсированный граф реакции как псевдомолекулу и использовать его для поиска по схожести и моделирования «структура-свойство». Для построения КГР достаточно наличие отображений атомов только реакционного центра (рис. 3). Далее наложением атомов можно получить конденсированный граф реакции, в котором легко посчитать число разорванных и образованных связей (то есть число динамических связей).
Если тип реакций известен, то число разорванных и образованных связей при правиль-ном отображении атомов известно, что позволяет идентифицировать реакции с ошибками ААО. В табл. 1 приведено сравнение различных подходов для создания ААО в сбалансиро-ванных реакциях. Видно, что даже в случае относительно простых реакций SN2, E2 и тауто-меризации, программы ошибаются в создании ААО в 2-24% случаев.
Рис. 3. (1) Атом-атомное отображение для стехиометрически неуравновешенной реакции нуклеофильного замещения. (2) Соответствующий данному отображению
Tабл. 1. Количество ошибок при создании ААО разными программами
|
Программа |
SN2 |
E2 |
Таутомеризация |
|
|
ChemAxon JChem |
37 (4.8%) |
12 (1.7%) |
48 (6.5%) |
|
|
GGA Indigo |
92 (12.0%) |
34 (4.8%) |
83 (11.1%) |
|
|
DREAM |
247 (15.4%) |
172 (24.0%) |
0 (0%) |
|
|
ReactMap |
64 (8,4%) |
76 (10,7%) |
112 (15,0%) |
|
|
НХД-консенсус (ChemAxon JChem + GGA Indigo) |
0 (0%) |
1 (0.1%) |
18 (2,4%) |
Было обнаружено, что зачастую ошибки не пересекаются, иначе говоря, программы делают ошибки на разных реакциях. Это можно использовать для последующего уточнения ААО. Реакции, в которых идентифицированы ошибки ААО, могут быть обработаны другим алгоритмом и так далее. Этот подход показывает очень хорошие результаты: даже при последовательном использовании трех программ количество ошибочно определенных ААО уменьшается до 0 (табл. 2). Используя наиболее времязатратные подходы на поздних этапах можно существенно улучшить качество выдаваемого ААО с минимальным приростом вре-мени расчета. Недостатком этого подхода является необходимость знания типа (механизма) реакции. Только в этом случае можно знать, какое количество динамических связей должно присутствовать в КГР при правильном отображении, и отсеивать ААО, для которых это число отличается. Последовательный подход можно использовать при создании ААО только в базах данных реакций известного типа.
Табл. 2. Количество ошибочных ААО при последовательном использовании программ ChemAxon JChem, Indigo и ReactMap
|
Реакции |
ChemAxon JChem (1 этап) |
Indigo (2 этап) |
ReactMap (3 этап) |
|
|
SN2 |
37 |
0 |
0 |
|
|
E2 |
12 |
1 |
0 |
|
|
Таутомеризация |
48 |
18 |
0 |
Предложенный подход не может быть использован на реакциях с неизвестным типом и, следовательно, не может применяться в большинстве реакционных баз. Как уже было сказано, принцип НХД используется в качестве критерия верности отображения в оптимизационных методах. Поэтому его можно использовать при сравнения отображений, полученных разными алгоритмами. В отличие от предыдущего (последовательного) подхода, для реакций с неизвестным механизмом можно создать ААО различными алгоритмами, построить КГР для каждого, вычислить число разорванных и образованных связей, и выбрать такой вариант, которому соответствует минимальное число динамических связей. Данный (параллельный) подход был применен на 3 наборах реакций известного типа с использованием двух программ для создания ААО - ChemAxon JChem и Indigo. Результаты приведены в табл. 1 в графе «НХД-консенсус». Из данных табл. 1 следует, что для реакций SN2-типа в результате кон-сенсуса не осталось ни одной ошибки ААО, существенное (в 10-40 раз) уменьшение количества ошибочных отображений наблюдается для других типов реакций. Вообще говоря, специфика данного метода консунсуса такова, что количество ошибок ААО, полученных в результате НХД-консенсуса не превышает (а обычно существенно меньше) количества ошибок лучшего из использованных в консенсусе алгоритмов.