Для проверки применимости данного подхода на реальном примере, он был применен для набора из 50 000 реакций из создаваемой в настоящее время базы данных ChemSpider Reactions. ААО для данных реакций было найдено с использованием двух имеющихся у нас программ ChemAxon JChem и GGA Indigo, которые могут корректно работать с несбалансиро-ванными реакциями. Для удобства сравнения, реакции, которые не могут быть обработаны какой-либо из программ, были удалены из набора. Всего было оставлено 45 092 реакций. В качестве консенсусного ААО было выбрано то, которое приводит к наименьшему числу разорванных или образованных связей. Для того, чтобы оценить качество созданного ААО на рис. 4 приведен график, отражающий процент реакций, в которых число разрывающихся и образованных связей (химическая дистанция) находится в заданном диапазоне. Поскольку механизм реакций, в основном, подчиняются принципу НХД, то чем точнее ААО, тем более этот график сдвинут влево и вверх (то есть больше площадь под кривой). На основании графика видно, что для данного набора программа ChemAxon JChem работает несколько менее точно, нежели GGA Indigo. Лучшие результаты показывает НХД-консенсус. атомный химический конденсированный граф
Количественно эти результаты можно охарактеризовать с использованием площади под кривой, которая для ChemAxon JChem равна 0.9167, для программы GGA Indigo-0.9238 и для НХД-консенсуса - 0.9257. Консенсусный подход улучшил описание для 404 ААО, найденных с использованием программы ChemAxon JChem, и для 81 ААО, созданного с использованием программы Indigo.
Рис. 4. График процента реакций, для которых химическая дистанция меньше заданной величины.
Для удобства приведена часть графика до химической дистанции 60. Максимальное значение химической дистанции для заданного набора - 132.
Заключение
Таким образом, предложенная методология к созданию консенсусного ААО показала свою применимость как на стехиометрически уравновешенных реакциях с известным механизмом, так и для набора реакций из реальной базы данных ChemSpider Reactions. Предложенный параллельный подход универсален, не требует знания механизма реакции, и с использованием концепции КГР может быть применен для несбалансированных реакций. Валидность этого метода ограничивается только применимостью принципа НХД. Однако реакций, для которых этот принцип не выполняется, относительно мало. Учитывая, что ААО в базах данных выполняется только один раз, предложенный подход может быть успешно использован для существующих реакционных баз данных. Метод дает тем меньше ошибок, чем большее количество разнообразных алгоритмов используется для консенсуса.
1. Было показано, что возможно улучшение атом-атомного отображения в химической реакции за счет использования консенсуса нескольких алгоритмов. Было показано, что, в основном, ошибки атом-атомного отображения, допущенные различными алгоритмами мало пересекаются.
2. Был предложен последовательный подход к улучшению атом-атомного отображения, который позволяет улучшить качество отображения за счет определения ошибок в созда-нии ААО одной программы и передачи реакций с ошибочным отображением на другую программу. Был предложен способ, позволяющий определять ошибки атом-атомного отображения для реакций известного типа на основании сопоставления числа разорванных и образованных связей для данной реакции и эталонного значения для данного механизма. Данный метод наименее времязатратен, однако, может быть применен только в базах данных, в которых тип реакций известен.
3. Для баз данных, содержащих реакции различного типа, был предложен другой консен-сусный подход, основанный на принципе наименьшей химической дистанции. Суть метода заключается в параллельном создании атом-атомного отображения несколькими програм-мами. В дальнейшем из них выбирается такое отображение, которое сопровождается минимальным числом разорвавшихся и образовавшихся связей. Данный подход был апро-бирован на тестовом наборе, содержащем реакции известного типа, и на наборе несбалан-сированных реакций неизвестного типа из базы данных ChemSpider Reactions. В обоих случаях подход показал улучшение качества получаемых атом-атомных отображений.
Литература
[1] W.L. Chen, D.Z. Chen, K.T. Taylor. Automatic reaction mapping and reaction center detection. Wiley Interdiscip. Rev. Comput. Mol. Sci. 2013. Vol.3. No.6. P.560-593.
[2] A. Varnek, D. Fourches, F. Hoonakker, V.P. Solov'ev, V.P. Solov'ev. Substructural fragments: an universal language to encode reactions, molecular and supramolecular structures. J. Comput. Aided. Mol. Des. 2005. Vol.19. No.9-10. P.693-703.
[3] J.W. Raymond, P. Willett. Maximum common subgraph isomorphism algorithms for the matching of chemical structures. J. Comput. Mol. Des. 2002. Vol.16. No.7. P.521-533.
[4] M.F. Lynch, P. Willett. The Automatic Detection of Chemical Reaction Sites. J. Chem. Inf. Model. 1978. Vol.18. No.3. P.154-159.
[5] H.-C. Ehrlich, Rarey M. Maximum common subgraph isomorphism algorithms and their applications in molecular science: a review. Wiley Interdiscip. Rev. Comput. Mol. Sci. 2011. Vol.1. No.1. P.68-79.
[6] C. Jochum, J. Gasteiger, I. Ugi. The principle of minimum chemical distance (PMCD). Angew. Chemie. 1980. Vol.1. No.7. P.495-505.
[7] M. Heinonen, S. Lappalainen, T. Mielikдinen, J. Rousu. Computing atom mappings for biochemical reactions without subgraph isomorphism. J. Comput. Biol. 2011. Vol.18. No.1. P.43-58.
[8] M. Mann, F. Nahar, N. Schnorr, R. Backofen, P.F. Stadler, C. Flamm. Atom mapping with constraint programming. Algorithms Mol. Biol. 2014. Vol.9. No.23. P.1-12.
[9] E. Fontain. The problem of atom-to-atom mapping. An application of genetic algorithms. Anal. Chim. Acta. 1992. Vol.265. P.227-232.
Аннотация
В работе была предложена методология для автоматического установлению атом-атомного отображения (ААО) в химических реакциях с использованием консенсуса нескольких алгоритмов. Центральным элементом предложенной методологии является принцип наименьшей химической дистанции.
Оригинальная формулировка принципа была расширена на случай стехиометрически не-уравновешенных реакций с помощью использования концепции Конденсированных графов реакции. В рамках использованной методологии было предложено два подхода к уточнению ААО: последова-тельный, который может использоваться для наборов реакций известного типа, и параллельный, при-годный для наборов реакций с неизвестным механизмом. Показано, что каждый из подходов позволяет уточнить ААО. Параллельный подход использовался для установления ААО для реакций из базы данных ChemSpider Reactions и проанализировано качество полученного отображения.
Ключевые слова: атом-атомное отображение, химические реакции, принцип наименьшей химической дистанции, базы данных, хемоинформатика.
In this paper, new methodology of atom-to-atom mapping (AAM) in chemical reactions based on consensus of different algorithms was proposed. Principle of minimal chemical distance is the cornerstone of the methodology.
Original formulation of the principle was made applicable to stoichiometrically unbalanced reactions using conception of Condensed Graph of Reaction. In the framework of proposed methodology two approaches for AAM refinement was proposed: sequential approach that could be used for reaction of known type, and parallel approach, applicable to reaction datasets of unknown mechanism. It was shown that both approaches reduce the number of errors in AAM. Parallel approach was used to find AAM in ChemSpider Reactions dataset and quality of the mapping was verified.