Статья: Компьютерная система анализа режимов молекулярной эволюции генов и белков: анализ эволюции циклинов B

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

Компьютерная система анализа режимов молекулярной эволюции генов и белков: анализ эволюции циклинов B

К.В. Гунбин

Создана интернет-доступная компьютерная система анализа режимов молекулярной эволюции генов и белков (http://pixie.bionet.nsc.ru/samem/). Анализ режимов эволюции производится на основе расчета отношения частот фиксации радикальных аминокислотных замен к консервативным, на основе впервые предложенного нами метода анализа скоростей различных типов замен аминокислот в эволюции белков и на основе статистического соотнесения изменения свойств аминокислот с фенотипическими признаками организмов. С помощью созданной системы проведено исследование режимов молекулярной эволюции циклинов В. Показано качественное отличие картин фиксации атипичных аминокислотных замен в эволюции циклинов В животных и грибов. Также показано, что у животных эволюция циклинов B3, в отличие от циклинов B1 и B2, была связана с усложнением организма.

Ключевые слова: молекулярная эволюция; консервативные и радикальные аминокислотные замены; система «клиент-сервер»; статистический анализ; циклины B.

В последнее время появилось огромное количество данных о существовании универсальной связи между уровнем экспрессии гена и скоростью его эволюции [1-3]. В 2008 г. впервые было показано, что эта связь обусловлена отбором против неправильного сворачивания белков вследствие ошибок трансляции [2]. Также показано [2], что этот отбор может проявляться в: 1) уменьшении числа ошибок трансляции, 2) уменьшении вероятности неправильного сворачивания белка при ошибочной трансляции, 3) уменьшении вероятности неправильного сворачивания и денатурации белка. Очевидно, что давление отбора в результате ответа на процессы (2) и (3) связаны с аминокислотными заменами, по-разному влияющими на структуру белка. Структура белка, его функция и сворачивание определяются комбинацией свойств аминокислот. Проанализировано более 500 свойств аминокислот [4], что позволяет проводить систематические исследования эволюции белок-кодирующих генов. Подходами, направленными на решение этой задачи, являются анализ отношения частот фиксации радикальных аминокислотных замен к консервативным (KR/KC) [5, 6] и исследование скоростей изменения физико-химических свойств белков (VPC) в их эволюции [7]. Однако эти подходы обладают существенным недостатком - необходимо знать заранее «адаптивность изменения» определенного свойства аминокислот. Предложенный нами подход базируется на анализе KR/KC и VPC, но имеет два отличия: 1) при анализе используются все известные свойства аминокислот; 2) проводится статистическое соотнесение изменения этих свойств с фенотипическими признаками организмов, что позволяет напрямую связать молекулярную эволюцию с приспособительной эволюцией организмов. На этой основе нами была создана компьютерная система для анализа режимов молекулярной эволюции генов и белков (http://pixie.bionet.nsc.ru/samem/).

В настоящей работе эта система использована для анализа эволюции циклинов B. Известно, что циклины B составляют древнее по происхождению семейство белков, контролирующих центральную часть клеточного цикла - вход в митоз [8, 9]. Важно отметить, что только эти циклины экспрессируются во всех тканях организма животных [8, 9]. В то же время детальный анализ режимов молекулярной эволюции циклинов В до сих пор не проведен. Поэтому с целью тестирования возможностей созданной компьютерной системы был проведен анализ эволюции циклинов B.

Описание компьютерной системы

Система состоит из двух основных конвейеров, анализа эволюции генов и анализа эволюции белков, и двух дополнительных, собирающих выборки генов и белков и производящих их первичный анализ, построение матриц BLOSUM. Основные конвейеры позволяют провести основные этапы обработки данных, комбинируя различные методы множественного выравнивания, построения филогенетического дерева и реконструкции предковых последовательностей. Множественное выравнивание рассчитывается программами MAFFT 6.717 и KALIGN 2.04; филограмма (филогенетическое дерево с неравными длинами ветвей от корня, отражающими скорости замен) - программами FASTTREE 2.1.1 и PHYML 3.0; филограмма преобразуется в хронограмму (филогенетическое дерево, построенное на основе гипотезы релаксированных молекулярных часов) программой R8S 1.71. При преобразовании филограммы в хронограмму используются датировки дивергенций, задаваемые пользователем. Предковые последовательности белков реконструируются на основе выравниваний, не содержащих делеции, с помощью программ ANCESCON, FASTML (серверная версия) и CODEML (из пакета PAML 4.4); генов - ANC-GENE, FASTML (серверная версия) и CODEML (из пакета PAML 4.4). Пользователь может рассчитать модель эволюции заданного семейства белков, используя MODELESTIMATOR 1.1, или воспользоваться обобщенными моделями. Для анализа используются данные о 531 свойстве аминокислот [4].

Общий модуль оценки взаимосвязи эволюции свойств аминокислот и фенотипических признаков реализован на языке R (пакет Ape) и реализует 3 группы статистических методов анализа данных [10] (GEE - Generalized Estimating Equations, Lynch, или метод Variance Partitioning, и GLS - Generalized Least Squares), принимающих во внимание филогенетическую инерцию (наведенную хронограммой корреляцию [10]). Все использованные программы снабжены гиперссылками на соответствующий литературный источник, что позволяет пользователю своевременно знакомиться с методологической базой каждой используемой им программы. Для облегчения работы пользователя для каждого вычислительного этапа компьютерной системы имеются образцы вводимых данных.

Существенной особенностью конвейера анализа генов является возможность исследования разными методами оценки KR/KC. Пользователь может воспользоваться как методами Жанга (программа HON-NEW) [5] и Смита [6], так и улучшенным нами методом Смита. При анализе данных методами Жанга и Смита пользователь может задать число групп для разделения 20 аминокислот. Для каждого из 531 свойств аминокислоты группируются методом K-средних (используя R). В улучшенном нами методе Смита [6] для разбиения аминокислотных замен на консервативные и радикальные используется информация из матрицы BLOSUM, строящейся для каждого анализируемого семейства белков. Все неотрицательные (?0) значения в матрице BLOSUM трактуются нами как консервативные, все отрицательные - как радикальные.

Таким образом, в отличие от ранее предложенных подходов [5, 6], в которых радикальность и консервативность аминокислотных замен задается исходя из группировки аминокислот по заранее заданным физико-химическим свойствам, нами используется более естественное разбиение аминокислотных замен, учитывающее структурную и функциональную природу исследуемых белков. Важно отметить, что на отношение KR/KC существенно влияют композиционные характеристики исследуемых генов, такие как частоты использования кодонов и отношение транзиций к трансверсиям [6]. Для сравнения наблюдаемых значений KR/KC со значениями KR/KC, свойственными эволюции генов при KA/KS=1, с помощью пакета INDELible 1.03 пользователем может быть проведено Марковское моделирование эволюции генов, учитывающее естественные частоты использования кодонов и естественное отношение транзиций к трансверсиям. Следует отметить, что в конвейере анализа эволюции генов также реализована возможность суммирования всех рассчитываемых величин (KR/KC, KC и KR).

При анализе последовательностей белков существенной особенностью является впервые предложенный нами метод анализа скоростей фиксации различных типов аминокислотных замен. Он основан на Марковском моделировании эволюции белков пакетом INDELible 1.03 и непараметрическом перестановочном тесте, предложенном нами в работе [11]. INDELible 1.03 позволяет учесть детальные особенности эволюции белков (различие частот встречаемости аминокислот и частот их замен у паралогичных групп внутри одного семейства белков вплоть до учета особенностей эволюции на отдельных ветвях дерева). Тест с перестановками [11] позволяет выявить для каждой ветви филогенетического дерева характерные типы аминокислотных замен (атипичные замены), частота которых статистически значимо превышает частоту в смоделированных последовательностях.

Метод состоит из трех этапов анализа. На первом этапе на каждой ветви дерева подсчитывается наблюдаемое количество (nreal(Type)) всех 190 типов аминокислотных замен. Для внутренних ветвей это делается путем парного сравнения последовательности-предка и последовательности-потомка, реконструированных программами CODEML, FASTML или ANCESCON. Для конечных ветвей наблюдаемые числа всех типов аминокислотных замен (nreal(Type)) подсчитываются путем парного сравнения последовательности реконструированного предка и последовательности-потомка из современного организма. На втором этапе на каждой ветви дерева подсчитываются ожидаемые количества всех типов замен на основе заданного пользователем количества компьютерных симуляций молекулярной эволюции белков. Для этого анализируются более 1 000 модельных выравниваний, генерируемых программой INDELible 1.03 на основе заданных пользователем особенностей эволюции белков. На третьем этапе для каждой ветви дерева с помощью перестановочного теста идет сравнение числа ожидаемых и наблюдаемых замен каждого из 190 типов. Множество наблюдаемых замен при достаточном числе симуляций всегда входит во множество ожидаемых замен.

Следовательно, путем случайной перестановки числа наблюдаемых замен внутри модельного набора замен можно сгенерировать заданное пользователем число (> 1 000) случайных выборок замен N, равных по объему выборкам наблюдаемых замен. Для каждой такой случайной выборки в тесте оценивается число nrand(Type) аминокислотных замен определенного типа. Далее подсчитывается число случайных выборок M, в которых nrand(Type)>nreal(Type). Величина M/N оценивает вероятность p, с которой встречаемость аминокислотных замен определенного типа, наблюдаемая в исходной выборке генов, могла возникнуть по случайным причинам. Следует отметить, что в конвейере анализа эволюции белков также реализована возможность суммарного анализа эволюционных изменений физико-химических свойств аминокислот. Для этого реализованы коррекции эволюционных расстояний Кимуры, Джукса - Кантора и Гамма-коррекция.

Техническая основа компьютерной системы

Компьютерная система анализа режимов молекулярной эволюции генов и белков создана на основе клиент-серверной конвейерной системы обработки данных BioinfoWF. Серверная часть системы реализована в виде приложения на языке Perl и отвечает за запуск и выполнение конвейера. На вход приложению подаются схема конвейера и описание вычислительных модулей. Схема конвейера, форматы данных и взаимодействие вычислительных модулей в ней описываются на языке XML. Описание конвейера состоит из двух файлов. Первый описывает вычислительные модули, второй задает топологию конвейера. Описание модулей состоит из следующих разделов: 1) входные файлы; 2) выходные файлы; 3) параметры и опции (идентификатор, описание, тип параметра, значение по умолчанию, внешний вид поля запроса значения для параметра на странице web-браузера); 4) правила генерации командной строки, 5) правила действия пользовательского интерфейса, позволяющие динамически изменять web-интерфейс модуля в процессе редактирования конвейера. Второй файл задает топологию конвейера. В нем описываются имена входных /выходных файлов для каждого модуля и значения для каждого параметра или опции. Приложение запускает конвейер, создавая файл с отчетом о статусе выполнения каждого узла в формате XML. Серверная часть поддерживает параллельный запуск узлов конвейера и позволяет производить удаленный запуск ресурсоемких расчетных модулей на вычислительном кластере. Режим запуска узла (локальный или удалённый) задается в схеме конвейера.

Клиентская часть реализована в виде web-приложения. Пользователю предлагается работать с уже готовыми схемами. При этом доступны базовые опции управления конвейером: 1) установка входных файлов, параметров и опций для каждого вычислительного модуля в конвейере; 2) старт с произвольного узла и остановка на произвольном узле в конвейере; 3) отслеживание статуса выполнения каждого вычислительного модуля в конвейере; 4) просмотр входных/выходных файлов для каждого этапа расчета в конвейере; 5) привязка форматов входных/выходных файлов к различным приложениям для их визуализации. Генерация страниц в формате HTML реализована на Perl с использованием библиотеки HTML::Template. Дополнительно используется JavaScript библиотека jQuery.

Материалы для тестирования компьютерной системы

В работе использовались 98 белковых последовательностей циклинов B из полностью секвенированных геномов животных, грибов и простейших, представленных в базе данных KEGG 52.0 [12]. Циклины - эволюционно консервативная группа белков, поэтому дерево, построенное по молекулярным данным об их последовательностях, содержало полифуркации, что не всегда позволяло достоверно установить порядок дивергенции некоторых таксонов. В этом случае порядок дивергенции разрешался вручную на основе анализа литературных данных и интернет-ресурса Tree of Life [13]. Для определения порядка дивергенции одноклеточных предков многоклеточных животных и грибов использовались полногеномные данные, полученные в работах [14-17]. Филогенетические отношения внутри таксона грибов разрешались также на основе полногеномных данных, полученных из работ [18, 19]. Для установления топологии дерева на уровне расхождения нематод, артропод и вторичноротых использовались данные, свидетельствующие в пользу существования группы Ecdysozoa [20-27]. Для разрешения дерева на уровне расхождения иглокожих, головохордовых, хордовых и оболочников использовались данные работ [22, 28-30]. Порядок расхождения организмов внутри класса млекопитающих верифицировался по данным работ [31-35], внутри группы артропод - по данным работы [36]. Порядок дивергенции паралогов циклинов грибов, группы организмов, наиболее подверженной эффектам гетеротахии в эволюции [37], согласовывался с данными работы [38].

В настоящее время оценки числа клеточных типов, являющиеся устоявшейся мерой сложности эукариот, известны не для всех организмов, геномные данные которых были взяты нами для анализа. Однако ранее Вогелем и Чотией был проведено исследование взаимосвязи между дупликациями генов различных суперсемейств из базы данных Superfamily 1.69 с количеством клеточных типов для 38 видов эукариотических организмов [39]. Было выявлено 65 суперсемейств, из 1 221 у которых число генов семейства в геноме значимо (при r ? 0,9) коррелирует с числом клеточных типов организма (SCOP ID: 48726, 69179, 56854, 47986, 100895, 82671, 57440, 50353, 57196, 57535, 57552, 47090, 57581, 63763, 57501, 57667, 54511, 57256, 63748, 63501, 47769, 48092, 57610, 57302, 69687, 111418, 55550, 47031, 101494, 49842, 50923, 50370, 82708, 110035, 49299, 109775, 48670, 50044, 57586, 47686, 49265, 69318, 82895, 47391, 46966, 47655, 50729, 82615, 47719, 103359, 103637, 54919, 51045, 81783, 48305, 47454, 81419, 57190, 48097, 50242, 50814, 48619, 103575, 90188, 57603). Мы предположили, что выявленные зависимости можно использовать и для оценки числа клеточных типов организмов, не представленных в выборке Вогеля и Чотия. Поэтому в качестве параметра, характеризующего сложность организма, мы использовали десятичный логарифм суммы числа белков в этих суперсемействах (по данным базы Superfamily 1.73 [40]). Чем больше значение этого параметра, тем выше сложность исследуемого организма.