Последовательность остатков, полученных сопоставлений и вставок, и представляет собой искомую (генерируемую) последовательность.
После выполнения соответствующего действия (m, d или i), переход
вследующий узел графа определяется уже новым набором вероятностей.
Вкаждой возможной последовательности положений каждая колонка построенного выравнивания должна быть либо сопоставлением, либо делецией – не существует способа пересечь граф без прохода или через (m)-узел, или через (d)-узел, и так для каждой позиции в последовательности.
Динамика описанной системы такова, что только текущая позиция определяет какая из возможных стрелок будет выбрана для следующего перехода, иначе говоря, система не "помнит" своей истории. А это как раз и характерно для марковских процессов.
Отметим, что следует отличать последовательность позиций (или этапов) в работе программы от последовательности аминокислот, которая генерируется в результате работы алгоритма.
Может оказаться, что разные пути через систему могут порождать одинаковые последовательности.
Витоге мы получаем результат работы алгоритма, а все "подробности" прохождения графа внутри системы и выбора конкретного "маршрута" между "Старт" и "Стоп" остаются скрытыми (hidden). Отсюда и название – скрытая марковская модель (Hidden Markov Model).
Специфичность работы алгоритма для данного набора
последовательностей задаётся как раз теми наборами вероятностей (выбора остатка и выбора перехода), которые задаются для каждой позиции индивидуально.
Программы, в которых реализованы НММ для анализа биологических последовательностей могут делать следующее.
1.Обучение. Имея набор не выровненных гомологичных последовательностей, можно (1) выровнять их и (2) подобрать такие вероятности переходов и выбора остатков, чтобы определить НММ, описывающую заданный набор последовательностей.
90
2.Поиск дальних гомологов. Имея НММ и исследуемую последовательность, можно рассчитать вероятность того, что НММ могла бы сгенерировать эту последовательность. Если НММ, разработанная для известного семейства последовательностей, может это сделать с достаточно большой вероятностью, то это свидетельствует в пользу того, что исследуемая последовательность также принадлежит к этому семейству.
3.Выравнивание дополнительных последовательностей. Вероят-
ность прохождения любого маршрута в данной НММ, т. е. вероятность получения именно данного набора состояний, может быть рассчитана из индивидуальных вероятностей переходов "состояние-за-состоянием" (state-by-state). Нахождение наиболее вероятной последовательности состояний, которые использовала бы НММ для создания одной или нескольких тестовых последовательностей, демонстрирует их оптимальное выравнивание с данным семейством последовательностей.
КОНТРОЛЬНЫЕ ВОПРОСЫ
1.Что называется множественным выравниванием?
2.Какой вид аннотации множественного выравнивания использует программа ClustalW?
3.Что такое профиль выравнивания?
4.В чём преимущество программы PSI-BLAST по сравнению с профилями выравниваний?
5.Какой процесс называют Марковским?
6.В чём преимущество метода скрытых марковских моделей?
7.Какие два выбора с использованием позиционно-специфи- ческих таблиц вероятностей делаются в каждом состоянии системы в рамках скрытой марковской модели?
8.Какие три типа задач могут решать программы, в которых реализованы скрытые марковские модели?
91
5. ФИЛОГЕНЕТИЧЕСКИЙ АНАЛИЗ
5.1. ГОМОЛОГИЯ
Термин "гомология" буквально означает происхождение от общего предка. Обычно потомки некоторого общего предка показывают подобие по нескольким признакам. Такие признаки называют гомологичными.
Долгое время термины "гомология" и "подобие" употребляли как взаимозаменимые синонимы – даже несмотря на то, что они формально отличны.
Подобие является мерой сходства или различия и не зависит от источника сходства. Подобие может наблюдаться среди данных, которые можно собрать в настоящее время, и не подразумевает никакой исторической гипотезы.
Напротив, утверждения о гомологии основаны исключительно на умозрительных выводах об исторических событиях, которые практически не поддаются наблюдению. Мера подобия может быть выражена количественно, а гомология – прежде всего качественный показатель.
Гомологичными белками называют белки, чьё происхождение от общего предка доказано. Если же свертки белков подобны, но первичные последовательности отличны, то такие свертки считают аналогичными.
Рассмотрим, например, белковое семейство тубулинов – белков, из которых формируются микротрубочки цитоскелета. Согласно упрощенной схеме (рисунок 25) исходно эукариотические клетки имели только один тубулиновый ген, дупликация которого произошла на ранних стадиях эволюции.
Последующая дивергенция различных копий исходного гена тубулина сформировала гены-предки нынешних генов α- и β-тубулина. По мере того, как различные виды дивергировали от этих эукариотических клеток-предков, каждая из этих генных последовательностей также дивергировала, породив, тем самым, слегка отличающиеся формы α- и β-тубулинов, которые сейчас можно найти в каждом организме.
92
Рисунок 25 – Образование различных тубулиновых генов в ходе эволюции эукариот
Сравнительный анализ последовательностей нуклеотидов в ДНК и аминокислот в белках потребовал развития традиционного понятия гомологии. При анализе последовательностей принято различать
ортологию и паралогию (и, соответственно, ортологи и паралоги).
Гомологичные последовательности называют ортологичными, если
ких разделению привел акт видообразования: если ген существует у некоего вида, который дивергирует с образованием двух видов, то копии этого гена у дочерних видов называются ортологами.
Гомологичные последовательности называют паралогичными, если
ких разделению привело удвоение (дупликация) гена: если в пределах одного организма в результате хромосомной мутации произошла дупликация гена, то его копии называют паралогами.
Ортологи обычно выполняют идентичные или сходные функции. Это не всегда справедливо в отношении паралогов. Ввиду отсутствия давления отбора на одну из копий гена, подвергшегося удвоению, эта копия получает возможность беспрепятственно мутировать далее, что может привести к возникновению новых функций.
93
В случае тубулина паралогичными являются генные последовательности α- и β-тубулинов, которые дивергировали в результате дупликации генов.
А ортологичными в случае тубулина являются те генные последовательности, которые возникли в результате видообразования – гены α-тубулина у различных видов, или гены β-тубулина у различных видов.
Оценивая степень подобия тубулинов, имеющихся в настоящее время в различных организмах, можно определить их эволюционное
родство (рисунок 26). На рисунке представлена филогенетическая схема
(phylogenetic tree) или кладограмма (cladogram) представляющая взаимоотношения и родство между генными последовательностями тубулина.
Рисунок 26 – Филогенетическая схема (кладограмма), показывающая родство между тубулиновыми генными последовательностями
Филогенетической схемой называется схема предполагаемых генеалогических (эволюционных) связей особей, популяций или таксонов различного уровня в разрезе исторического времени; точки "ветвлений"
94
на схеме соответствуют гипотетическим моментам образования новых форм (дивергенции).
Из трёх типов генетического родства: гомологии, ортологии и паралогии – ортологические последовательности наиболее вероятно кодируют одни и те же функции у белков.
При расшифровке и анализе биологических последовательностей результаты необходимо сверять со всеми возможными источниками биологической информации. Аналитический процесс осложнен тем фактом, что иногда подобие последовательностей ограничено только некоторой частью выравнивания, как, например, при изучении модульных белков.
Модули можно представить как подмножества белковых доменов; это самостоятельные единицы свертки, примыкающие друг к другу и часто служащие структурными элементами для сборки белковой молекулы. Будучи составными элементами общей конфигурации, они могут быть использованы для передачи богатой палитры различных функций родительского белка – как путём многократных комбинаций какого-либо одного модуля, так и посредством комбинации различных модулей с образованием конфигурационных мозаик.
Генетической причиной распространённости модулей в большей мере являются процессы перегруппировки генов, а не только процессы дублирования и слияния генов.
5.2. ФИЛОГЕНИЯ
Обычно живые организмы классифицируют на группы по наблюдаемым подобиям и различиям. Если два организма очень близко связаны друг с другом, то, как правило, считают, что они имеют общего предка.
Филогения – это описание биологических отношений, обычно изображаемое в виде дерева. Отмеченные подобия и различия между организмами используют для восстановления филогении.
Науку об эволюционных отношениях (связях) организмов называют
филогенетикой.
95
Филогенетический анализ представляет собой не что иное, как способ оценки эволюционных отношений. Эволюционную историю, восстановленную в результате филогенетического анализа, обычно изображают в виде разветвлённых, древовидных диаграмм, которые представляют предполагаемую родословную наследственных отношений между молекулами, организмами или и тем, и другим.
Утверждение о филогении среди различных организмов предполагает их гомологию и зависит от классификации. Филогения устанавливает топологию отношений (схему родословной), выведенных либо на основании классификации по подобию одного или нескольких наборов признаков, либо на основании модели эволюционных процессов. Во многих случаях филогенетические отношения, основанные на различных признаках, вполне достоверны и даже подтверждают друг друга.
На фоне традиционной таксономии в настоящее время наиболее достоверными являются молекулярные подходы к определению филогении.
По сравнению с традиционными деревьями, построенными по морфологическим признакам, молекулярные филогении намного информативнее, потому что они шире в охвате (например, цветковые растения с млекопитающими можно сравнивать по последовательностям белка, но никак не по морфологическим признакам); кроме того, результаты анализа информации такого типа непротиворечивы и объективны.
Так, например, на основе анализа последовательностей 16S и 18S рибосомных РНК, Карл Вёзе (Carl Richard Woese) восстановил общую классификацию живых организмов (рисунок 27).
Рибосомная РНК (рРНК) является чрезвычайно консервативной и притом универсальной молекулой, которая присутствует в клетках всех живых организмов (животных, растений, грибов, бактерий, паразитов и т. д.). Она имеет низкую устойчивость к мутациям и эволюционирует очень медленно. Развитая вторичная структура рРНК гарантирует, что скорость эволюционного изменения будет медленна, поскольку двойные
96
спиральные области требуют взаимно компенсирующих замен оснований (вероятность которых ничтожно мала).
Рисунок 27 – Схема классификации живых организмов
Представленное на рисунке 27 дерево совместимо с выравниванием и групповым анализом этих молекул, а сделанные из его оценки выводы не противоречат таковым, полученным по результатам других исследований макромолекул.
Целями филогенетических исследований является выявление взаимосвязей между видами, популяциями, индивидами или генами. Под взаимосвязями подразумевается родство или генеалогия, т. е. схема (модель) распределения потомков от общего предка. Результаты обычно представлены в виде генеалогического древа.
Дерево, показывающее всех потомков от одного предка, называется
укоренённым.
5.3. ФЕНЕТИКА
Филогенетический анализ семейства родственных последовательностей нуклеиновых кислот или белков заключается в установлении возможных путей развития семейства в ходе эволюции.
В настоящее время в филогенетическом анализе именно последовательности ДНК предоставляют наилучшую меру сходства между
97
видами. ДНК-данные представлены в цифровом виде. Используя либо третью ("воббл") позицию в кодоне, либо нетранслируемые участки (такие, как псевдогены), либо отношение синонимичных замен кодонов к несинонимичным, возможно даже отличить селективные генетические изменения от неселективных.
Для сопоставления необходимо найти гены, которые разошлись на
подходящее расстояние.
Гены, которые остаются почти неизменными среди интересующих нас видов, не дают никакого различия в степени сходства.
Гены, которые разошлись слишком сильно, не могут быть выровнены.
К счастью, гены сильно различаются по степени изменчивости. Митохондриальный геном млекопитающих (циклическая двухцепочечная молекула ДНК длиной примерно 16 000 пн) предоставляет набор быстро изменяющихся последовательностей, полезный для изучения эволюции близкородственных видов. Напротив, консервативные последовательности рибосомальных РНК были использованы К. Вёзе (С. Woese), чтобы идентифицировать три большие таксономические империи: Археобактерии, Бактерии и Эукариоты (рисунок 27).
Необходимо учитывать, что разные степени изменений у последовательностей разных генов могут привести к различным и даже противоречивым результатам в филогенетических исследованиях. Это особенно верно, если целью является не просто восстановить топологическую схему родства, а установить длину ветвей дерева.
Кроме того, горизонтальный перенос генов и конвергентная эволюция представляют собой конкурирующие явления, которые затрудняют вывод относительно филогенетических отношений.
При анализе последовательностей нуклеиновых кислот и белков, наиболее тесно связанные последовательности могут быть определены по их положению на соседних ветвях дерева. Если в организме или группе организмов удается обнаружить семейство генов, то филогенетические отношения среди генов такого семейства могут помочь предсказать, которые из них могли бы иметь эквивалентные функции.
98
Если последовательности молекул двух нуклеиновых кислот или белков, найденных в двух различных организмах, являются подобными, то это значит, что они, вероятно, произошли от общей предковой последовательности. Выравнивание последовательностей показывает, какие позиции в этих последовательностях сохранились неизменными, а какие отошли от общей последовательности-предка. При абсолютной уверенности в том, что эти две последовательности состоят в эволюционном родстве, их можно считать гомологичными.
Эволюционное дерево – это двумерный граф, отражающий эволюционные отношения как самих организмов, так и их генов. Отдельные последовательности рассматриваются как таксоны, то есть филогенетически обособленные единицы – ветви дерева. Важно осознать, что каждый узел дерева представляет разветвление эволюционного пути (гена) организма на два разных вида, которые изолированы друг от друга в плане воспроизводства.
При построении дерева эволюционных отношений последовательности изображают в виде наружных ветвей. Тогда разветвленные связи в кроне дерева отражают силу отношений между различными последовательностями.
Цель филогенетического анализа состоит в том, чтобы обнаружить все ветвящиеся связи в дереве и определить длины его ветвей.
В филогенетических деревьях длины рёбер графа обозначают либо какую-то меру различия между двумя видами, либо длину времени, прошедшего с их разделения. Предположение о том, что различия между живущими видами отражает время их дивергенции (расхождения), верно только в том случае, если степени дивергенции одинаковы для всех ветвей дерева.
Вообще, существуют два подхода к построению филогенетического дерева.
Первый подход, фенетический (групповой или кластерный), не имеет никакого отношения к исторической модели родства между видами. В этом случае начинают с измерения расстояний между видами и строят дерево с помощью процедуры иерархический кластеризации.
99