Материал: Огурцов А. Н. Методы бииоинформационного анализа

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

Каждая из нитей HRE содержит 6-ти нуклеотидную последовательность AGAACA, которая называется core recognition motif. Поскольку HRE содержит два таких мотива, то к HRE присоединяются два рецептора.

Две 6-ти нуклеотидные последовательности разделены тремя парами оснований (обозначены NNN на рисунке 4), которые нужны для того, чтобы обеспечить достаточно пространства для того, чтобы гомодимер рецепторов мог связаться с HRE. Эти три пары оснований могут быть любыми, поскольку они не влияют на прочность связывания с рецепторным комплексом.

На рисунке 5 показан характерный вид точечной матрицы палин-

дрома АРОЗАУПАЛАНАЛАПУАЗОРА.

А Р О З А У П А Л А Н А Л А П У А З О Р А

А

А

 

 

 

А

 

 

А

 

А

 

А

 

 

 

 

А

 

 

 

А

Р

 

Р

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Р

 

О

 

 

О

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

О

 

 

З

 

 

 

З

 

 

 

 

 

 

 

 

 

 

 

 

 

З

 

 

 

А

А

 

 

 

А

 

 

А

 

А

 

А

 

А

 

 

А

 

 

 

А

У

 

 

 

 

 

У

 

 

 

 

 

 

 

 

 

У

 

 

 

 

 

П

 

 

 

 

 

 

П

 

 

 

 

 

 

 

П

 

 

 

 

 

 

А

А

 

 

 

А

 

 

А

 

А

 

А

 

А

 

 

А

 

 

 

А

Л

 

 

 

 

 

 

 

 

Л

 

 

 

Л

 

 

 

 

 

 

 

 

А

А

 

 

 

А

 

 

А

 

А

 

А

 

А

 

 

А

 

 

 

А

Н

 

 

 

 

 

 

 

 

 

 

Н

 

 

 

 

 

 

 

 

 

 

А

А

 

 

 

А

 

 

А

 

А

 

А

 

А

 

 

А

 

 

 

А

Л

 

 

 

 

 

 

 

 

Л

 

 

 

Л

 

 

 

 

 

 

 

 

А

А

 

 

 

А

 

 

А

 

А

 

А

 

А

 

 

А

 

 

 

А

П

 

 

 

 

 

 

П

 

 

 

 

 

 

 

П

 

 

 

 

 

 

У

 

 

 

 

 

У

 

 

 

 

 

 

 

 

 

У

 

 

 

 

 

А

А

 

 

 

А

 

 

А

 

А

 

А

 

А

 

 

А

 

 

 

А

З

 

 

 

З

 

 

 

 

 

 

 

 

 

 

 

 

 

З

 

 

 

О

 

 

О

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

О

 

 

Р

 

Р

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Р

 

А

А

 

 

 

А

 

 

А

 

А

 

А

 

А

 

 

А

 

 

 

А

Рисунок 5 – Точечная матрица совпадений дляпалиндромной последовательности

10

Длинные участки ДНК или РНК, содержащие инвертированные повторы такого типа, могут формировать шпилечные структуры. Кроме того, некоторые подвижные элементы, выделенные из растений, содержат настоящие (неточные) палиндромные последовательности – инвертированные повторы некомплементарных последовательностей, расположенных на той же цепи. Ещё один пример палиндрома – фрагмент генома вируса Wheat Dwarf Virus, вызывающего остановку роста пшеницы: ttttcgtgagtgcggaggctttt.

Точечная матрица позволяет быстро проиллюстрировать родство между двумя последовательностями. Яркие признаки сходства четко проявляются. Например, точечная матрица, отображающая родство между генами митохондриальной АТФазы миноги Petromyzon marinis

(lamprey) и морской собаки Scyliorbinus canicula (dogfish), показывает, что сходство между этими последовательностями менее всего выражено вначале (рисунок 6).

Рисунок 6 – Точечная матрица совпадений для АТФазы-6 из миноги и морской

собаки

11

Иногда точечную матрицу строят в "традиционном" представлении,

Пример на рисунке 1 демонстрирует результат вставки строки

когда "начало координат" – точка начала последовательностей находится

АЛЕКСАНДРНИКОЛАЕВИЧ внутрь строки ПРОФЕССОРОГУРЦОВ, или,

не в левом верхнем, а в левом нижнем углу. Соответственно изменяется и

что то же самое, удаления подстроки АЛЕКСАНДРНИКОЛАЕВИЧ из строки

направление вертикальной оси (рисунок 7).

ПРОФЕССОРАЛЕКСАНДРНИКОЛАЕВИЧОГУРЦОВ. Оба действия приводят

 

к смещению диагональных совпадений от основной диагонали.

Рисунок 7 – Точечная матрица совпадений линейной хромосомы S. meliloti и кольцевой хромосомы A. tumefaciens

Рисунок 7 позволяет предположить, что у этих организмов был общий предок.

Еще один пример использования точечных матриц для сравнения нуклеотидных последовательностей в генах, кодирующих α и β субъединицы гемоглобина человека, представлен на рисунке 8. Главная диагональ рисунка демонстрирует значительное подобие последовательностей.

Часто участки сходства могут быть смещены, а это приводит к тому, что они появляются на параллельных диагоналях точечной матрицы совпадений. Такие смещения происходят в результате вставок (инсерций) или удалений (делеций).

12

Рисунок 8 – Точечная матрица совпадений генов, кодирующих α и β субъединицы гемоглобина человека

Для последовательностей нуклеотидов в генах, кодирующих α и β субъединицы гемоглобина человека, также заметны смещения диагональной линии, свидетельствующие о наличии вставок или удалений в гемоглобиновых генах.

На рисунке 9 показана точечная матрица совпадений белков РАХ-6 из мыши и eyless из плодовой мушки Drosophila melanogaster.

13

Рисунок 9 – Точечная матрица совпадений белков РАХ-6 из мыши (вертикальная ось) и eyless из плодовой мушки Drosophila melanogaster (горизонтальная ось)

На рисунке 9 явно проявляются три продолжительных участка сходства. Два из них находятся в начале последовательностей, а третий – в середине. Между двумя из трех участков в последовательности белка из мыши есть более длинный промежуточный участок, чем в последовательности белка из плодовой мушки.

14

Разделяют два типа выравнивания: глобальное и локальное. Глобальное выравнивание ищет подобие на всем протяжении

последовательностей.

Локальное выравнивание сосредоточивается лишь на отдельных областях подобия в некоторых частях последовательностей.

С точки зрения биолога поиск локального подобия может дать более значимые и точные результаты, чем оценка выравнивания по всей длине последовательностей. Это связано с тем, что функционально активные участки обычно расположены в пределах относительно коротких областей, которые остаются консервативными независимо от удалений или мутаций, происходящих в остальных частях последовательности.

Главное преимущество метода точечных матриц при поиске выравниваний последовательностей состоит в том, что он позволяет найти все возможные совпадения остатков между двумя последовательностями и предоставляет исследователю возможность выбора самых ценных из них. Затем могут быть определены последовательности хорошо выровненных областей – уже с помощью других методов выравнивания последовательностей (например, динамического программирования). Выравнивания, производимые этими программами, могут быть сопоставлены с выравниванием по точечной матрице; такое сличение покажет, совпадают ли самые длинные области и расположены ли вставки и удаления в наиболее подходящих местах.

Точность определения совпадающих областей может быть повышена за счёт отфильтровывания случайных совпадений, найденных в точечной матрице. Фильтрация выполняется с помощью скользящего окна, позволяющего сравнивать эти две последовательности одновременно.

Идентификацию выравниваний последовательностей с помощью метода точечных матриц можно проводить путём подсчёта точек на всех возможных диагоналях матрицы (чтобы определить статистически, какие диагонали дают больше всего совпадений) и последующего сравнения счётов этих совпадений с результатами произвольного сравнения последовательностей.

15

Анализ точечной матрицы – это, прежде всего, метод сравнения двух последовательностей с целью поиска возможного выравнивания элементов этих последовательностей. Кроме того, к этому методу обращаются для предсказания комплементарных участков в составе РНК, которые могут участвовать в формировании вторичной структуры РНК и при поиске прямых или обратных повторений в последовательностях белков и ДНК.

Так, например, могут быть обнаружены повторные области, распределённые по всей длине, как отдельных хромосом, так и всего набора хромосом.

Для примера, на рисунке 10 представлена точечная матрица сравне-

ния геномов Sorghum bicolor и Oryza Sativa.

Рисунок 10 – Точечная матрица совпадений геномов Sorghum bicolor и Oryza Sativa; Mb – мегабэйзы – миллионы пар оснований

Параллельно диагонали, идущей из левого верхнего угла в правый нижний, расположены прямые совпадения в одинаковых нитях ДНК

16

геномов. А параллельно диагонали, идущей из правого верхнего угла в левый нижний, расположены обратные повторения в комплементарных нитях ДНК (инверсные повторы между геномами).

Так, например, наблюдается как значительное прямое сходство между хромосомой 2 и хромосомой 4 S. bicolor, так и наличие инверсного участка. А для хромосомы 1 S. bicolor и хромосомы 3 O. sativa наблюдаются только два инверсных участка.

Таким образом, метод точечных матриц наглядно демонстрирует любые возможные выравнивания последовательностей в виде диагоналей матрицы. Анализ точечной матрицы может легко показать присутствие вставок или удалений, а также прямых и обратных повторений, которые гораздо труднее найти другими, пусть даже более автоматизированными методами.

1.3. ТОЧЕЧНЫЕ МАТРИЦЫ И ВЫРАВНИВАНИЕ ПОСЛЕДОВАТЕЛЬНОСТЕЙ

Точечная матрица не просто визуализирует сходство двух последовательностей, она вообще демонстрирует все возможные выравнивания и отображает их относительное качество.

Выравнивание не должно изменять "смысл" последовательностей, поэтому при выравнивании должна сохраняться последовательность символов в строке и не должно быть перестановок символов. Поэтому при построении выравнивания, начиная с верхнего левого угла точечной матрицы, разрешены только три типа шагов:

1)строго направо ();

2)строго вниз ();

3) по диагонали слева направо и сверху вниз ( ).

Любой путь по точечной матрице от левого верхнего угла к правому нижнему углу, построенный с помощью этих шагов, соответствует одному из возможных выравниваний.

17

Например, на рисунке 11 приведены три варианта выравнивания строк АЛЕКСАНДРНИКОЛАЕВИЧОГУРЦОВ и АЛЕКСАНДРОГУРЦОВ:

I)

АЛЕКСАНДРНИКОЛАЕВИЧОГУРЦОВ

А----

А-------

 

Л-Е----------

II)

 

 

 

АЛЕКСАНДРНИКОЛАЕВИЧОГУРЦОВ

АЛЕКСАНДР----------

 

ОГУРЦОВ

III)

 

 

 

АЛЕКСАНДРНИКОЛАЕВИЧОГУРЦОВ

АЛЕКСАНДР---

О-------

ГУРЦОВ

Рисунок 11 – Возможные варианты выравнивания

Любой путь по точечной матрице от верхнего левого угла к нижнему правому проходит последовательность ячеек, каждая из которых предсказывает пару позиций: одну из ряда и одну из столбца, которые совпадают с выравниванием; либо означают пробел в одной из последовательностей.

18

Путь не обязательно должен проходить лишь заполненные позиции. Тем не менее, чем больше заполненных позиций, на диагональном отрезке пути, тем больше совпадающих остатков в выравнивании.

Если направление движения между последующими ячейками диагональное, то две пары следующих друг за другом сравниваемых остатков оказываются в выравнивании без вставки между ними

(сопоставляются).

Если направление движения горизонтальное, то в последовательность, служащую указателем рядов, вставляется пропуск.

Если же направление движения вертикальное (вниз), то пропуск вставляется в последовательность, индексирующую столбцы.

Следует обратить внимание на то, что ни одно движение не может совершаться вверх или влево, так как это соответствовало бы сравнению нескольких остатков одной последовательности со всего лишь одним остатком другой. Математическая интерпретация изложенного выше способа выбора пути по точечной матрице основывается на представлении пути выравнивания в виде графа.

Граф определяется как совокупность множества вершин (или узлов) и множества связей между узлами, которые называются рёбра (или дуги).

Ориентированный граф (кратко орграф) – это (мульти) граф,

рёбрам которого присвоено направление.

Маршрутом в орграфе называют чередующуюся последовательность вершин и дуг (вершины могут повторяться). Длина маршрута – это количество дуг в нем.

Путь – это маршрут в орграфе без повторяющихся дуг; простой путь – без повторяющихся вершин. Если существует путь из одной вершины в другую, то вторая вершина достижима из первой.

Рассмотрим две последовательности длиной m и n . Выравниванием этих последовательностей будет ориентированный граф G с узлами (i, j) (0 i m, 0 j n ) решётки размером (m +1) ×(n +1) . Ребро графа от узла (i, j) к узлу (i, j) возможно только если 0 i′−i 1 и 0 j′− j 1.

На рисунке 12 представлен граф выравнивания для последова-

тельностей X = GTCCGTG и Y = ATACTGG.

19