Материал: Огурцов А. Н. Методы бииоинформационного анализа

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

отдалённо связанных белков, которые подверглись многим (N) мутациям, также могут быть рассчитаны. Согласно этой модели матрицу 1 PAM можно умножить саму на себя N раз и получить матрицы переходов для сравнения последовательностей со все более и более низкими уровнями подобия ввиду расхождения в течение более длительных периодов эволюционной истории (по мере возрастания N).

Уровень в 250 PAM, соответствующий примерно 20% идентичности последовательностей, – считается минимальным уровнем сходства, для которого можно надеяться получить правильное выравнивание, основываясь на анализе самих последовательностей без привлечения дополнительной информации, например, пространственной организации белковой глобулы.

Расстояние 250 PAM означает, что при эволюции последовательности длиной 100 аминокислотных остатков произошло 250 мутаций в случайных позициях. Поэтому в некоторых позициях мутаций вообще не было, а в некоторых позициях произошло 3 и более мутационных изменения.

Если бы в природе не происходил естественный отбор, то частоты всех возможных замен аминокислот главным образом зависели бы от частот появления этих аминокислот в последовательности (фоновые частоты). Однако наблюдаемые в родственных белках частоты замен (целевые частоты) обусловлены заменами, которые не вызывают серьезных нарушений функции белка.

Матрицы PAM обычно преобразуют в логарифмические матрицы шансов.

Счёт шансов (цена мутации) представляет собой отношение шансов на замену аминокислоты в соответствии с двумя различными гипотезами:

1)наблюдаемая скорость мутаций отражает истинное эволюционное изменение в данном участке (числитель);

2)замена произошла из-за случайной мутации, которая определяется только частотами встречаемости аминокислот и не имеет никакого биологического значения (знаменатель).

30

Отношения шансов преобразуют к логарифмам, чтобы получить логарифмические счёта шансов; благодаря этому приему умножение счётов шансов двух аминокислот в выравнивании удобно заменяется сложением их логарифмов

(Цена мутации i j)=lg наблюдаемая вероятность мутаций i j . вероятность случайной мутации

В таблицах 2–5 показаны матрицы PAM250, PAM30, PAM70 и PAM120. Во избежание дробных чисел все значения в матрицах умножены на 10 и округлены.

Величины в ячейках матриц РАМ отражают вероятность мутации. Так, например, в матрице PAM250 для замены VM цена мутации

равна +2. Это означает, что в сравниваемых эволюционно родственных последовательностях данная мутация происходит с вероятностью в 1,6 раз выше, чем при случайной мутации. Значение +2 было получено после умножения на 10, поэтому вероятность мутации равна 100,2 =1,6.

Таблица 2 – Матрица замен аминокислот PAM30

Ala (A)

6

–7

–4

–3

–6

–4

–2

–2

–7

–5

–6

–7

–5

–8

–2

0

–1

–13

–8

–2

Arg (R)

–7

8

–6

–10

–8

–2

–9

–9

–2

–5

–8

0

–4

–9

–4

–3

–6

–2 –10

–8

Asn (N)

–4

–6

8

2

–11

–3

–2

–3

0

–5

–7

–1

–9

–9

–6

0

–2

–8

–4

–8

Asp (D)

–3 –10

2

8

–14

–2

2

–3

–4

–7 –12

–4

–11 –15

–8

–4

–5

–15 –11

–8

Cys (C)

–6

–8 –11

–14

10

–14

–14

–9

–7

–6 –15

–14

–13 –13

–8

–3

–8

–15

–4

–6

Gln (Q)

–4

–2

–3

–2

–14

8

1

–7

1

–8

–5

–3

–4 –13

–3

–5

–5

–13 –12

–7

Glu (E)

–2

–9

–2

2

–14

1

8

–4

–5

–5

–9

–4

–7 –14

–5

–4

–6

–17

–8

–6

Gly (G)

–2

–9

–3

–3

–9

–7

–4

6

–9

–11 –10

–7

–8

–9

–6

–2

–6

–15 –14

–5

His (H)

–7

–2

0

–4

–7

1

–5

–9

9

–9

–6

–6

–10

–6

–4

–6

–7

–7

–3

–6

Ile (I)

–5

–5

–5

–7

–6

–8

–5 –11

–9

8

–1

–6

–1

–2

–8

–7

–2

–14

–6

2

Leu (L)

–6

–8

–7

–12

–15

–5

–9 –10

–6

–1

7

–8

1

–3

–7

–8

–7

–6

–7

–2

Lys (K)

–7

0

–1

–4

–14

–3

–4

–7

–6

–6

–8

7

–2 –14

–6

–4

–3

–12

–9

–9

Met (M)

–5

–4

–9

–11

–13

–4

–7

–8 –10

–1

1

–2

11

–4

–8

–5

–4

–13 –11

–1

Phe (F)

–8

–9

–9

–15

–13 –13

–14

–9

–6

–2

–3

–14

–4

9 –10

–6

–9

–4

2

–8

Pro (P)

–2

–4

–6

–8

–8

–3

–5

–6

–4

–8

–7

–6

–8 –10

8

–2

–4

–14 –13

–6

Ser (S)

0

–3

0

–4

–3

–5

–4

–2

–6

–7

–8

–4

–5

–6

–2

6

0

–5

–7

–6

Thr (T)

–1

–6

–2

–5

–8

–5

–6

–6

–7

–2

–7

–3

–4

–9

–4

0

7

–13

–6

–3

Trp (W)

–13

–2

–8

–15

–15 –13

–17 –15

–7

–14

–6

–12

–13

–4 –14

–5 –13

13

–5 –15

Tyr (Y)

–8 –10

–4

–11

–4 –12

–8 –14

–3

–6

–7

–9

–11

2 –13

–7

–6

–5

10

–7

Val (V)

–2

–8

–8

–8

–6

–7

–6

–5

–6

2

–2

–9

–1

–8

–6

–6

–3

–15

–7

7

 

A R N D C Q E G H I L K M

F P S T W Y V

31

Таблица 3 – Матрица замен аминокислот PAM70

Ala (A)

3

–3

–1

0

–3

–1

0

1

–3

–1

–3

–2

–2

–4

1

1

1

–7

–4

0

Arg (R)

–3

6

–1

–3

–4

1

–3

–4

1

–2

–4

2

–1

–5

–1

–1

–2

1

–5

–3

Asn (N)

–1

–1

4

2

–5

0

1

0

2

–2

–4

1

–3

–4

–2

1

0

–4

–2

–3

Asp (D)

0

–3

2

5

–7

1

3

0

0

–3 –5 –1 –4 –7 –3

0

–1

–8

–5

–3

Cys (C)

–3

–4

–5

–7

9

–7

–7

–4

–4

–3 –7 –7 –6 –6 –4

0

–3

–8

–1

–3

Gln (Q)

–1

1

0

1

–7

6

2

–3

3

–3

–2

0

–1

–6

0

–2 –2 –6 –5 –3

Glu (E)

0

–3

1

3

–7

2

5

–1

–1

–3 –4 –1 –3 –7 –2

–1

–2

–8

–5

–3

Gly (G)

1

–4

0

0

–4

–3

–1

5

–4

–4 –5 –3 –4 –5 –2

1

–1

–8

–6

–2

His (H)

–3

1

2

0

–4

3

–1

–4

7

–4

–3

–2

–4

–3

–1

–2 –3 –3 –1 –3

Ile (I)

–1

–2

–2

–3

–3

–3

–3

–4

–4

6

1

–3

1

0

–3

–2

0

–6

–2

3

Leu (L)

–3

–4

–4

–5

–7

–2

–4

–5

–3

1

5

–4

3

0

–3

–4

–3

–3

–2

1

Lys (K)

–2

2

1

–1

–7

0

–1

–3

–2

–3

–4

5

0

–7

–2

–1 –1 –5 –5 –4

Met (M)

–2

–1

–3

–4

–6

–1

–3

–4

–4

1

3

0

8

–1

–3

–2

–1

–6

–4

1

Phe (F)

–4

–5

–4

–7

–6

–6

–7

–5

–3

0

0

–7

–1

8

–5

–3

–4

–1

4

–3

Pro (P)

1

–1

–2

–3

–4

0

–2

–2

–1

–3

–3

–2

–3

–5

6

1

–1

–7

–6

–2

Ser (S)

1

–1

1

0

0

–2

–1

1

–2

–2

–4

–1

–2

–3

1

3

2

–2

–3

–2

Thr (T)

1

–2

0

–1

–3

–2

–2

–1

–3

0

–3 –1 –1 –4 –1

2

4

–6

–3

0

Trp (W)

–7

1

–4

–8

–8

–6

–8

–8

–3

–6 –3 –5 –6 –1 –7

–2 –6 12 –2 –8

Tyr (Y)

–4

–5

–2

–5

–1

–5

–5

–6

–1

–2

–2

–5

–4

4

–6

–3

–3

–2

8

–3

Val (V)

0

–3

–3

–3

–3

–3

–3

–2

–3

3

1

–4

1

–3

–2

–2

0

–8

–3

5

 

A R N D C Q E G H I L K M F P S T W Y V

Таблица 4 – Матрица замен аминокислот PAM120

Ala (A)

3

–3

–1

0

–3

–1

0

1

–3

–1

–3

–2

–2

–4

1

1

1

–7

–4

0

Arg (R)

–3

6

–1

–3

–4

1

–3

–4

1

–2

–4

2

–1

–5

–1

–1

–2

1

–5

–3

Asn (N)

–1

–1

4

2

–5

0

1

0

2

–2

–4

1

–3

–4

–2

1

0

–4

–2

–3

Asp (D)

0

–3

2

5

–7

1

3

0

0

–3 –5 –1 –4 –7 –3

0

–1

–8

–5

–3

Cys (C)

–3

–4

–5

–7

9

–7

–7

–4

–4

–3 –7 –7 –6 –6 –4

0

–3

–8

–1

–3

Gln (Q)

–1

1

0

1

–7

6

2

–3

3

–3

–2

0

–1

–6

0

–2 –2 –6 –5 –3

Glu (E)

0

–3

1

3

–7

2

5

–1

–1

–3 –4 –1 –3 –7 –2

–1

–2

–8

–5

–3

Gly (G)

1

–4

0

0

–4

–3

–1

5

–4

–4 –5 –3 –4 –5 –2

1

–1

–8

–6

–2

His (H)

–3

1

2

0

–4

3

–1

–4

7

–4

–3

–2

–4

–3

–1

–2 –3 –3 –1 –3

Ile (I)

–1

–2

–2

–3

–3

–3

–3

–4

–4

6

1

–3

1

0

–3

–2

0

–6

–2

3

Leu (L)

–3

–4

–4

–5

–7

–2

–4

–5

–3

1

5

–4

3

0

–3

–4

–3

–3

–2

1

Lys (K)

–2

2

1

–1

–7

0

–1

–3

–2

–3

–4

5

0

–7

–2

–1 –1 –5 –5 –4

Met (M)

–2

–1

–3

–4

–6

–1

–3

–4

–4

1

3

0

8

–1

–3

–2

–1

–6

–4

1

Phe (F)

–4

–5

–4

–7

–6

–6

–7

–5

–3

0

0

–7

–1

8

–5

–3

–4

–1

4

–3

Pro (P)

1

–1

–2

–3

–4

0

–2

–2

–1

–3

–3

–2

–3

–5

6

1

–1

–7

–6

–2

Ser (S)

1

–1

1

0

0

–2

–1

1

–2

–2

–4

–1

–2

–3

1

3

2

–2

–3

–2

Thr (T)

1

–2

0

–1

–3

–2

–2

–1

–3

0

–3 –1 –1 –4 –1

2

4

–6

–3

0

Trp (W)

–7

1

–4

–8

–8

–6

–8

–8

–3

–6 –3 –5 –6 –1 –7

–2 –6 12 –2 –8

Tyr (Y)

–4

–5

–2

–5

–1

–5

–5

–6

–1

–2

–2

–5

–4

4

–6

–3

–3

–2

8

–3

Val (V)

0

–3

–3

–3

–3

–3

–3

–2

–3

3

1

–4

1

–3

–2

–2

0

–8

–3

5

 

A R N D C Q E G H I L K M F P S T W Y V

32

Таблица 5 – Матрица замен аминокислот PAM250

Ala (A)

2

–2

0

0

–2

0

0

1

–1

–1

–2

–1

–1

–3

1

1

1

–6

–3

0

Arg (R)

–2

6

0

–1

–4

1

–1

–3

2

–2

–3

3

0

–4

0

0

–1

2

–4

–2

Asn (N)

0

0

2

2

–4

1

1

0

2

–2

–3

1

–2

–3

0

1

0

–4

–2

–2

Asp (D)

0

–1

2

4

–5

2

3

1

1

–2

–4

0

–3

–6

–1

0

0

–7

–4

–2

Cys (C)

–2

–4

–4

–5

12

–5

–5

–3

–3

–2

–6

–5

–5

–4

–3

0

–2

–8

0

–2

Gln (Q)

0

1

1

2

–5

4

2

–1

3

–2

–2

1

–1

–5

0

–1

–1

–5

–4

–2

Glu (E)

0

–1

1

3

–5

2

4

0

1

–2

–3

0

–2

–5

–1

0

0

–7

–4

–2

Gly (G)

1

–3

0

1

–3

–1

0

5

–2

–3

–4

–2

–3

–5

0

1

0

–7

–5

–1

His (H)

–1

2

2

1

–3

3

1

–2

6

–2

–2

0

–2

–2

0

–1

–1

–3

0

–2

Ile (I)

–1

–2

–2

–2

–2

–2

–2

–3

–2

5

2

–2

2

1

–2

–1

0

–5

–1

4

Leu (L)

–2

–3

–3

–4

–6

–2

–3

–4

–2

2

6

–3

4

2

–3

–3

–2

–2

–1

2

Lys (K)

–1

3

1

0

–5

1

0

–2

0

–2

–3

5

0

–5

–1

0

0

–3

–4

–2

Met (M)

–1

0

–2

–3

–5

–1

–2

–3

–2

2

4

0

6

0

–2

–2

–1

–4

–2

2

Phe (F)

–3

–4

–3

–6

–4

–5

–5

–5

–2

1

2

–5

0

9

–5

–3

–3

0

7

–1

Pro (P)

1

0

0

–1

–3

0

–1

0

0

–2

–3

–1

–2

–5

6

1

0

–6

–5

–1

Ser (S)

1

0

1

0

0

–1

0

1

–1

–1

–3

0

–2

–3

1

2

1

–2

–3

–1

Thr (T)

1

–1

0

0

–2

–1

0

0

–1

0

–2

0

–1

–3

0

1

3

–5

–3

0

Trp (W)

–6

2

–4

–7

–8

–5

–7 –7 –3 –5 –2

–3

–4

0

–6

–2

–5

17

0

–6

Tyr (Y)

–3

–4

–2

–4

0

–4

–4

–5

0

–1

–1

–4

–2

7

–5

–3

–3

0

10

–2

Val (V)

0

–2

–2

–2

–2

–2

–2

–1

–2

4

2

–2

2

–1

–1

–1

0

–6

–2

4

 

A R N D C Q E G H I L K M F P S T W Y V

В матрицах замен аминокислот считается, что вероятность замены аминокислоты А на аминокислоту В всегда равна обратной вероятности замены В на А, поскольку невозможно определить разницу между этими двумя событиями. Поэтому в таблицах часто приводятся только "нижние" треугольники матриц.

2.4. МАТРИЦЫ BLOSUM

Другое семейство матриц замен аминокислот – матрицы BLOSUM – разработали в 1992 году супруги Стивен и Джорджа Хеникофф (Steven Henikoff, Jorja G. Henikoff) на основе базы данных BLOCKS выровненных последовательностей белков, отсюда и название матриц BLOSUM (BLOcks SUbstitution Matrix) (таблицы 6–9).

Как и в матрицах PAM, в матрицах BLOSUM результат представлен в виде логарифмов частот замен. Во избежание дробных чисел все значения в матрицах также умножены на 10 и округлены

33

Таблица 6 – Матрица замен аминокислот BLOSUM45

 

 

 

 

 

Таблица 8 – Матрица замен аминокислот BLOSUM62

 

 

 

 

Ala (A)

5

–2

–1

–2

–1

–1

–1

0

–2

–1

–1

–1

–1

–2

–1

1

0

–2

–2

0

 

Ala (A)

4

–1

–2

–2

0

–1

–1

0

–2

–1

–1

–1

–1

–2

–1

1

0

–3

–2

0

Arg (R)

–2

7

0

–1

–3

1

0

–2

0

–3

–2

3

–1

–2

–2

–1

–1

–2

–1

–2

 

Arg (R)

–1

5

0

–2

–3

1

0

–2

0

–3

–2

2

–1

–3

–2

–1

–1

–3

–2

–3

Asn (N)

–1

0

6

2

–2

0

0

0

1

–2

–3

0

–2

–2

–2

1

0

–4

–2

–3

 

Asn (N)

–2

0

6

1

–3

0

0

0

1

–3

–3

0

–2

–3

–2

1

0

–4

–2

–3

Asp (D)

–2

–1

2

7

–3

0

2

–1

0

–4

–3

0

–3

–4

–1

0

–1

–4

–2

–3

 

Asp (D)

–2

–2

1

6

–3

0

2

–1

–1 –3 –4 –1 –3

–3

–1

0

–1

–4

–3

–3

Cys (C)

–1

–3

–2

–3

12

–3

–3

–3 –3 –3 –2 –3

–2

–2

–4

–1

–1

–5

–3

–1

 

Cys (C)

0

–3

–3

–3

9

–3

–4

–3

–3

–1

–1

–3

–1

–2

–3

–1

–1

–2

–2

–1

Gln (Q)

–1

1

0

0

–3

6

2

–2

1

–2

–2

1

0

–4

–1

0

–1

–2

–1

–3

 

Gln (Q)

–1

1

0

0

–3

5

2

–2

0

–3

–2

1

0

–3

–1

0

–1

–2

–1

–2

Glu (E)

–1

0

0

2

–3

2

6

–2

0

–3

–2

1

–2

–3

0

0

–1

–3

–2

–3

 

Glu (E)

–1

0

0

2

–4

2

5

–2

0

–3

–3

1

–2

–3

–1

0

–1

–3

–2

–2

Gly (G)

0

–2

0

–1

–3

–2

–2

7

–2

–4

–3

–2

–2

–3

–2

0

–2

–2

–3

–3

 

Gly (G)

0

–2

0

–1

–3

–2

–2

6

–2

–4

–4

–2

–3

–3

–2

0

–2

–2

–3

–3

His (H)

–2

0

1

0

–3

1

0

–2 10 –3 –2 –1

0

–2

–2

–1

–2

–3

2

–3

 

His (H)

–2

0

1

–1

–3

0

0

–2

8

–3

–3

–1

–2

–1

–2

–1

–2

–2

2

–3

Ile (I)

–1

–3

–2

–4

–3

–2

–3

–4

–3

5

2

–3

2

0

–2

–2

–1

–2

0

3

 

Ile (I)

–1

–3

–3

–3

–1

–3

–3

–4

–3

4

2

–3

1

0

–3

–2

–1

–3

–1

3

Leu (L)

–1

–2

–3

–3

–2

–2

–2

–3

–2

2

5

–3

2

1

–3

–3

–1

–2

0

1

 

Leu (L)

–1

–2

–3

–4

–1

–2

–3

–4

–3

2

4

–2

2

0

–3

–2

–1

–2

–1

1

Lys (K)

–1

3

0

0

–3

1

1

–2

–1

–3

–3

5

–1

–3

–1

–1

–1

–2

–1

–2

 

Lys (K)

–1

2

0

–1

–3

1

1

–2

–1

–3

–2

5

–1

–3

–1

0

–1

–3

–2

–2

Met (M)

–1

–1

–2

–3

–2

0

–2

–2

0

2

2

–1

6

0

–2

–2

–1

–2

0

1

 

Met (M)

–1

–1

–2

–3

–1

0

–2

–3

–2

1

2

–1

5

0

–2

–1

–1

–1

–1

1

Phe (F)

–2

–2

–2

–4

–2

–4

–3

–3

–2

0

1

–3

0

8

–3

–2

–1

1

3

0

 

Phe (F)

–2

–3

–3

–3

–2

–3

–3

–3

–1

0

0

–3

0

6

–4

–2

–2

1

3

–1

Pro (P)

–1

–2

–2

–1

–4

–1

0

–2

–2

–2

–3

–1

–2

–3

9

–1

–1

–3

–3

–3

 

Pro (P)

–1

–2

–2

–1

–3

–1

–1

–2

–2 –3 –3 –1 –2

–4

7

–1

–1

–4

–3

–2

Ser (S)

1

–1

1

0

–1

0

0

0

–1

–2

–3

–1

–2

–2

–1

4

2

–4

–2

–1

 

Ser (S)

1

–1

1

0

–1

0

0

0

–1

–2

–2

0

–1

–2

–1

4

1

–3

–2

–2

Thr (T)

0

–1

0

–1

–1

–1

–1 –2 –2 –1 –1 –1

–1

–1

–1

2

5

–3

–1

0

 

Thr (T)

0

–1

0

–1

–1

–1

–1

–2

–2 –1 –1 –1 –1

–2

–1

1

5

–2

–2

0

Trp (W)

–2

–2

–4

–4

–5

–2

–3 –2 –3 –2 –2 –2

–2

1

–3

–4

–3

15

3

–3

 

Trp (W)

–3

–3

–4

–4

–2

–2

–3

–2

–2

–3

–2

–3

–1

1

–4

–3

–2

11

2

–3

Tyr (Y)

–2

–1

–2

–2

–3

–1

–2

–3

2

0

0

–1

0

3

–3

–2

–1

3

8

–1

 

Tyr (Y)

–2

–2

–2

–3

–2

–1

–2

–3

2

–1

–1

–2

–1

3

–3

–2

–2

2

7

–1

Val (V)

0

–2

–3

–3

–1

–3

–3

–3

–3

3

1

–2

1

0

–3

–1

0

–3

–1

5

 

Val (V)

0

–3

–3

–3

–1

–2

–2

–3

–3

3

1

–2

1

–1

–2

–2

0

–3

–1

4

 

A R N D C Q E G H I L K M F P S T W Y V

 

 

A R N D C Q E G H I L K M F P S T W Y V

Таблица 7 – Матрица замен аминокислот BLOSUM50

 

 

 

 

 

Таблица 9 – Матрица замен аминокислот BLOSUM80

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Ala (A)

5

–2

–1

–2

–1

–1

–1

0

–2

–1

–2

–1

–1

–3

–1

1

0

–3

–2

0

Ala (A)

7

–3

–3

–3

–1

–2

–2

0

–3

–3

–3

–1

–2

–4

–1

2

0

–5

–4

–1

Arg (R)

–2

7

–1

–2

–4

1

0

–3

0

–4

–3

3

–2

–3

–3

–1

–1

–3

–1

–3

 

Arg (R)

–3

9

–1

–3

–6

1

–1

–4

0

–5

–4

3

–3

–5

–3

–2

–2

–5

–4

–4

Asn (N)

–1

–1

7

2

–2

0

0

0

1

–3

–4

0

–2

–4

–2

1

0

–4

–2

–3

 

Asn (N)

–3

–1

9

2

–5

0

–1

–1

1

–6

–6

0

–4

–6

–4

1

0

–7

–4

–5

Asp (D)

–2

–2

2

8

–4

0

2

–1

–1

–4

–4

–1

–4

–5

–1

0

–1

–5

–3

–4

 

Asp (D)

–3

–3

2

10

–7

–1

2

–3

–2

–7

–7 –2 –6 –6 –3 –1

–2

–8

–6

–6

Cys (C)

–1 –4 –2 –4 13

–3

–3

–3

–3

–2

–2

–3

–2

–2

–4

–1

–1

–5

–3

–1

 

Cys (C)

–1

–6

–5

–7

13

–5

–7

–6

–7

–2

–3 –6 –3 –4 –6 –2

–2

–5

–5

–2

Gln (Q)

–1

1

0

0

–3

7

2

–2

1

–3

–2

2

0

–4

–1

0

–1

–1

–1

–3

 

Gln (Q)

–2

1

0

–1

–5

9

3

–4

1

–5

–4

2

–1

–5

–3

–1

–1

–4

–3

–4

Glu (E)

–1

0

0

2

–3

2

6

–3

0

–4

–3

1

–2

–3

–1

–1

–1

–3

–2

–3

 

Glu (E)

–2

–1

–1

2

–7

3

8

–4

0

–6

–6

1

–4

–6

–2

–1

–2

–6

–5

–4

Gly (G)

0

–3

0

–1

–3

–2

–3

8

–2

–4

–4

–2

–3

–4

–2

0

–2

–3

–3

–4

 

Gly (G)

0

–4

–1

–3

–6

–4

–4

9

–4

–7

–7 –3 –5 –6 –5 –1

–3

–6

–6

–6

His (H)

–2

0

1

–1

–3

1

0

–2

10

–4

–3

0

–1

–1

–2

–1

–2

–3

2

–4

 

His (H)

–3

0

1

–2

–7

1

0

–4

12

–6

–5

–1

–4

–2

–4

–2

–3

–4

3

–5

Ile (I)

–1 –4 –3 –4 –2

–3

–4

–4

–4

5

2

–3

2

0

–3

–3

–1

–3

–1

4

 

Ile (I)

–3

–5

–6

–7

–2

–5

–6

–7

–6

7

2

–5

2

–1

–5

–4

–2

–5

–3

4

Leu (L)

–2 –3 –4 –4 –2

–2

–3

–4

–3

2

5

–3

3

1

–4

–3

–1

–2

–1

1

 

Leu (L)

–3

–4

–6

–7

–3

–4

–6

–7

–5

2

6

–4

3

0

–5

–4

–3

–4

–2

1

Lys (K)

–1

3

0

–1

–3

2

1

–2

0

–3

–3

6

–2

–4

–1

0

–1

–3

–2

–3

 

Lys (K)

–1

3

0

–2

–6

2

1

–3

–1

–5

–4

8

–3

–5

–2

–1

–1

–6

–4

–4

Met (M)

–1 –2 –2 –4 –2

0

–2

–3

–1

2

3

–2

7

0

–3

–2

–1

–1

0

1

 

Met (M)

–2

–3

–4

–6

–3

–1

–4

–5

–4

2

3

–3

9

0

–4

–3

–1

–3

–3

1

Phe (F)

–3 –3 –4 –5 –2

–4

–3

–4

–1

0

1

–4

0

8

–4

–3

–2

1

4

–1

 

Phe (F)

–4

–5

–6

–6

–4

–5 –6 –6 –2 –1

0

–5

0

10

–6

–4

–4

0

4

–2

Pro (P)

–1

–3

–2

–1

–4

–1

–1 –2 –2 –3 –4

–1

–3

–4

10

–1

–1

–4

–3

–3

 

Pro (P)

–1

–3

–4

–3

–6

–3 –2 –5 –4 –5

–5 –2 –4 –6 12 –2

–3

–7

–6

–4

Ser (S)

1

–1

1

0

–1

0

–1

0

–1

–3

–3

0

–2

–3

–1

5

2

–4

–2

–2

 

Ser (S)

2

–2

1

–1

–2

–1 –1 –1 –2 –4

–4

–1

–3

–4

–2

7

2

–6

–3

–3

Thr (T)

0

–1

0

–1

–1

–1

–1 –2 –2 –1 –1

–1

–1

–2

–1

2

5

–3

–2

0

 

Thr (T)

0

–2

0

–2

–2

–1 –2 –3 –3 –2

–3

–1

–1

–4

–3

2

8

–5

–3

0

Trp (W)

–3 –3 –4 –5 –5

–1

–3 –3 –3 –3 –2

–3

–1

1

–4

–4

–3

15

2

–3

 

Trp (W)

–5

–5

–7

–8

–5

–4 –6 –6 –4 –5

–4

–6

–3

0

–7

–6

–5

16

3

–5

Tyr (Y)

–2

–1

–2

–3

–3

–1

–2

–3

2

–1

–1

–2

0

4

–3

–2

–2

2

8

–1

 

Tyr (Y)

–4

–4

–4

–6

–5

–3

–5

–6

3

–3

–2

–4

–3

4

–6

–3

–3

3

11

–3

Val (V)

0

–3

–3

–4

–1

–3

–3

–4

–4

4

1

–3

1

–1

–3

–2

0

–3

–1

5

 

Val (V)

–1

–4

–5

–6

–2

–4

–4

–6

–5

4

1

–4

1

–2

–4

–3

0

–5

–3

7

 

A R N D C Q E G H I L K M F P S T W Y V

 

 

A R N D C Q E G H I L K M F P S T W Y V

 

 

 

 

 

 

 

 

 

34

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

35

 

 

 

 

 

 

 

 

 

 

 

Рассматривая непрерывные комбинации аминокислот (блоки или мотивы) которые были обнаружены в каждом семействе родственных белков, выравниваемых без пропусков, супруги Хеникофф рассчитали в каждой позиции последовательности отношение числа обнаруженных пар замен аминокислотных остатков к числу замен ожидаемых для всех рассмотренных родственных блоков.

Чтобы уменьшить преобладающий вклад тех замен аминокислот, которые происходят в наиболее подобных (родственных) последовательностях, такие последовательности были предварительно отобраны и числа замен в них были усреднены, и именно такие средневзвешенные значения и использовались для представления всей группы родственных белков.

Затем блоки были сгруппированы по идентичности и в пределах каждой группы была рассчитана матрица замен: для блоков идентичных на 45% – матрица BLOSUM45; для подобных на 62% – матрица BLOSUM62; для подобных на 80% – матрица BLOSUM80 и так далее.

В таблицах 6–9 представлены матрицы аминокислотных замещений

BLOSUM45, BLOSUM50, BLOSUM62 и BLOSUM80, которые наиболее часто используются при расчёте выравниваний. В большинстве из программ выравнивания матрица BLOSUM62 используется по умолчанию.

Программа ClustalW при выравнивании аминокислотных последовательностей с использованием матрицы BLOSUM предлагает использовать штрафы d =10 за введение делеции (gap open) и e =0,1 за продолжение делеции (gap extension).

Матрицы BLOSUM, подобно матрицам PAM, тоже основаны на концепции частот мутаций. Но при получении матриц BLOSUM частоты мутаций определяют с помощью поиска в базе данных BLOCKS, а числа, присвоенные матрицам BLOSUM, не имеют той же самой интерпретации, как в случае матриц PAM. При получении матриц BLOSUM любая погрешность, потенциально вносимая при подсчёте многократного вклада от идентичных пар остатков, устраняется путём группировки сегментов последовательностей на основе их минимального тождества, выраженного в процентах. При построении матриц BLOSUM группы подобных

36

последовательностей фактически рассматриваются как отдельные (средневзвешенные) последовательности. Белковые блоки содержат локальные множественные выравнивания отдалённо связанных последовательностей (в отличие от тесно связанных последовательностей, используемых в PAM).

Вообще говоря, матрица BLOSUM представляет собой эволюционную модель в матричной форме, так как её получают из прямых данных, а не из экстраполированных значений, как в случае матриц PAM.

2.5. ВЫЧИСЛЕНИЕ СЧЁТА ВЫРАВНИВАНИЯ ДВУХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ

Рассмотрим процедуру вычисления счёта выравнивания на примере двух последовательностей:

1) альфа-глобин человека HBA_UUMAN

>sp|P69905|HBA_HUMAN Hemoglobin subunit alpha OS=Homo sapiens GN=HBA1 PE=1 SV=2 MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHG KKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTP AVHASLDKFLASVSTVLTSKYR

2) леггемоглобин жёлтого люпина LGB2_LUPLU

>sp|P02240|LGB2_LUPLU Leghemoglobin-2 OS=Lupinus luteus PE=1 SV=2 MGALTESQAALVKSSWEEFNANIPKHTHRFFILVLEIAPAAKDLFSFLKGTSEVPQNNPE LQAHAGKVFKLVYEAAIQLQVTGVVVTDATLKNLGSVHVSKGVADAHFPVVKEAILKTIK EVVGAKWSEELNSAWTIAYDELAIVIKKEMNDAA

С помощью матрицы BLOSUM50 (таблица 7) и аффинного штрафа за пропуски γ(g) = −d (g 1)e вычислим при d =12 и e = 2 счёт S1 следующего фрагмента выравнивания

GSAQVKGHGKKVADALTNAVAHV---D--DMPNALSALSDLHAHK NNPELQAHAGKVFKLVYEAAIQLQVTGVVVTDATLKNLGSVHVSK

фрагмента альфа-глобина человека

GSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHK

и соответствующего фрагмента леггемоглобина жёлтого люпина

37

NNPELQAHAGKVFKLVYEAAIQLQVTGVVVTDATLKNLGSVHVSK

Полный счёт всякого выравнивания представляет собой сумму счётов замен выровненных аминокислот и штрафов за пропуски, определяемых по формуле γ(g) = −12 (g 1) 2 , где g – длина пропуска.

В рассматриваемом случае получаем

S1 = s(G, N ) + s(S, N ) + s(A, P) + + s(A,V ) + s(H ,S) + s(K, K) =

=0 +1 1 + 2 +1 + 2 + 0 +10 + 0 2 + 6 +5 3 1 2 +1 2 + 0 +5 + 0 − −1 +1 +1 +[12 2(3 1)](пропуск) 1 +[12 2(2 1)](пропуск) − −4 1 1 1 + 0 +5 + 0 1 +5 + 0 + 0 +1 +10 + 0 1 + 6 =10.

При тех же условиях вычислим счёт S2 выравнивания фрагмента альфа-глобина человека HBA_UUMAN и соответствующего фрагмента глутанион-S-трансферазы нематоды GST7_CAEEL

>sp|P91253|GST7_CAEEL Probable glutathione S-transferase 7 OS=Caenorhabditis elegans GN=gst-7 PE=1 SV=1 MVHYKVSYFPIRGAGEIARQILAYAGQDFEDNRIPKEEWPAVKPSTPFGQLPLLEVDGKV LAQSHAIARYLARQFGINGKCAWEEAQVNSVADQFKDYLNEVRPYFMVKMGFAEGDLDAL AKDVFLPGFKKHYGFFANFLKSAGSGYLVGDSLTFVDLLVAQHTADLLAANAALLDEFPQ FKAHQEKVHSNANIKKWLETRPVTPF

Рассмотрим следующий фрагмент выравнивания

GSAQVKGHGKKVADALTNAVAHVDDMPNALSALSD----LHAHK GSGYLVGDSLTFVDLL--VAQHTADLLAANAALLDEFPQFKAHQ

Получаем

S2 = s(G,G) + s(S,S) + s(A,G) + + s(A, A) + s(H , H ) + s(K,Q) = =8 +5 0 1 +1 3 +8 1 + 0 3 1 1 + 0 +8 2 +5 +

+[12 2(2 1)](пропуск) + 0 + 0 1 +10 + 0 2 +8 +3 4 1 +5 4 + +1 +5 +5 3 +8 +[12 2(4 1)](пропуск) +1 + 0 +5 +10 + 2 =39.

Выравнивание этих двух пар фрагментов последовательностей показало, что структурно и эволюционно правдоподобное выравнивание альфа-глобина человека с леггемоглобином (первое выравнивание)

38

получило более низкий счёт, чем выравнивание альфа-глобина человека с никак не относящейся к нему последовательностью белка нематоды (второе выравнивание). Этот пример подчёркивает важность экспертной биологически значимой оценки при заключении о гомологии на основании компьютерного анализа.

Те же счета, но для других матриц BLOSSUM (таблицы 6, 8, 9) будут иметь вид

S1(BLOSSUM45) = s(G, N ) + s(S, N) + s(A, P) + + s(H ,S) + s(K, K) = =0 +11+ 2 +1+1+0 +10 +0 2 +5 +5 2 +0 1+11+0 +5 +0

1+1+1+[16](пропуск) 1+[14](пропуск) − −3 111+0 +5 11+5 +0 +0 +1+10 +0 1+5 =11.

S2 (BLOSSUM45) = s(G,G) + s(S, S) + s(A,G) +

+ s(H , H ) + s(K,Q) =

=7 + 4 0 1+12 +7 +0 +0 3 1+0 +0 +7 1+5 +

+[14](пропуск) +0 +0 1+10 +0 2 +7 +2

3 1+5 3 +

+1+5 +5 3 +7 +[18](пропуск) +11+5

+10 +1 =36.

S1(BLOSSUM62) = s(G, N ) + s(S, N) + s(A, P) +

+ s(H , S) + s(K, K) =

=0 +11+2 +1+1+0 +8 +0 2 +5 +4 2 11+12 +0 +4 +0

1+0 +1+[16](пропуск) 1+[14](пропуск)

3 112 +0 +4 +0 2 +4 +0 +0 +1+8 +0 1+5 = −1.

S2 (BLOSSUM62) = s(G,G) + s(S,S) + s(A,G) +

+ s(H , H ) + s(K,Q) =

=6 +4 +0 1+13 +6 1+0 2 11+0 +6 1+4 + +[14](пропуск) +0 +0 1+8 +0 2 +6 +2 3 2 +4 3 + +1+4 +4 2 +6 +[18](пропуск) +0 1+4 +8 +1 =19.

S1(BLOSSUM80) = s(G, N) + s(S, N) + s(A, P) + + s(H , S) + s(K, K) = = −1+11+3 +1+2 +0 +12 +0 3 +8 +7 4 2 3 +13 1+7 1

3 +1+1+[16](пропуск) 3 +[14](пропуск) − −6 13 3 +0 +6 13 +6 11+1+12 12 +8 =0.

39