Попарное выравнивание используется для нахождения совпадающих участков двух последовательностей.
Различают глобальное и локальное выравнивание. Глобальное выравнивание применяется к «похожим» последовательностям приблизительно одинаковой длины и наглядно показывает разницу между этими последовательностями.
Локальное выравнивание применяется преимущественно для отличающихся друг от друга последовательностей, которые предположительно могут содержат одинаковые участки или же когда нужно узнать, содержится ли в большой последовательности малая.
Следующий пример демонстрирует различие между результатами глобального и локального выравнивания для одинаковых исходных данных:
Глобальное
SQ1: FTFTALILLAVAV
SQ2: F—TAL-LLA-AV
Локальное
SQ1: FTFTALILL-AVAV
SQ2: --FTAL-LLAAV--
Попробуем теперь сами сделать парное глобальное выравнивание в веб-сервисе MAFFT — популярной программе для выравнивания аминокислотных и нуклеотидных последовательностей.
Создадим в текстовом редакторе файл FASTA, содержащий две последовательности - ACF33495.1 (белок NS2B вируса клещевого энцефалита штамма Primorye) и AAQ91606.1, тот же белок родственного ему вируса омской геморрагической лихорадки.
Последовательности нужно получить из базы NCBI по идентификатору, затем загрузить в FASTA-формате по ссылке и последовательно записать в один текстовый файл.
Загрузим веб-интерфейс программы по адресу http://mafft.cbrc.jp/alignment/server/
Укажем наш файл с двумя последовательностями и щелкнем на submit Получим выровненные последовательности в формате clustal
gi|37499096|gb| MAGKAILKGKGGGPPRRVSKETAKKTRQRMVQMPNGLVLKRIMEILWHAMVGTARSPLLK gi|194136518|gb MAGKAILKGKGGGPPRRVSKETAKKTRQSRVRMPNGLVLMRMMGILWHAVAGTARSPVLK
**************************** *:******* *:* *****:.******:**
gi|37499096|gb| SFWKVVPLKQAMAALRKIKKAVSTLMIGLQKRGKRRSTTDWIGWLLAVMLFSITLAATVR gi|194136518|gb SFWNSVPLRQATAALRKIKKAVSTLMVGLQRRGKRRSAVNWTGWLLVVVL-GVTLAATVR
***: ***:** **************:***:******:.:* ****.*:* .:*******
gi|37499096|gb| KEGDGATVIRAEGKDAATQVRVENGTCVILATDMGTWCEDSLSYECVTIDQGEEPVDVDC
21
gi|194136518|gb KERDGTTVIRAEGKDAATQVRVENGTCVILATDMGSWCDDSLTYECVTIDQGEEPVDVDC
** **:*****************************:**:***:*****************
gi|37499096|gb| FCRNVDQVYLEYGRCGKQEGTRSRRSVLIPSHAQKDLTGRGQRWLEGDTIRSHLTRVEGW gi|194136518|gb FCRNVDGVYLEYGRCGKQEGSRTRRSVLIPSHAQGDLTGRGHKWLEGDSLRTHLTRVEGW
****** *************:*:*********** ******::*****::*:********
gi|37499096|gb| VWKNKLFTLAVVAIVWMTVESMATRVVIVSALLCLAPAYASRCTHLENRDFVTGTQGTTR gi|194136518|gb VWKNKVLTLAVIAVVWLTVESVVTRVVVVVVLLCLAPVYASRCTHLENRDFVTGTQGTTR
*****::****:*:**:****:.****:* .******.**********************
Знаком «*» обозначены совпадения последовательностей, знаками «:»
и«.» - разные степени эволюционного сходства
4.3GeneBee и Bri-shur: сделано у нас
До сих пор почти все сервисы и базы данных, упоминаемые в пособии, были сделаны не нашими соотечественниками. Но это не значит, что биоинформатики работают только за рубежом. Группа Genebee создана в 80-х годах Л. И. Бродским как коммерческое предприятие, предоставляющее программы для анализа биологических последовательностей и сотрудничающее с основными биологическими институтами бывшего СССР. Один из самых интересных алгоритмов, разработанных этой группой, это свой алгоритм множественного выравнивания. Загрузим его веб-интерфейс по адресу http://www.genebee.msu.su/services/malign_reduced.html
и скопируем туда содержимое нашего FASTA-файла с двумя последовательностями, а потом щелкнем на «Отправить запрос».
Рисунок 10: GeneBee - веб-сервис для множественного выравнивания с оригинальными алгоритмами
Получим одно общее глобальное выравнивание и несколько локальных, в зависимости от поставленной задачи можно выбрать одно из них.
На основе алгоритмов genebee, свободно распространяемых биоинформатических утилит и собственных разработок коллектив под руководством С. И. Феранчука в 2010 году запустил проект bri-shur (http://www.bri-shur.com)
Его основные возможности:
Скрининг по гомологии по заданной аминокислотной последовательности
Скрининг по регулярным выражениям
Множественное выравнивание
Филогенетический анализ
Гомологичное моделирование
Предсказание вторичной структуры и поверхностных участков белка
Структурное выравнивание
Предсказание протонированных сайтов гистидина в заданной структуре
Оценка энергии сворачивания для заданной структуры
Также реализован собственный алгоритм поиска по базе данных MedLine, где для удобства навигации по биологической литературе
Рисунок 11: Bri-shur - отечественный сервер для решения задач 23 биоинформатики
используются подсказки на основе ключевых фраз (мемов), выделенных в рефератах статей.
Интерфейс веб-сервисов доступен на русском и английском языках. Именно на основе сервисов данного сайта будет построена вторая часть нашего знакомства с биоинформатическими сервисами — учебная научная работа по моделированию пространственной структуры биологического объекта.
Что такое облако? Нет, мы не про те облака, что над головами, а про те, в которых производятся вычисления.
Облако — это интернет-сервис, в котором все ваши данные хранятся на удаленном сервере в Интернете и вы с ними работаете прямо там, используя мощность процессора, дисков и даже внешних устройств на серверной стороне. Облачные вычисления это перевод веб- и интернетсервисов на новый уровень, вы не только используете удаленные серверы для получения и обработки данных, но и результаты вашей работы тоже хранятся там. Самый простой пример облачного сервиса
— google docs, система работы с документами, где вы не загружаете, как обычно, текст или электронную таблицу со своего диска в программу и изменяете или создаете новый документ, а изменяете или создаете документы прямо на сервере в Интернете.
Чем это удобно для биоинформатика? Тем, что результат его работы — последовательности, аннотации, модели, статьи в конечном итоге все равно попадают в интернет-базы данных. Биоинформатик очень значительную часть данных для своей работы берет в Интернете и туда же они, обработанные и дополненные, возвращаются, потому совершенно логичным будет сразу работать в глобальной сети.
Это позволяет не заботиться о программном обеспечении на вашем компьютере, о его мощности, объеме памяти, защите. Нужен только браузер, и можно полноценно работать с маленького нетбука или смартфона, в командировках или даже экспедициях, ведь мест, где нет интернета, становится все меньше. Биоинформатика очень чувствительна к вычислительной мощности, например процессы молекулярной динамики считаются даже на современных быстрых рабочих станциях недели и месяцы. А ведь эти станции нужно купить, установить их сами и программы на них, научиться работать,
24
обеспечивать обслуживание и загрузку и. т. д. Облако же позволяет просто арендовать необходимые вычислительные мощности на нужное время, это получается гораздо дешевле и проще.
Несомненно, у облаков есть свои проблемы, например разграничение доступа и секретность, невозможность доступа к данным без интернета, но их плюсы несомненны и можно ожидать в ближайшем будущем появления виртуальных «лабораторий биоинформатика» которые можно будет арендовать для своих исследований.
Вопрос: Очень многие ученые - биоинформатики приходят в ходе своей работы к созданию новых алгоритмов, а на их основе - программ и сервисов. Обоснуйте, что более перспективно развивать в свете наступления «облачной эры» - интернетили веб-сервисы для биоинформатики?
1.Что-такое веб- и интернет - сервисы?
2.Какие задачи решаются с помощью выравнивания?
3.В каких случаях применяется глобальное, а в каких — локальное выравнивания?
4.Какие сервисы для выравнивания вы знаете?
5.В чем преимущества облачных вычислений?
6.Что обозначает символ «*» в формате clustal?
7.Что такое множественное выравнивание?
25