Материал: Потапов В.В. Решение задач биоинформатики при помощи веб - и интернет-сервисов

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

Попарное выравнивание используется для нахождения совпадающих участков двух последовательностей.

Различают глобальное и локальное выравнивание. Глобальное выравнивание применяется к «похожим» последовательностям приблизительно одинаковой длины и наглядно показывает разницу между этими последовательностями.

Локальное выравнивание применяется преимущественно для отличающихся друг от друга последовательностей, которые предположительно могут содержат одинаковые участки или же когда нужно узнать, содержится ли в большой последовательности малая.

Следующий пример демонстрирует различие между результатами глобального и локального выравнивания для одинаковых исходных данных:

Глобальное

SQ1: FTFTALILLAVAV

SQ2: F—TAL-LLA-AV

Локальное

SQ1: FTFTALILL-AVAV

SQ2: --FTAL-LLAAV--

Попробуем теперь сами сделать парное глобальное выравнивание в веб-сервисе MAFFT — популярной программе для выравнивания аминокислотных и нуклеотидных последовательностей.

Создадим в текстовом редакторе файл FASTA, содержащий две последовательности - ACF33495.1 (белок NS2B вируса клещевого энцефалита штамма Primorye) и AAQ91606.1, тот же белок родственного ему вируса омской геморрагической лихорадки.

Последовательности нужно получить из базы NCBI по идентификатору, затем загрузить в FASTA-формате по ссылке и последовательно записать в один текстовый файл.

Загрузим веб-интерфейс программы по адресу http://mafft.cbrc.jp/alignment/server/

Укажем наш файл с двумя последовательностями и щелкнем на submit Получим выровненные последовательности в формате clustal

gi|37499096|gb| MAGKAILKGKGGGPPRRVSKETAKKTRQRMVQMPNGLVLKRIMEILWHAMVGTARSPLLK gi|194136518|gb MAGKAILKGKGGGPPRRVSKETAKKTRQSRVRMPNGLVLMRMMGILWHAVAGTARSPVLK

**************************** *:******* *:* *****:.******:**

gi|37499096|gb| SFWKVVPLKQAMAALRKIKKAVSTLMIGLQKRGKRRSTTDWIGWLLAVMLFSITLAATVR gi|194136518|gb SFWNSVPLRQATAALRKIKKAVSTLMVGLQRRGKRRSAVNWTGWLLVVVL-GVTLAATVR

***: ***:** **************:***:******:.:* ****.*:* .:*******

gi|37499096|gb| KEGDGATVIRAEGKDAATQVRVENGTCVILATDMGTWCEDSLSYECVTIDQGEEPVDVDC

21

gi|194136518|gb KERDGTTVIRAEGKDAATQVRVENGTCVILATDMGSWCDDSLTYECVTIDQGEEPVDVDC

** **:*****************************:**:***:*****************

gi|37499096|gb| FCRNVDQVYLEYGRCGKQEGTRSRRSVLIPSHAQKDLTGRGQRWLEGDTIRSHLTRVEGW gi|194136518|gb FCRNVDGVYLEYGRCGKQEGSRTRRSVLIPSHAQGDLTGRGHKWLEGDSLRTHLTRVEGW

****** *************:*:*********** ******::*****::*:********

gi|37499096|gb| VWKNKLFTLAVVAIVWMTVESMATRVVIVSALLCLAPAYASRCTHLENRDFVTGTQGTTR gi|194136518|gb VWKNKVLTLAVIAVVWLTVESVVTRVVVVVVLLCLAPVYASRCTHLENRDFVTGTQGTTR

*****::****:*:**:****:.****:* .******.**********************

Знаком «*» обозначены совпадения последовательностей, знаками «:»

и«.» - разные степени эволюционного сходства

4.3GeneBee и Bri-shur: сделано у нас

До сих пор почти все сервисы и базы данных, упоминаемые в пособии, были сделаны не нашими соотечественниками. Но это не значит, что биоинформатики работают только за рубежом. Группа Genebee создана в 80-х годах Л. И. Бродским как коммерческое предприятие, предоставляющее программы для анализа биологических последовательностей и сотрудничающее с основными биологическими институтами бывшего СССР. Один из самых интересных алгоритмов, разработанных этой группой, это свой алгоритм множественного выравнивания. Загрузим его веб-интерфейс по адресу http://www.genebee.msu.su/services/malign_reduced.html

и скопируем туда содержимое нашего FASTA-файла с двумя последовательностями, а потом щелкнем на «Отправить запрос».

Рисунок 10: GeneBee - веб-сервис для множественного выравнивания с оригинальными алгоритмами

Получим одно общее глобальное выравнивание и несколько локальных, в зависимости от поставленной задачи можно выбрать одно из них.

На основе алгоритмов genebee, свободно распространяемых биоинформатических утилит и собственных разработок коллектив под руководством С. И. Феранчука в 2010 году запустил проект bri-shur (http://www.bri-shur.com)

Его основные возможности:

Скрининг по гомологии по заданной аминокислотной последовательности

Скрининг по регулярным выражениям

Множественное выравнивание

Филогенетический анализ

Гомологичное моделирование

Предсказание вторичной структуры и поверхностных участков белка

Структурное выравнивание

Предсказание протонированных сайтов гистидина в заданной структуре

Оценка энергии сворачивания для заданной структуры

Также реализован собственный алгоритм поиска по базе данных MedLine, где для удобства навигации по биологической литературе

Рисунок 11: Bri-shur - отечественный сервер для решения задач 23 биоинформатики

используются подсказки на основе ключевых фраз (мемов), выделенных в рефератах статей.

Интерфейс веб-сервисов доступен на русском и английском языках. Именно на основе сервисов данного сайта будет построена вторая часть нашего знакомства с биоинформатическими сервисами — учебная научная работа по моделированию пространственной структуры биологического объекта.

4.4Облачные вычисления — дорога в будущее

Что такое облако? Нет, мы не про те облака, что над головами, а про те, в которых производятся вычисления.

Облако — это интернет-сервис, в котором все ваши данные хранятся на удаленном сервере в Интернете и вы с ними работаете прямо там, используя мощность процессора, дисков и даже внешних устройств на серверной стороне. Облачные вычисления это перевод веб- и интернетсервисов на новый уровень, вы не только используете удаленные серверы для получения и обработки данных, но и результаты вашей работы тоже хранятся там. Самый простой пример облачного сервиса

— google docs, система работы с документами, где вы не загружаете, как обычно, текст или электронную таблицу со своего диска в программу и изменяете или создаете новый документ, а изменяете или создаете документы прямо на сервере в Интернете.

Чем это удобно для биоинформатика? Тем, что результат его работы — последовательности, аннотации, модели, статьи в конечном итоге все равно попадают в интернет-базы данных. Биоинформатик очень значительную часть данных для своей работы берет в Интернете и туда же они, обработанные и дополненные, возвращаются, потому совершенно логичным будет сразу работать в глобальной сети.

Это позволяет не заботиться о программном обеспечении на вашем компьютере, о его мощности, объеме памяти, защите. Нужен только браузер, и можно полноценно работать с маленького нетбука или смартфона, в командировках или даже экспедициях, ведь мест, где нет интернета, становится все меньше. Биоинформатика очень чувствительна к вычислительной мощности, например процессы молекулярной динамики считаются даже на современных быстрых рабочих станциях недели и месяцы. А ведь эти станции нужно купить, установить их сами и программы на них, научиться работать,

24

обеспечивать обслуживание и загрузку и. т. д. Облако же позволяет просто арендовать необходимые вычислительные мощности на нужное время, это получается гораздо дешевле и проще.

Несомненно, у облаков есть свои проблемы, например разграничение доступа и секретность, невозможность доступа к данным без интернета, но их плюсы несомненны и можно ожидать в ближайшем будущем появления виртуальных «лабораторий биоинформатика» которые можно будет арендовать для своих исследований.

Вопрос: Очень многие ученые - биоинформатики приходят в ходе своей работы к созданию новых алгоритмов, а на их основе - программ и сервисов. Обоснуйте, что более перспективно развивать в свете наступления «облачной эры» - интернетили веб-сервисы для биоинформатики?

4.5Контрольные вопросы

1.Что-такое веб- и интернет - сервисы?

2.Какие задачи решаются с помощью выравнивания?

3.В каких случаях применяется глобальное, а в каких — локальное выравнивания?

4.Какие сервисы для выравнивания вы знаете?

5.В чем преимущества облачных вычислений?

6.Что обозначает символ «*» в формате clustal?

7.Что такое множественное выравнивание?

25