Материал: Потапов В.В. Решение задач биоинформатики при помощи веб - и интернет-сервисов

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

5Учебная работа по моделированию пространственной структуры биологического объекта

5.1Задание

Используя идентификационный номер (accession number) AAF82240.2 определить биологическую последовательность и произвести молекулярно-биологическое исследование, в результате которого будет создана пространственная структура белка.

5.1.1 Извлечение знаний (Data mining)

Добыча данных, так дословно переводится с английского устоявшееся выражение Data mining. Действительно извлечь нужную информацию из огромных быстро изменяющихся баз данных о биологических объектах — задача непростая и творческая.

В этом задании нам необходимо отыскать неизвестную биологическую последовательность и узнать как можно больше данных, качественно характеризующих исследуемый биологический объект:

На первом шаге работы необходимо зайти в международную базу данных ncbi genbank, по ссылке http://www.ncbi.nlm.nih.gov/, в поле ввода ввести AAF82240.2 выбрать базу данных нуклеотидных последовательностей и щелкнуть по Search (поиск).

Рисунок 12: NCBI GenBank - поиск по идентификатору нуклеотидной последовательности

Теперь можно увидеть всю доступную информацию о искомой последовательности, ее идентификационный номер (то есть ваш запрос AAF82240.2), название последовательности (DEFINITION) — полипротеин вируса клещевого энцефалита (polyprotein [Tick-borne

encephalitis

virus]), далее следует дополнительная информация о

семействе

Flaviviridae и роде Flavivirus и т. д. Ниже приведена

информация об авторах, а в разделе источник (source) указаны данные

26

о длине последовательности полипротеина - 1..3414 аминокислотных позиций, о названии организма (organism) - вирус клещевого энцефалита (Tick-borne encephalitis virus), и о названии штамма (strain) - Васильченко (Vasilchenko).

Рисунок 13: GenBank - информация о последовательности

Далее дана ссылка на последовательность всего полипротеина и в поле мат. пептид (mat_peptide) обозначены границы индивидуальных белков, входящих в состав искомого вирусного полипротеина.

Внизу страницы приведен оригинал (ORIGIN) искомой последовательности с указанием аминокислотных позиций, для удобства счета последовательность разбита на участки по 10 символов.

Далее следует выбрать мат. пептид, который локализован в полипротеине с 1490 по 2110 позицию, называемый неструктурный белок 3 (product="nonstructural protein 3") с именем (name) - NS3.

Выберите мат. пептид NS3 и перейдите по ссылке. После этого на открывшейся странице выберете ссылку на последовательность NS3 в формате FASTA и на открывшейся странице скопируйте текст последовательности в текстовый файл.

27

5.2Анализ вирусного белка NS3

Для выполнения анализа вирусного белка NS3 будем использовать вебсервисы bri-shur. Загрузим главную страницу www.bri-shur.com, при необходимости переключим интерфейс на русский язык.

Слева находится список сервисов (то есть инструментов по анализу биологических объектов), которыми мы будем пользоваться в ходе нашего исследования. Подробное описание сервисов и алгоритмов их работы доступно на сайте www.bri-shur.com в разделе «Документация».

Наше исследование перешло на новую стадию анализа, более глубокого познания биологического объекта.

Давайте немного порассуждаем, допустим вы нашли какой-то загадочный неизвестный объект, и не знаете что бы это могло быть. Лучший способ для начала - как то этот объект идентифицировать и классифицировать, то есть соотнести его с другими известными вам ранее объектами и исходя из этого дать ему название.

В нашем случае, мы взяли неизвестный объект и узнали что это последовательность вируса клещевого энцефалита.

Теперь необходимо определить местоположение этого объекта среди остального мира биологических существ.

5.2.1 Скрининг по гомологии

Проведем скрининг по гомологии (GenBank), то есть попытаемся найти среди всех известных последовательностей белков, которые собраны в международном банке данных GenBank, те последовательности белков, которые имеют родство (гомологию) с нашей заданной последовательностью:

1.Выберите из списка сервисов скрининг по гомологии (GenBank) и перейдите по ссылке.

2.Напишите адрес своей электронной почты в поле Email

3. В

поле

«Наименование

задания»

напишите

идентификационное имя задания, например ns3

 

4.Возьмите исследуемую последовательность белка NS3 (только аминокислоты, без идентификатора и описания) и вставьте в поле «Последовательность»

5.Для уменьшения времени расчетов воспользуемся следующими параметрами:

28

Критерий отбора — сходство по всей длине, точность поиска

— жесткий, количество последовательностей в полученном результате — 100,

6.Поставьте галочку и напишем слово virus в поле ввода параметра «сначала отобрать по ключевому слову (словам)», это позволит найти только последовательности с вирусов (последовательности с ключевым словом virus в описании).

7.Cкомандуем «Рассчитать»

Рисунок 14: Bri-shur - параметры скрининга по гомологии в GenBank

Как только поставленное вами задание на сервисе Скрининг по гомологии (GenBank) будет выполнено на указанный вами электронный адрес будет выслано письмо о завершении задания, в теме письма написано нечто подобное: «Скрининг по гомологии (GenBank): ns3 (Результаты задания на сайте Brishur)»

29

8.В самом письме вы увидите две ссылки, одна ссылка на страницу с вашим заданием и выбранными вами параметрами, вторая ссылка на страницу с результатом вашего запроса.

9.Если по какой то причине система письменного оповещения недоступна или не работает, всегда есть возможность обновить страницу вашего запроса на www.bri-shur.com и после завершения задачи, вы увидите страницу с результатом.

На обработку вашего запроса потребуется несколько минут, после этого, пройдя по ссылке из письма о выполнении задания, вы обнаружите страницу с результатом нашего запроса.

А результатом при заданных нами параметрах будет список последовательностей, наиболее эволюционно близких к искомой последовательности.

На получившейся странице можно увидеть, что достаточно большой блок последовательностей составляют различные штаммы вируса клещевого энцефалита (Tick-borne encephalitis virus), вирусы, вызывающие энцефалиты у коз и овец в странах Испании, Греции и Турции (Spanish sheep encephalitis virus, Greek goat encephalitis virus, Turkish sheep encephalitis virus), далее следует родственные вирусы, поражающие людей Омской геморрагической лихорадки (Omsk hemorrhagic fever virus), вирус распространенный в лесах Индии (Kyasanur forest disease virus), также вирус Повассан (Powassan virus) заражение которым происходит от укуса клеща, циркулирует в Канаде, вирус Лангат (Langat virus) в Малайзии и т. д.

Вернемся к интерфейсу страницы с результатом скрининга, первая цифра в строке это величина Z-score - критерий сходства между последовательностями, подробнее о Z-score можно прочитать в разделе сайта «Документация». Соответственно чем выше значение Z-score тем большее сходство имеют искомая последовательность с данной последовательностью из списка. Далее в строке приведены различные идентификаторы, которые являются ключами поиска данной последовательности во всех соответствующих биологических базах данных. Щелкнув на саму строку, вы увидите две последовательности

— первая запрошенная вами, вторая найденная. Гэпы, то есть прочерки это отсутствующие аминокислотные позиции, вставленные чтобы выровнять две последовательности по длине; буквы в верхнем

30