10. Молекулярные биологические коды и системы кодирования информации
Известно, что в цифровых технических устройствах широко используются цифровые коды. В основу правил соответствия кодовых комбинаций числам цифровых кодов положены математические системы счисления. В зависимости от значения основания кода, коды называются двоичными, троичными, десятичными и т. д. Однако, компьютеры обрабатывают не только числовую, но и различную алфавитно-цифровую информацию, содержащую помимо цифр, буквенные, синтаксические и математические символы. Совокупность всех этих символов образует алфавит входного языка машины. Поэтому необходимость ввода, обработки и вывода алфавитно-цифровой информации требует выбора определённой системы кодирования. Наибольшее распространение в компьютерах получило кодирование алфавитно-цифровых символов 8-разрядными байтами.
Очевидно, что использование клеткой разных систем биологических элементов также приводит к необходимости кодирования одних химических букв, символов или знаков через алфавитную систему других. Ясно, что в живой клетке используются свои специфические коды. Причем, автор данной статьи считает, что кодирование живой материи начинается с самого низкого - субмолекулярного уровня её организации, затем поднимается до уровня биологических макромолекул и клеточных структур, и далее выходит на другие уровни организации живого. Наша задача рассмотреть субмолекулярные и молекулярные уровни организации, так как только они являются фундаментальными основами биологической формы движения материи. Информационные проблемы в любой живой клетке тесно связаны, прежде всего, с применением различных алфавитов и молекулярных биологических кодов Они также связаны с существующими принципами и правилами молекулярной биохимической логики, которые лежат в основе закономерностей молекулярной биологической информатики. Поэтому важной составляющей частью биоинформатики должна стать теория молекулярной биологической информации. Она должна стать наукой об общих законах преобразования информации, с целью изучения различных форм и видов представления и передачи информации, применительно к молекулярным биологическим системам управления. Известно, что процесс представления информации в виде последовательности расположения букв абстрактного алфавита называется кодированием. А обратный процесс воссоздания по данному дискретному коду исходного вида информации, называется декодированием. Код, как известно, - это набор правил, раскрывающий способ представления информационных данных. На этот момент следует обратить особое внимание, так как мы убеждаемся в том, что в живой клетке используются далеко не абстрактные алфавиты и, в связи с этим, применяются сложные многоступенчатые принципы передачи, с процессами перекодирования одного вида молекулярной информации в другой (например, в процессе трансляции, информация цепей иРНК преобразуется в информацию цепей белковых молекул); одной формы (линейной, одномерной) - в другую (пространственную, стереохимическую). Для этой цели в клетке используются разные алфавиты и различные средства и системы кодирования и преобразования информации.
Краеугольным камнем здесь, естественно, является концепция генетического кода, так как из неё вытекает представление о существовании в живой клетке информационной молекулярно-биологической системы управления. Информация, как известно, определяет поведение системы, повышает её организацию и понижает энтропию (дезорганизацию). Для того чтобы понять информацию, необходимо знать код, - то есть способ её представления. В настоящее время в биологии утвердилось представление о наличии такого кода только в случае генетической информации. Однако для кодирования различных видов и форм молекулярной информации живая клетка использует различные системы элементов общего алфавита, поэтому запись информации может осуществляться различными буквами и символами. Это ведёт к новому представлению о том, что в любой живой молекулярной системе для кодирования и декодирования информации широко применяются и другие молекулярные коды, которые служат для перевода и преобразования информации из одного её молекулярного вида в другой, из одной её молекулярной формы в другую. При этом различные алфавиты букв и символов, при помощи которых записывается информация в различные классы биологических молекул, являются материальными переносчиками информации. К примеру, вся генетическая информация, которой располагает живая клетка, записана в структуре ДНК в виде комбинационной последовательности нуклеотидов. В настоящее время существует и такая точка зрения, что «некодирующие» последовательности, преобладающие в геномах эукариот, также имеют свои информационные коды, служащие для выполнения определённых биологических функций. Поэтому ключевым аппаратом кодирования наследственной информации в живой клетке является ДНК хромосом. Нуклеиновые кислоты имеют алфавит, содержащий восемь букв: «четыре из них (дезоксирибонуклеотиды) служат для кодирования информации в структуре ДНК, а другие четыре - (рибонуклеотиды) используются для записи информации в биомолекулы РНК» [6]. Поэтому «в процессе транскрипции осуществляется перенос генетической информации от ДНК к РНК. При этом все виды РНК - иРНК, рРНК и тРНК - синтезируются в соответствии с последовательностью оснований в ДНК, служащей матрицей» [6]. Значит, алфавит нуклеотидов является той системой элементов, которая служит как для хранения информации в генетической памяти ДНК, так и для считывания и загрузки её в структуру нуклеиновых кислот РНК, выполняющих в клетке роль оперативной памяти. Нуклеотиды - это та система элементов, с помощью которой кодируется, хранится и передаётся генетическая информация. Следовательно, информация в цепях ДНК и РНК записывается на языке нуклеиновых кислот. Кодированием называется процесс преобразования информации в совокупность букв или символов, определяемую кодом. Поэтому любой код является ключом для перевода одного вида информации в другой, или одной формы в другую. «Код имеет следующие основные характеристики: 1) основание кода m, равное числу отличающихся друг от друга букв (или символов) в алфавите; 2) длина кодовой комбинации n, называемая также длинной слова, n равно числу одинаковых или отличающихся друг от друга букв (элементарных сигналов) в кодовой комбинации; для данного кода характерно своё множество (набор) кодовых комбинаций, каждая из которых может передавать отдельное дискретное сообщение; 3) число кодовых комбинаций N в коде, каждая из которых может передавать своё отдельное сообщение. N называется также объёмом код.
Перечисленные характеристики есть у любого кода и кодовой комбинации, независимо от представления кода, физической его реализации или способа передачи и хранения кодовых комбинаций. Кроме того, есть характеристики кодовых комбинаций, которые зависят от способа передачи и отображения. Так, по характеру передачи кодовых комбинаций они делятся на параллельный и последовательный способы передачи отдельных букв (или символов) кода. При параллельной передаче все символы кодовой комбинации передаются одновременно (например, при взаимодействии биомолекул друг с другом, с помощью их кодовых биохимических матриц, авт.), а при последовательной - поочередно (последовательно)» [10]. Упрощенно такие передачи называются параллельным или, соответственно, последовательным кодом. Примером последовательной передачи кодовой комбинации химических букв являются процессы репликации, транскрипции или трансляции генетической информации. Несмотря на то, что в живой системе применяются различные методы и способы кодирования и преобразования информации, - генетическому коду, как самому сложному в реализации, отводится особая роль.
10.1 Генетический код
Генетический код - это набор кодовых слов (триплетов) в иРНК (а, значит, и в ДНК), кодирующих аминокислоты белков. Основанием генетического кода (m) являются четыре различных нуклеотида. Поэтому алфавит генетического кода четырёхбуквенный, а вся информация в ДНК записывается на четырёхбуквенном языке структуры дезоксирибонуклеиновых кислот. Длина кодовой комбинации (n) в генетическом коде равно трём. Каждый кодирующий триплет, называемый кодоном, состоит из комбинации трёх одинаковых или различных нуклеотидов и несёт дискретную информацию о соответствующей аминокислоте в полипептидной цепи белка. Каждый кодон кодирует только одну аминокислоту. Это свойство кода называют специфичностью или однозначностью. Генетический код является равномерным, триплетным, так как все кодовые комбинации одинаковы по длине (n = 3). Код называется полным, если N=m в степени n. Поскольку число возможных кодовых комбинаций нуклеотидов в триплете составляет 4 в степени 3, то есть 64, а почти каждой аминокислоте соответствует несколько кодонов-синонимов, то генетический код считается полным и вырожденным. Все кодоны осмыслены - 61 из 64 кодонов используются для обозначения двадцати аминокислот, оставшиеся триплеты являются сигнальными. То есть каждому трёхбуквенному слову (кодону) соответствует либо аминокислота, либо сигнал начала или окончания считывания. Генетический код является универсальным, одинаковым у всех живых организмов и непрерывающимся, так как считывание информации идёт последовательно кодон за кодоном, без «запятых и пробелов».
Как мы видим, принцип перекодирования относительно прост, несмотря на то, что в нём задействован весьма сложный аппарат трансляции. Заметим, что процесс перекодировки с помощью генетического кода служит для загрузки генетической информации в структуру полипептидных цепей. А информационный смысл этого процесса заключается в том, что таким способом кодируется и программируются линейная организация полипептидных цепей белковых молекул.
10.2 Аминокислотный код
Итак, информация, записанная в форме линейных цепей нуклеиновых кислот, в процессе трансляции переводится в линейную информацию аминокислотных цепей белковых молекул, а ключом для перевода является словарь соответствия между этими двумя языками, который носит название генетического кода. Поэтому, можно сказать, что генетический код - это закон соответствия между иРНК (а, значит, и генами ДНК) и полипептидными цепями белковых молекул. При этом новая форма информации - белковая, записывается уже другим молекулярным кодом - аминокислотным. Генетическим кодом, как мы видим, кодируется только первичная - «линейная» структура полипептидной цепи белковой молекулы. Однако, конкретная конфигурация - вторичная, третичная и четвертичная структуры белка кодируется и программируется уже другим молекулярным кодом - аминокислотным. Это ведёт к представлению, что только аминокислотный код обеспечивает трёхмерную структурную организацию белка, а также все его специфические свойства и функции.
Аминокислотный код является именно тем молекулярным биологическим кодом, с помощью которого осуществляется сначала преобразование, а затем воплощение и реализация генетической информации. Обратим внимание на то, что основанием аминокислотного кода (m) являются двадцать аминокислот, различающихся между собой только боковыми атомными R-группами. Поэтому алфавит аминокислотного кода 20-ти буквенный, а вся информация в цепях белковых молекул записывается на 20-ти буквенном языке структуры белковых молекул. Длина кодовой комбинации (n) в аминокислотном коде непостоянна и порой (в живой системе) составляет десятки и сотни аминокислотных остатков. Поэтому этот код неравномерный. Число кодовых комбинаций (N), каждое из которых может передавать своё отдельное сообщение в аминокислотном коде практически неограниченно.
Живые системы обычно имеют свои специфические белковые молекулы. А это означает, что различные типовые белковые молекулы имеют в своих цепях только свою, четко определённую и генетически закреплённую комбинационную последовательность аминокислотных звеньев. Однако отметим, что хотя одна и та же информация может быть записана разными кодами, например, генетическим кодом или линейным аминокислотным, однако реализация этой информации в биологических процессах может осуществляться только при записи её в форме стереохимических кодов. Аминокислотный код служит для преобразования линейной формы информации полипептидов в стереохимическую структуру и информацию белковых молекул. Белки и ферменты, как носители молекулярной биологической информации, способны к её реализации только в такой трёхмерной форме. Поэтому информация белков носит чисто биологический характер. Подробное изучение строения глобулярных и фибриллярных белков показало, что для каждого индивидуального белка характерна своя пространственная трёхмерная организация, которая зависит от его первичной структуры - то есть от информации, записанной «линейным» аминокислотным кодом.
10.3 Структура кодовой посылки при передаче информации в полипептидной цепи белка
Однако различные аминокислоты полипептидной цепи, по всей вероятности, организованны в виде отдельных комбинационных кодовых сигналов, определяющих (в клеточной среде) различные по своей биохимической характеристике зоны, участки и фрагменты цепи, которые обуславливают соответствующие пути, порядок и последовательность информационной сборки белка. В полипептидных цепях белковых молекул кодируется разнообразнейшая информация. Поэтому важно знать, что любая полипептидная цепь всегда является тождественным эквивалентом соответствующего кодового послания генома, указывающего будущие характеристики белковой молекулы. Поэтому, каждое сообщение, при передаче информации в полипептидной цепи белка, по всей видимости, передаётся своим кодом (кодовыми комбинациями аминокислот). Очевидно, что информация в цепи может содержать свою адресную, «операционную», структурную и текстовую (информационную) части. Значит, различные информационные сообщения в полипептидных цепях могут быть представлены различными молекулярными кодами и кодовыми комбинациями аминокислотных остатков. Следовательно, в кодовых посылках структуры полипептидной цепи могут быть заключены: 1) адресные кодовые комбинации аминокислотных остатков, которые являются основой формирования адресных стереохимических кодов активного центра фермента (для коммуникативного взаимодействия с молекулами субстрата); 2) «операционная» кодовая комбинация аминокислот - служит основой формирования кода операции активного центра, указывающего характер химической реакции; 3) структурная часть кодовой комбинации аминокислотных остатков, которая кодирует построение и осуществляет программное обеспечение исполнительных органов и механизмов белковых молекул; 4) текстовая часть - кодирует и программирует средства информационной коммуникации белка с другими биомолекулами клетки (локальные или поверхностные рельефные микроматрицы).
Бесконечная череда длинных дискретных сообщений (в виде иРНК, полипептидных цепей и белковых молекул), по своей сути, представляет собой, не что иное, как те управляющие информационные потоки и сети, которые осуществляют циклическую передачу информации с целью управления и регулирования химических превращений и реализации различных молекулярных и биологических функций. Комплементарные обратные связи, при взаимодействии биологических молекул друг с другом, применяются для повышения достоверности информационных передач. Всё это означает, что в любой живой системе применяются помехозащищенные коды. Таким образом, коды и кодовые комбинации аминокислотных остатков в «линейной» полипептидной цепи наглядно разделяются по их характеристикам и функциональному назначению. А различное информационное содержание полипептидных цепей является основой построения множества различных по функциональному назначению белковых молекул. Кооперативные (информационные) взаимодействия боковых радикалов и концевых групп аминокислотных остатков «линейной» цепи вызывают формирование особых трёхмерных образований с упорядоченной внутренней и внешней структурой. Поэтому пространственный метод преобразования белка заключается в кодировании расположения полипептидной цепи в пространственной решетке. По такому принципу осуществляется пространственное кодирование белковых (как, впрочем, и других) молекул. Таким путём идёт формирование их информационных и функциональных молекулярных биологических средств. Аминокислотный код тоже является одним из основных молекулярных биологических кодов, так как он даёт представление о механизмах стереохимического кодирования белковых молекул. Этот код содержит набор правил перевода информации из одной её молекулярной формы («линейной») в другую (стереохимическую). Очевидно, что по кодовым компонентам полипептидных цепей вполне можно делать предсказания и о трёхмерных пространственных структурах белковых молекул, и об их функциональном и информационном назначении. Изучение кодовых посылок, линейных и стереохимических кодов и кодовых комбинаций в структуре биологических молекул, должно стать приоритетным направлением в молекулярной биологической информатике.