Недогматические последовательности
Согласно центральной догме молекулярной биологии (ЦДМБ), генетическая информация реализуется как поток информации от ДНК к #РНК и далее –к белку. В основе такой передачи лежит матричный синтез, т.е. способность биополимера служить матрицей для полученияновыхмолекул.Данныйпотокинформацииявляетсяоднонаправленнымзаисключением "развернутого" перехода от РНК к ДНК в довольно редком случае обратной транскрипции. Эта догма легла в основу молекулярной биологии в середине прошлого века. Довольно скоро выяснилось, что не вся последовательность ДНК оказывается "переписана" на язык РНК (#транскрипция ) и тем более –на язык белка (#трансляция ). Часть останавливается на уровне РНК (некодирующих –включая транспортные, рибосомную и различные типы регуляторных РНК). Некоторые последовательности ДНК “не доходят” даже до уровня РНК, но при этом успешно выполняют вспомогательные, регуляторные функции. Иными словами, некоторый участок ДНК может участвовать в процессе экспрессии (как бы “претворения генетической информации в жизнь”) в различных ролях. Если ДНК не кодирует некоторую структуру биополимера, она, тем не менее, может настраиваемо управлять экспрессией генов, служить в качестве области, ответственную за прикрепление структурных белков, репликацию ДНК, в качестве центромер, теломер и т.д.) [3].Таким образом, не являясь кодирующими, области ДНК могут тем не менее быть значимыми, функциональными. Разумеется, при этом они выполняют другие и очень разнообразные геномные функции; механизмы их работы могут также сильно разниться.
Любопытно отметить, что в случае человеческого генома на функциональную часть (противопоставляемую в данном случае генетическому мусору –"темной материи" ДНК) приходится, по различным оценкам, 10-15% либо свыше 20%. При этом из нихкодирующими являются лишь 2% генома Homo sapiens[5].В чем же различие между кодирующими и не кодирующими, но функциональными регионами ДНК на уровне механизмов их работы? Кодирующие последовательности содержат информацию о собственно структуре матричных биополимеров –своей собственной и структуре расположенных "ниже по течению" центральной догмы. В случае функциональных некодирующих участков ДНК, не переходящих при этом на уровень РНК –информация служит для регуляции на данном "этаже" центральной догмы. В частности, такие свойства управляют узнаванием ДНК другими молекулами –прежде всего главными "рабочими лошадками" всякой клетки –белками, а точнее –белкамиДНК-связывающими.Поток генной экспрессии представляет собой исключительно сложное явление и подчас имеет плохо предсказуемое поведение. Говоря языком математического моделирования, он имеет нелинейное поведение. Это означает, что небольшие изменения в этой многокомпонентной системе могут вызывать неожиданно сильные перестройки. Именно поэтому это ещё и #система со сложной и надежной регуляцией, которая призвана уберечь ее от хаоса. Регуляция определяет, какие процессы в данный момент должныпротекать активнее либо медленнее, включаться и выключаться. Она включает в себя и саморегуляцию (способность устанавливать и поддерживать на определенном уровне те или иные физиологические функции), и такое более частное явление, как авторегуляция (свойство конкретного гена, продукт которого регулирует его собственную экспрессию) [6].Что же делает возможным такое хитроумное поведение системы? На уровне транскрипции –то, какие белки, на каком сайте и как связывают ДНК и какие последующие перестройки за этим следуют. Такую возможность обеспечивает переключаемость ДНК-белковых взаимодействий. А она, в свою очередь, требует специфичности (избирательности) посадки белка. Как же находят ДНК-связывающие свои целевые сайты –в нужный момент времени и в нужном состоянии?Данная избирательность может объясняться наличием особых "слов" в последовательности нуклеотидов. Хороший пример представляют собой эндонуклеазы рестрикции (рестриктазы). Эти ферменты очень специфичны и связывают особые предназначенные для их узнавания сайты –определенные последовательности ДНК длиной всего несколько нуклеотидов. После этого они расщепляют их в точно заданном относительно сайтов связывания положении (например, в 6 нуклеотидах дальше от такого сайта) [7]. Другие регуляторные ДНК-связывающие белки ведут себя несколько сложнее в том отношении, что места их посадки не могут быть определены просто наличием слова-"пароля" в нуклеотиднойпоследовательности. Примером служат точки инициации ("запуска") репликации ДНК, сайты посадки транскрипционных факторов и т.д. Особый интерес в этом отношении представляют промоторы –участки ДНК, на которых происходит первый этап транскрипции (ее инициация), поскольку изучение именно их физических свойств особенно актуально.
Причина состоитв том, что #промоторы обычно не имеют четкого и строго определенного мотива (определенных "слов" генетического текста). Однако для них описаны ряд структурных и физических особенностей, напрямую определяющих их связывание с ответственными за транскрипцию белками (прежде всего -РНК-полимеразой, которая, собственно, и синтезирует РНК). Особенно удобно изучать транскрипцию у бактерий, поскольку в их случае РНК-полимераза является единственным необходимым белком (у эукариот –ядерных организмов –вовлекаются идругие участники) [8]. Дополнительная актуальность данной тематики следует из одной из традиционных задач биоинформатики, имеющей множество практических приложений. Речь идёт о предсказании промоторных областей, т.е. использовании машинного обучения для определения локализации промоторов вне исследованных в этом отношении геномах. Отсутствие строго определенных (консенсусных) последовательностей промоторов сделал эту задачу постоянно решаемой и не получающей удовлетворительного решения. С использованием альтернативного подхода, основанного на рассмотрении физических свойств дуплекса, наметился значительный прогресс в этой области. Особенно эффективным мы считаем использование нескольких различныхфизическихсвойств #ДНК одновременно [9].Таким образом,собственно последовательность нуклеотидов не может объяснить закономерности работы промоторных областей.Далее мы рассмотримподробнее,чтоименноопределяетпроцессихспецифического и настраиваемого взаимодействия с машинерией транскрипции ДНК.Физика ДНК–ее “второй язык”Для начала разберемся с терминологией, а именно с различием между прямым и непрямым узнаванием ДНК белком. Прямое распознавание (англ. directreadout) подразумевает конкретные взаимодействия между определенными аминокислотными остаткамиполипептидной цепи и нуклеотидами ДНК. Информация о таких контактах может быть получена при исследовании кристаллической структуры комплекса ДНК-белок. Однако все больше исследований указывают на важность, в дополнение к прямому распознаванию, ряда физических и структурных параметров ДНК в ходе так называемого непрямого узнавания (англ. “indirectreadout”). В соответствии с этим для ряда модельных систем (классические объекты исследования) показана важность непрямого распознавания (связывания). Имеющие в этом случае сигнальное для белка значение характеристики дуплекса определяют уже не изолированные нуклеотиды, а их совокупность в виде определенного контекста. Основанные на непрямом прочтении механизмы связывания подразумевают считывание белком структурныххарактеристик ДНК, в том числе большого и малого желобков, полифосфатного остова, внутренне присущей изогнутости дуплекса в целом, параметров его гидратирования, гибкость и т.д.К моделированию некоторого объекта можно подходить, рассматривая различные типывзаимодействий, фундаментальные физические силы и т.д. В соответствии с этим ДНК можно рассматривать с разных позиций -ее заряда, стабильности, структуры... -множества физических свойств ДНК. Иногда говорят также о ее физико-химических свойствах, однако, имея дело с одиночной молекулой ДНК, мы вряд ли можем разграничить физику и физико-химию, так что будем говорить только о ее физике для краткости. Транскрипция, как и другие процессы экспрессии генов, носит многостадийный характер со сложным разворачиванием во времени даже в случае бактерий (прокариот). Она включает последовательные этапы: инициация, элонгация и терминация. Промоторы вовлечены именно в инициацию транскрипции: они непосредственно прилежат к точке старта транскрипции (ТСТ), за которой следует собственно кодирующая последовательность. Для успешной инициации транскрипции РНК-#полимераза должна успешно сблизитьсяспромоторным участком ДНК, правильно сориентироваться относительно ДНК и сесть на нее, после чего ДНК должна быть расплавлена для успешного продвижения белков (комплекса элонгации) в процессе элонгации с наработкой РНК. На каждом из этих этапов решающее значение имеют различные физические свойства. Рассмотрим самые существенные в соответствии с этой хронологии физические свойства ДНК и их роль во взаимодействии ДНК и РНК-полимеразы [9-10].
ПОЛНЫЙ ТЕКСТ https://enanos.nanometer.ru/uploads/archive/2020-prosto-o-slozhnom/2020-prosto-o-slozhnom_OrlovMA.pdf