Если ты до сих пор уверен, что «взломать код» - это задача для хакера, это означает, что на уроках биологии ты,возможно, немного отвлёкся. В твоем сознании мир компьютерных технологий и мир живых существ как параллельные прямые не пересекаются.
Поздравляю, ты отстал от жизни лет эдак на 70, а то и больше. В 1953 году биолог Джеймс Уотсон и физик Френсис Крик «взломали» код, состоящий из 3 миллиардов символов, записанный внутри живой клетки на молекуле, которую мы называем ДНК.
Природа написала такой софт 3,8 миллиарда лет назад. В нем есть свои символы, синтаксис и баги (биологи их называют мутации). Есть даже свой компилятор, преобразующий код в язык, который понимает клетка – крошечный органоид рибосома.
Осталось понять: это бинарный код или что-то посложнее? И главное — как хакеры из лабораторий научились его взламывать?
Генетический код и машинный код: точки соприкосновения
Молекула ДНК – это двойная спираль, напоминающая винтовую лестницу. Каждая ступенька – пара нуклеотидов, соединенных между собой. Их всего четыре вида, для удобства биологи привыкли обозначать их буквами: А –аденин, Т – тимин, Г –гуанин, Ц –цитозин.
Вся информация о любом организме — это просто порядок этих четырёх букв.
В ДНК всего 4 буквы: А, Т, Г, Ц. А вот в белках — 20 разных «деталек» (аминокислот). Как четырьмя буквами записать 20 команд?
Попробуй сам: из двух букв (например, 0 и 1) можно составить 4 пары. Из трёх букв — 8 комбинаций. Из четырёх букв по три — уже 64. Этого хватает, чтобы закодировать все 20 аминокислот и ещё останется место для «знаков препинания».
Поэтому генетическое «слово» всегда состоит из трёх букв. Такие тройки называются кодонами.
Казалось бы, код ДНК и бинарный код компьютерных программ совсем не похожи, но, если присмотреться, в них много общего.
Во-первых, оба кода разбиты на дискретные единицы, только в бинарном коде это биты (0 или 1), а в ДНК – нуклеотиды (А, Т, Г, Ц).
Во-вторых, и там, и там смысл записанного определяется порядком чередования символов. Определенная комбинация нулей и единиц соответствует строго определенному символу. Например, буква «А» в кодировке ASCII — это 01000001, а сочетание нуклеотидов ААА соответствует аминокислоте фенилаланин.
В-третьих, в обоих кодах есть специфические команды начала и конца процессов. Комбинация АТГ в цепочке ДНК – это команда «Начать сборку!», как клавиша Enter в начале программы. Сочетания ТТА, ТАГ или ТГА - команда «Стоп, работа закончена» (как return в коде).
В-четвертых, в обоих случаях код читается исполнителем. Процессор выполняет команды из бинарного кода. В клетке эту роль выполняет рибосома: она «читает» копию участка ДНК и собирает белок из аминокислот.
В программировании ты меняешь одну букву — и программа падает (баг). Или, если повезёт, появляется новая функция. С молекулой ДНК та же история, только баги биологи привыкли называть мутациями. У ДНК есть встроенная «система автопроверки» (белки-чинильщики ходят по молекуле и исправляют ошибки). Если бы не они, мутации случались бы в тысячи раз чаще.
В компьютере ту же работу выполняют специальные алгоритмы: они обнаруживают ошибки на жёстком диске и проверяют целостность файлов.
В геноме человека 3 млрд букв. Каждый раз, когда клетка делится, она делает копию. При таком объеме ошибок должно быть 3–4 на каждое деление. Но клетка исправляет почти всё. Это при том, что ни один жесткий диск не умеет чинить сам себя.
Мы выяснили, что ДНК очень похожа на программный код. Но есть одна проблема: этот код нельзя открыть в блокноте и посмотреть. Давай разберёмся, как учёные обходят эту проблему.
Как учёные читают ДНК?
На что похожа попытка прочитать последовательность ДНК одного человека.?
Представь себе многотомное собрание сочинений вроде «Войны и мира», но повторенное 5000 раз. Напечатана книжка крошечными буквами, даже в электронный микроскоп не разглядишь. И написана она на языке, которого никто не знает. Буквы известны, а вот смысл слов не ясен даже приблизительно.
Страницы книги скомканы, склеены между собой и впихнуты в маленький ящик, крепко закрытый на ключ. Ты можешь читать одновременно не более 10 страниц, вырванных из книги случайным образом. Мне кажется или это похоже на сюжет для научно-фантастического триллера?
Но с прочтением нуклеотидной последовательности молекулы ДНК все обстоит именно так. Ну, или почти так.
ДНК не видно даже в самый мощный микроскоп. Это нить толщиной 2 нанометра туго скручена в плотные клубки – хромосомы. 2 метра такой нити помещены в шарик размером с бактерию – ядро. Наши приборы не позволяют ее «читать» последовательно, как одну строку буква за буквой. Им доступны только короткие кусочки — длиной 100–1000 букв.
Процесс определения последовательности нуклеотидов в ДНК называется секвенированием. Вот как это работает сегодня:
Шаг 1. Разорвать на кусочки (секвенирование)
Учёные берут много клеток, извлекают ДНК и разрезают её на миллионы случайных кусочков, каждый по 500–1000 букв.
Шаг 2. Прочитать каждый кусочек
Прибор размером с микроволновку под название секвенатор определяет последовательность букв в каждом кусочке. Получается огромный текстовый файл — перемешанный, без порядка, с повторами.
Шаг 3. Собрать пазл (сборка генома)
И вот тут начинается работа программистов и их алгоритмов! Они ищут перекрывающиеся участки, если два фрагмента имеют общий кусочек, их можно склеить. А затем повторить процедуру для оставшихся 10 миллионов кусков. Задача, которая без компьютера заняла бы 1000 лет.
Шаг 4. Найти гены (аннотация)
Когда пазл собран, компьютер ищет в тексте:
· стартовые кодоны (ATG)
· стоп-кодоны (TAA, TAG, TGA)
· длинные участки без остановки (это и есть гены — инструкции для сборки белков).
Самое смешное: гены занимают только 2% от всей ДНК. Остальные 98% — «тёмная материя» нашего генома. Ещё 20 лет назад это называли «белым шумом». Теперь мы знаем, что это переключатели, усилители и регуляторы — сложнейшая система управления, которая говорит, когда и в каких клетках включать гены.
А как думаешь, почему природа оставила так много «пустого места»? (Спойлер: оно оказалось не пустым.)
Окей, мы научились читать. На это ушли десятилетия и миллиарды долларов. Но зачем это вообще понадобилось? Вот пять причин, которые уже изменили твою жизнь.
Зачем вообще это читать?
Прочтение последовательности ДНК для каждого из нас открывает перспективы, которые лет 20 назад описывались только в фантастических романах.
- · Теперь же фармацевты всерьез рассуждают о создании персональных лекарств, учитывающих генетические особенности конкретного человека.
- · Врачи могут предупредить больного о риске развития заболевания, например, сахарного диабета задолго до того, как появятся первые симптомы. Раньше о такой профилактике можно было только мечтать, ведь генетическая предрасположенность – это не приговор, код лишь говорит о вероятности, а не о судьбе.
- · Анализ ДНК позволяет криминалистам с точностью 99,8% установить личность преступника по капелькам слюны, частичкам кожи или выпавшему волосу.
- · Исследования последовательностей ДНК различных живых организмов совершило переворот в эволюционной биологии: многие виды, которые раньше считались родственными, сейчас, благодаря генетическим исследованиям переехали на новые «полки» в зоопарке живой природы.
- · У тебя в ДНК хранятся следы неандертальцев (если ты европеец или азиат, то примерно на 2–3%). Твои клетки помнят, как твои далёкие предки скрещивались с другим видом людей 50 000 лет назад. Как тебе такие родственники?
- · С развитием генетических исследований селекционеры получили новый мощный инструмент для создания новых сортов растений и пород животных. Генетически модифицированные продукты прочно заняли места на полках супермаркетов и стали частью нашей жизни.
Вместо заключения: мы научились читать, но не научились писать
Мы уже умеем: читать ДНК, находить в ней гены и мутации, сравнивать геномы разных людей, животных, бактерий.
Мы только начинаем уметь писать код жизни (технология CRISPR). Ты мог слышать про «генетические ножницы» — это как Ctrl+X и Ctrl+V для ДНК. Учёные уже лечат этим тяжёлые генетические болезни, выращивают устойчивый к засухе рис и даже редактируют геномы комаров, чтобы они не переносили малярию.
Но вопрос, который пока без ответа:
Если ДНК — это программный код, то кто был программистом? Слепая эволюция? Случайные мутации? Или всё-таки есть какой-то «замысел»?
И второй вопрос — уже к тебе:
Хотели бы вы, чтобы врачи прочитали ваш полный геном при рождении? Это помогло бы лечить болезни. Но что, если бы страховые компании или работодатели тоже получили к нему доступ?
Подумай об этом, когда в следующий раз будешь листать ленту или сидеть за компьютером. Внутри тебя — текст длиной 3 миллиарда символов, и ты только начал его понимать.
Словарь для самых любопытных.
Кодон – три буквы алфавита ДНК, одна молекулярная команда.
Секвенирование – процесс чтения ДНК
Геном – весь наследственный материал организма, все 3 млрд букв.
Мутация – ошибка в ДНК, генетический баг.
CRISPR –технология редактирования ДНК, «молекулярные ножницы».
Что почитать по теме.
«ДНК: код жизни» — Карла Хэфнер
«Генетический детектив. От исследования рибосомы к Нобелевской премии» — Венки Рамакришнан
«Расплетая ДНК» — Элина Стоянова, Надежда Потапова
«Генетический код. От теории эволюции до расшифровки ДНК» — Айзек Азимов
Что посмотреть по теме
«Генетические ножницы» (2018) — документальный фильм
«Генетика и геномика» — лекция Николая Янковского
«Объясняшки» по биоинформатике — ВШЭ