Междисциплинарный подход часто позволяет достигнуть невероятных успехов в изучении того или иного явления. Без участия математиков давно не обходится ни одно серьезное открытие в области генетики.
Сегодня отмечают свой праздник не только любители розыгрышей, 1 апреля – это день математика. В этот день мы хотим рассказать вам о роли математики в современной генетике. Мы привыкли к словосочетаниям «ученые сравнили», «ученые проанализировали», «ученые создали модель», «ученые выявили» в новостях о достижениях в области генетики и геномных исследований. При этом далеко не все осознают, что за подобными выражениями скрывается реализация сложнейших вычислительных алгоритмов, разработка которых невозможна без высокого уровня математической подготовки. Более того, многие современные открытия сначала совершаются виртуально, и лишь потом проверяются экспериментально. Для этого используются различные методы машинного обучения, например, нейронные сети, генетические алгоритмы, бустинг и другие. Предсказательная способность моделей может поражать воображение, в чем можно убедиться на примере работы, опубликованной недавно в Nature.
Кодирующие последовательности ДНК составляют всего 1% всего нашего генома. Остальная часть является некодирующей, но именно в ней располагаются все регуляторные последовательности, которые управляют включением и выключением активности генов. Если в некодирующих областях генома возникают мутации, возможен сбой в контроле экспрессии генов. Иногда такие нарушения могут быть связаны с повышенным риском таких заболеваний, как диабет 2-го типа, рак и многие другие.
Чтобы лучше понять последствия таких мутаций, ученые создали модель нейронной сети, которая способна предсказывать, как изменения в некодирующих последовательностях ДНК дрожжей влияют на экспрессию и приспособленность генов. Модель обучали на наборе экспериментальных данных, полученных путем анализа экспрессии всех генов (полного транскриптомного профиля) после вставки миллионов случайных некодирующих последовательностей ДНК в геном дрожжей. Готовая модель показала свою эффективность, как на дрожжах, так и в применении к другим эукариотам, в том числе млекопитающим. В результате использования модели исчезает необходимость проведения длительных и трудоемких экспериментов в лаборатории.
Помимо очевидного приложения разработанной модели в области дизайна регуляторных последовательностей дрожжевой ДНК для нужд пищевой промышленности и биотехнологии, с ее помощью можно идентифицировать патологические мутации в регуляторной ДНК человека, однако, для этого необходимо провести обучение нейронной сети на расширенном массиве данных.