Учёные из МИЭМ НИУ ВШЭ совместно с коллегами из Калифорнийского университета в Санта-Круз и Европейского института биоинформатики разработали программное обеспечение, с помощью которого можно моделировать пути распространения COVID-19 в условиях глобальной пандемии. Это симулятор вирусных генеалогий (VGsim — Viral Genealogy Simulator). Он отличается от существующих скоростью и возможностями масштабирования на сценарии, сопоставимые с размером населения Земли. О том, как работают симуляторы вирусных генеалогий, а также об особенностях исследований генома коронавируса IQ.HSE поговорил с заведующим Международной лабораторией статистической и вычислительной геномики НИУ ВШЭ Владимиром Щуром.
— Расскажите, пожалуйста, что представляет собой в целом симулятор вирусных генеалогий?
— Это программное обеспечение, предназначенное для научных методологических целей, а именно валидации методов анализа данных, связанных с генетической природой коронавируса.
— Для чего вы и ваши коллеги разработали такой симулятор?
— На данный момент в мире зарегистрировано около 180 миллионов случаев коронавируса, а количество геномов вируса SARS-CoV-2 в открытой базе данных GISAID превысило 2 миллиона. Это огромные и ценные для исследователей данные, в которых кроется очень много информации, например, об эволюции вируса. Поэтому сейчас интенсивно разрабатываются методы для анализа этих данных. Каждый такой метод необходимо проверять — насколько он чувствителен, например, к предположениям об однородности популяции (в реальном мире, очевидно, популяция неоднородна — например, есть разные страны или регионы внутри страны) или к случайным эффектам, которые всегда возникают в реальности.
Поскольку мы не можем повторить пандемию в лабораторных условиях, в нашей науке подобные проверки можно реализовать только при помощи компьютерного моделирования — различные сценарии просчитываются много раз, чтобы проверить устойчивость метода и его чувствительность к упрощениям, заложенным в математическую модель, по сравнению с реальным миром — всё как в физике.
По генетическим последовательностям вирусов можно детально проследить пути их распространения — построить их генеалогию, дерево заражений. Такие деревья содержат очень много информации, в частности, об эволюции патогенов, и эту информацию мы хотим из них извлекать. Однако сперва нам необходимо убедиться, что наш метод работает корректно. А для этого нужен симулятор, способный моделировать подобные гигантские деревья.
Мы столкнулись с тем, что нет ни одного метода компьютерного моделирования, который способен помогать выстраивать эти деревья с десятками миллионов образцов в условиях, когда пандемия идёт по всему миру и охватывает уже миллиарды человек. Причина в том, что ещё совсем недавно не было настолько масштабных данных ни по одной эпидемии, ни по одному патогену. И предыдущие симуляторы, соответственно, оказались неприменимыми для такой масштабной пандемии.
— То есть ваш симулятор отвечает реальным запросам и пандемической ситуации? Можете рассказать подробнее, чем он отличается от предшественников?
— Да, с помощью него можно моделировать пути распространения вируса в условиях глобальной пандемии. Все известные нам с коллегами симуляторы гораздо медленнее, чем наш, и к тому же «падают» — не способны отработать до конца — с ростом размера симуляции.
Мы сравнивали, например, его с другим симулятором, более или менее сопоставимым по функционалу. И этот симулятор выдает ошибку памяти при десяти миллионах образцов геномов в дереве. На нашем симуляторе мы моделировали 50 миллионов без проблем. Я думаю, что и на сотни миллионов он будет работать, но это займёт больше времени.
И, как я уже сказал, подобного софта не было, так как раньше нам не приходилось сталкиваться с такими объёмами данных. Разработанные нами метод и программное обеспечение полностью решают эти задачи: мы моделируем эволюцию вируса в условиях структурированной популяции носителей — людей, при этом часть этих виртуальных вирусов попадает в виртуальный экспериментальный датасет, и для этого датасета генерируется генеалогия — пути передач.
В результате мы способны получать деревья с десятками и даже сотнями миллионов образцов геномов при размере популяции равной населению земного шара. Затем с помощью софта, разработанного одним из наших соавторов из Кембриджа, на это дерево могут быть добавлены «нейтральные» (то есть не имеющие эволюционного значения) мутации. И, таким образом, в результате работы этих двух программ можно получить синтетические геномы вируса, связывающую их генеалогию и динамику эпидемии.
— Что положено в основу симулятора, и как он работает на практике?
— Мы использовали известную эпидемиологическую модель SIR, в которой население делится на три части в зависимости от статуса: восприимчивый к заболеванию, заражённый и выздоровевший. Эта модель существует уже более 100 лет, ей все доверяют. Далее мы её модифицировали, чтобы она учитывала разные типы иммунитета и структуру популяции — то есть наличие нескольких регионов или стран, между которыми протекает миграция.
В результате пользователь может задавать данные, касающиеся популяций. Это могут быть, например, страны или регионы. Для каждой страны, региона или популяции задается частота контактов, которая может отражаться, например, через плотность населения или какие-то культурные аспекты. Туда же можно отнести культуру ношения масок, поскольку это дополнительный барьер для контактов.
Также стоит отметить, что в классической SIR модели не моделируется миграция. И в данном случае, относительно более общепринятых моделей, мы тоже внесли изменения.
Миграция в классической популяционной геномике означает следующее: если появилась на свет какая-нибудь особь, например, зайчик в лесу, а потом он побежал в соседний лес и остался там жить, то там же у него осталось и потомство. Но такая модель не совсем характерна для реальности, касающейся коронавируса.
Миграция вируса очевидно происходит следующим образом: турист поехал за границу, в другой стране заразился, а потом вернулся. Или, наоборот, откуда-то приехал в командировку к нам заражённый человек, здесь пообщался и оставил нам нового заражённого.
Соответственно, этот момент нужно было, как минимум, математически переосмыслить, записать и также в симулятор вставить. А далее идёт уже глубокая оптимизация алгоритма, выбор события — кто кого заразит, в какой популяции, каким штаммом. К этому ещё добавляется задача — как быстро извлечь дерево, которое также нужно поместить в память компьютера и эффективно обновлять, дописывая новые вершины.
В целом сначала мы моделируем динамику распространения инфекции, а потом, имея эту динамику, идём из настоящего в прошлое и строим генеалогическое дерево. Это распространённый подход в геномике — смотреть на развитие не из прошлого в настоящее, а в обратном течении времени. С учётом сгенерированной динамики — мы строим дерево, связывающее виртуальные образцы, которые появились в этой виртуальной эпидемии.
Наша первостепенная задача — вытаскивать большие генеалогические деревья вирусов. При этом можно моделировать не один штамм, а учитывать возможность того, что произошла мутация или несколько мутаций и появился какой-нибудь супер штамм, который быстро начинает захватывать весь мир.
По этой генеалогии для условных виртуальных образцов, которые попали в виртуальную лабораторию, можно посмотреть — кто откуда был завезён, между какими популяциями он успешно распространился и тому подобное. С точки зрения учёного, который наблюдает результаты секвенирования, можно отследить историю распространения, динамику.
Стоит отметить, что, используя симулятор, можно проверить, насколько точны уже доступные методы построения этих генеалогических деревьев, поскольку в целом создание большого филогенетического дерева — сложная задача в связи с тем, что много допущений и эвристики используется.
— Разработанное программное обеспечение доступно для всех учёных?
— Да, подробно о нашем симуляторе можно прочесть в препринте на medRxiv и скачать код с GitHub. С одной стороны, мы создали симулятор для себя, но мы — не единственные, кто занимается масштабными задачами. Соответственно, решили что будет очень полезно разработать именно метод моделирования. Мы вложили в него достаточно много возможностей настройки, чтобы проверять разные модели — и структуру популяции и сложные эволюции вируса, когда разные варианты в генах могут между собой взаимодействовать нелинейно, и потери иммунитета. Можно, например, поставить условие, что началось вакцинирование, а потом через некоторое время иммунитет теряется. Все подобные модели можно тестировать с помощью нашего симулятора.
— Можно ли использовать симулятор в непосредственно практической плоскости, например, для профилактики распространения СOVID-19?
— Симулятор сделан строго для научных целей, для валидации методов. Это в своем роде инфраструктура, которая которая позволит дальше проводить и фундаментальные, и более прикладные исследования. Мы не претендуем ни на какую предсказательность моделей. Прогнозирование — важная вещь, но, как мы видим, все попытки прогнозирования ограничены. Например, модель даёт достаточно точный прогноз на определенном интервале времени, но затем меняются стратегии Роспотребнадзора или другого регулятора, и в результате вводятся новые локдауны, которые просто не заложены в модели и нужно уже пересчитывать по-другому. Не говоря о заразности новых штаммов.
Ещё раз повторюсь — наш симулятор предназначен для того, чтобы создавать и валидировать новые методы анализа данных, чем активно сейчас занимаются учёные во всем мире. А эти методы, в свою очередь, уже можно использовать в практической плоскости — обнаруживать, например, новые штаммы коронавируса, которые могут приводить к большей заразности. Допустим, британский штамм, который имеет сильный эффект, достаточно просто увидеть. А есть более тонкие эффекты с влиянием дополнительных факторов, исследование которых требует статистически более изощренных методов, имеющих высокую чувствительность.
— Как вы думаете, каковы перспективы использования созданного вами с коллегами симулятора?
— Во-первых, мы сами планируем использовать симулятор в сотрудничестве с коллегами из университета Санта-Круз и исследовательским институтом в Кембридже. Один из них является нашим соавторам, соответственно, тоже заинтересован использовать именно его. Это должно подтолкнуть обратить на него внимание и другие исследовательские группы. К примеру, один из симуляторов, который разработали пять лет назад в Оксфорде для моделирования генеалогий и геномов людей, за это время набрал уже 324 цитирования.
— Если немного отойти от непосредственной темы разговора — насколько далеко продвинулись сегодня исследования генетической природы коронавируса, на ваш взгляд? Какие есть сложности в этом направлении?
— Я бы тут воздержался от ответа, потому что в большей степени занимаюсь математическими задачами. Но, на мой взгляд, мы ещё пока в такой стадии, когда слишком много открытых вопросов. Даже, если некоторые ответы есть — консенсус ещё не достигнут. И пока научный скептицизм ведёт к тому, что мы не всегда полностью доверяем результатам исследований при их оценке.
— Сейчас много разговоров о новых штаммах коронавируса, в том числе индийском. Что на данный момент можно сказать о способности СOVID-19 к мутациям?
— Если сравнивать коронавирус, например, с вирусом гриппа, то он более устойчив к мутациям, то есть не настолько изменчив. Основная проблема не в том, что СOVID-19 сам по себе сильно изменчив, а в том, что им болеет очень большое количество людей. Мутация передается при копировании ДНК. Если болеет много людей — это означает, что происходит огромное количество копирований и среди этого огромного количества копирований неизбежно происходит больше ошибок. В результате абсолютное число мутаций больше и среди них многие могут быть нейтральными, а некоторые оказываются функциональными. Из-за этого появляются новые штаммы. Поэтому, чтобы уменьшить общее количество заражённых, так важны маски и вакцины. Тогда вероятность того, что будут появляться новые опасные штаммы, также снизится.
— Какой самый животрепещущий сейчас вопрос в поле исследований генома коронавируса?
— Интересно, как генетические варианты между собой взаимодействуют. Довольно долго — даже, когда уже в целом в мире болело много людей — не было ни британских, ни бразильских вариантов коронавируса. А потом они вдруг появились достаточно одномоментно. Это говорит о том, что мутации возможно появились в контексте неких взаимодействий. Нам интересны эти тонкие эффекты.
IQ
Авторы исследования:
Владимир Щур, заведующий Международной лабораторией статистической и вычислительной геномики НИУ ВШЭ
Вадим Спирин, стажер-исследователь Международной лаборатории статистической и вычислительной геномики НИУ ВШЭ
Виктор Покровский, стажер-исследователь Международной лаборатории статистической и вычислительной геномики НИУ ВШЭ
Евгений Буровский, доцент департамента прикладной математики МИЭМ НИУ ВШЭ
Никола Де Майо, Европейский институт биоинформатики (EMBL-EBI), Кембридж, Англия
Руссел Корбетт-Детиг, НИУ ВШЭ, Калифорнийский университет в Санта-Круз, США
Автор текста: Марина Селина