Глубокое обучение в сочетании с док-станцией лекарств и молекулярной динамикой позволяет идентифицировать маленькие молекулы, чтобы остановить вирус.
Ведется глобальная гонка по поиску вакцины, лекарственного средства или комбинации методов лечения, которые могут разрушить вирус SARS-CoV-2, который вызывает болезнь COVID-19, и предотвратить массовые смерти.
В то время как исследователи смогли быстро выявить несколько известных, одобренных Управлением по контролю за продуктами и лекарствами лекарств, которые могут быть многообещающими, в настоящее время предпринимаются и другие серьезные усилия для скрининга каждой возможной небольшой молекулы, которая может взаимодействовать с вирусом - и белков, которые контролируют его поведение - нарушить его деятельность.
Проблема в том, что таких молекул более миллиарда. Исследователь, возможно, хотел бы проверить каждый из них на наличие двух или около того белков в SARS-CoV-2, чтобы увидеть их влияние. Такой проект мог бы использовать каждую мокрую лабораторию в мире и все еще не был завершен в течение столетий.
Компьютерное моделирование - это общий подход, используемый академическими исследователями и фармацевтическими компаниями в качестве предварительного, фильтрующего шага в открытии лекарств. Однако в этом случае даже каждый суперкомпьютер на Земле не сможет протестировать эти миллиарды молекул за разумное время.
«Будет ли когда-нибудь возможно использовать всю вычислительную мощность, доступную для решения проблемы, и получить полезную информацию?» спрашивает Арвинда Раманатана , вычислительного биолога в Отделе науки о данных и обучения в Аргоннской национальной лаборатории Министерства энергетики США и старшего научного сотрудника Консорциума передовых наук и инженерии Чикагского университета (CASE).
В дополнение к более быстрой работе, вычислительным ученым приходится работать умнее.
Большие совместные усилия, предпринимаемые исследователями в Аргонне, сочетают искусственный интеллект с физическим док-станцией и моделированием молекулярной динамики, чтобы быстро отобрать наиболее перспективные молекулы для тестирования в лаборатории.
По словам Раманатана, это превращает проблему в проблему, связанную с данными или машинным обучением. «Мы пытаемся создать инфраструктуру для интеграции инструментов ИИ и машинного обучения с инструментами, основанными на физике. Мы соединяем эти два подхода, чтобы получить лучший результат ».
В проекте используются несколько самых мощных суперкомпьютеров на планете - суперкомпьютеры Frontera и Longhorn в Техасском центре передовых вычислений; Саммит в Ок-Риджской национальной лаборатории; Тета в Аргоннском вычислительном центре лидерства (ALCF); и Comet в суперкомпьютерном центре Сан-Диего - для запуска миллионов симуляций, обучения системе машинного обучения для выявления факторов, которые могут сделать данную молекулу хорошим кандидатом, а затем для дальнейшего изучения наиболее многообещающих результатов.
«TACC имеет решающее значение для нашей работы, особенно машины Frontera», - сказал Раманатан. «Мы занимались этим некоторое время, используя процессоры Frontera для максимальной скорости быстрого скрининга: взяв виртуальные молекулы и поместив их рядом с белком, чтобы увидеть, связывается ли он, а затем вывести из него, будут ли другие молекулы также делать это. то же."
Это не маленькая задача. За первую неделю команда проверила шесть миллионов молекул. В настоящее время они моделируют 300 000 лигандов в час на Frontera.
«Возможность выполнения большого количества вычислений очень хороша, потому что дает нам хиты, которые мы можем идентифицировать для дальнейшего анализа».
Хонинговать на цель
Команда начала с изучения одного из меньших из 24 белков, которые производит COVID-19, ADRP (аденозиндифосфат рибоза 1 ″ фосфатаза). Ученые не совсем понимают, какую функцию выполняет белок, но он участвует в репликации вируса.
Их метод глубокого изучения плюс физика позволяет им сократить 1 миллиард возможных молекул до 250 миллионов; 250 миллионов до 6 миллионов; и от 6 миллионов до нескольких тысяч. Из них они выбрали 30 или около того с наивысшей «оценкой» с точки зрения их способности сильно связываться с белком и нарушать структуру и динамику белка - конечная цель.
Недавно они поделились своими результатами с сотрудниками-экспериментаторами из Чикагского университета и Национальной лаборатории исследований рака им. Фредерика для тестирования в лаборатории и скоро опубликуют свои данные в отчете открытого доступа, чтобы тысячи групп могли проанализировать результаты и получить представление. Результаты лабораторных экспериментов послужат основой для моделей глубокого обучения, помогая точно прогнозировать будущие взаимодействия белков и лекарств.
С тех пор команда перешла к основной протеазе COVID-19, которая играет важную роль в трансляции вирусной РНК, и вскоре начнет работу над более крупными белками, которые сложнее вычислить, но могут оказаться важными. Например, команда готовится смоделировать полностью атомную модель Ромми Амаро, которая в настоящее время производится на Frontera.
В работе команды используется DeepDriveMD - основанное на глубоком обучении адаптивное молекулярное моделирование для сворачивания белков - передовой инструментарий, совместно разработанный командой Раманатана в Аргонне, вместе с командой Шантену Джа из Университета Рутгерса / Брукхейвенской национальной лаборатории (BNL), первоначально как часть вычислительный проект Exascale.
Раманатан и его сотрудники - не единственные исследователи, применяющие машины и глубокое обучение к проблеме обнаружения наркотиков COVID-19. Но, по словам Арвинда, их подход редок в той степени, в которой ИИ и симуляция тесно интегрированы и повторяются, а не просто используются после симуляции.
«Мы создали инструментарий для глубокого обучения в режиме онлайн, что позволяет ему пробовать все вместе», - сказал Раманатан. «Сначала мы обучаем его некоторым данным, а затем позволяем быстро выводить данные имитации. Затем, основываясь на новых снимках, которые он идентифицирует, подход автоматически решает, нужно ли пересматривать обучение ».
Система сначала устанавливает стабильность связывания потенциальных молекул довольно простым способом, затем добавляет все больше и больше сложных элементов, таких как вода, или выполняет более точный анализ энергетического профиля системы. «Информация добавляется в разных точках перехода, и на основании результатов может потребоваться пересмотр алгоритмов стыковки или машинного обучения».
Его сложные рабочие процессы тщательно организованы на нескольких суперкомпьютерах с использованием RADICAL-Cybertools , передовых инструментов выполнения рабочих нагрузок и планирования, разработанных специалистами по вычислительным технологиям из Rutgers / BNL.
« Рабочие процессы предъявляют сложные требования», - сказал Шантену Джа , председатель Центра обнаружения управляемых данными BNL и руководитель RADICAL. «Благодаря технической поддержке TACC мы смогли достичь желаемых уровней пропускной способности и масштабирования на Frontera и Longhorn в течение нескольких дней и запустить производственные циклы».
Применение оружия науки
У команды были некоторые преимущества в том, чтобы начать свои исследования с нуля.
Министерство энергетики США управляет одними из самых современных в мире лабораторий рентгеновской кристаллографии и сотрудничает со многими другими. Они смогли быстро извлечь трехмерные структуры многих белков COVID-19 - первый шаг в компьютерном моделировании, чтобы исследовать, как такие белки реагируют на молекулы, подобные наркотикам.
Они также активно работали над проектом с Национальным институтом рака по использованию рабочего процесса DeepDriveMD для выявления перспективных лекарств для борьбы с раком. Они быстро переключились на COVID-19 с инструментами и методами, которые уже были протестированы и оптимизированы.
Хотя ИИ часто считают черным ящиком, Раманатан говорит, что их методы не просто слепо генерируют список целей. DeepDriveMD определяет, какие общие аспекты белка делают его лучшим кандидатом, и сообщает исследователям эти идеи, чтобы помочь им понять, что на самом деле происходит в вирусе с лекарственными взаимодействиями и без них.
«Наши модели глубокого обучения могут оттачивать химические группы, которые, по нашему мнению, имеют решающее значение для взаимодействия», - сказал он. «Мы не знаем, правда ли это, но мы находим, что оценка стыковки выше, и считаем, что она отражает важные концепции. Это важно не только для того, что происходит с этим вирусом. Мы также пытаемся понять, как работают вирусы в целом ».
Как только в лаборатории обнаружится, что подобная лекарству малая молекула эффективна, необходимо пройти дополнительное тестирование (вычислительное и экспериментальное), чтобы перейти от многообещающей цели к излечению.
«Разработка вакцин занимает так много времени, потому что молекулы должны быть оптимизированы для функционирования. Они должны быть изучены, чтобы определить, что они не токсичны и не наносят другого вреда, а также что они могут быть произведены в масштабе », - сказал Раманатан.
Исследователи полагают, что все эти дальнейшие шаги могут быть ускорены путем использования гибридного подхода к искусственному и физическому моделированию.
По словам Рика Стивенса, младшего директора лаборатории Argonne по вычислительной технике, окружающей среде и наукам о жизни, TACC оказал огромную поддержку их усилиям.
«Быстрый отклик и участие, которые мы получили от TACC, существенно изменили нашу способность определять новые терапевтические возможности для лечения COVID-19», - сказал Стивенс. «Доступ к вычислительным ресурсам и опыту TACC позволил нам расширить сотрудничество в области исследований, применяя современные компьютерные технологии для решения одной из самых больших современных задач».
Проект дополняет усилия по эпидемиологическим и генетическим исследованиям, поддерживаемые TACC, что позволяет более 30 командам проводить исследования, которые иначе были бы невозможны в сроки, требуемые для этого кризиса.
«В такие глобальные времена, как это, важно не только использовать все наши ресурсы, но и делать это самым инновационным способом», - сказал исполнительный директор TACC Дэн Станционе. «Мы направили многие наши ресурсы на важные исследования в борьбе с COVID-19, но поддержка новых методологий искусственного интеллекта в этом проекте дает нам возможность использовать эти ресурсы еще более эффективно».
Источник: БНЛ