31 подписчик

AI динамическая «квантовая» шлифовка белков

17 марта17 мар

5 мин

Команда учёных из Carnegie Mellon, Университета Вроцлава (Польша), Университета Флориды и партнёров представила AQuaRef — метод, который впервые делает практичной «квантовую» доработку (quantum refinement) полноатомных моделей белков. Работа сочетает мощную ML‑модель атомных потенциалов AIMNet2, продуманный набор обучающих данных и практичную интеграцию в процесс рутинной кристаллографической / крио‑ЭМ‑шлифовки, что позволяет приблизить результаты к результатам DFT при скорости, близкой к классическим силовым полям. Исследование опубликовано в Nature Communications: AQuaRef. Зачем нужна «квантовая» шлифовка Точное атомное расположение — фундамент для понимания катализа, взаимодействий белок‑лиганд, механизмов распознавания и для дизайна лекарств. Экспериментальные методы (X‑ray, cryo‑EM) выдают карту плотности, но итоговая атомная модель нуждается в шлифовке: сохранить правдоподобную стереохимию и при этом как можно лучше согласоваться с экспериментальными данными. Традиционные инструм

Работа сочетает мощную ML‑модель атомных потенциалов AIMNet2, продуманный набор обучающих данных и практичную интеграцию в процесс рутинной кристаллографической / крио‑ЭМ‑шлифовки, что позволяет приблизить результаты к результатам DFT при скорости, близкой к классическим силовым полям.

Исследование опубликовано в Nature Communications: AQuaRef.

Зачем нужна «квантовая» шлифовка

Точное атомное расположение — фундамент для понимания катализа, взаимодействий белок‑лиганд, механизмов распознавания и для дизайна лекарств. Экспериментальные методы (X‑ray, cryo‑EM) выдают карту плотности, но итоговая атомная модель нуждается в шлифовке: сохранить правдоподобную стереохимию и при этом как можно лучше согласоваться с экспериментальными данными.

Традиционные инструменты (Phenix/REFMAC5/AMBER/Rosetta/Servalcat) используют базы геометрических ограничений; они стабильно работают для ковалентной части, но плохо описывают тонкие нековалентные взаимодействия (короткие/низкопороговые H‑связи, π‑stacking и т. п.), особенно при низком разрешении.

Квантовая механика (DFT) даёт более корректное описание взаимодействий, но её применимость к целым белкам ограничена вычислительными затратами. AQuaRef решает эту проблему через машинно‑обученный атомный потенциал, приближающий DFT‑ответ с высокой скоростью.

Что такое AQuaRef (в двух словах)

Основа: AIMNet2 — ML‑модель атомных потенциалов, перенастроенная и дообученная под задачу шлифовки белковых моделей.
Цель обучения: воспроизводить DFT‑D4 (B97M‑D4/def2‑QZVP) энергию, атомные силы и частичные заряды (Hirshfeld).
Инфраструктура: предварительная корректировка модели (дополнение атомов, проверка симметрии/суперклетки для кристаллов), затем оптимизация через пакет Q|R с AIMNet2‑потенциалом и дополнительными коротко‑диапазонными репульсивными членами (включая термин из GFN1‑XTB).
Практическая цель: обеспечить близость к квантовым расчётам при вычислительной стоимости, сопоставимой с классическими силовыми полями.

Датасет и обучение: миллион примеров для пептидных потенциалов

Для обучения AQuaRef собрали большой набор (~1 млн) конфигураций малых пептидов и их комплексов, с учётом:

химического разнообразия (20 стандартных аминокислот, различные протонировки, N/C‑терминальные модификации, дисульфидные/селеновые аналоги);
всесторонней конформационной выборки (OpenEye Omega, плотное сканирование торсионов, без жёстких ограничений по стереохимии — D/L и смешанные);
составных комплексов (2–4 сегмента) для моделирования межмолекулярных взаимодействий;
ограничением общего числа атомов (включая H) ≤ 120 для обучающих фрагментов.
Активное обучение по схеме query‑by‑committee позволило отобрать «информативные» структуры и провести локальные DFT‑вычисления, что привело к подписанному набору ~1M примеров (среднее ≈42 атома на пример).

Быстрота и масштабируемость

AIMNet2 в рамках AQuaRef демонстрирует линейное O(N) масштабирование для вычисления энергии и сил. Авторы приводят пример: одномоментный расчёт (single‑point energy + forces) для системы с ≈100k атомами занимает ~0.5 s; на одной H100 80GB можно обработать системы до ~180k атомов. Это делает возможной практически применимую «квантовую» шлифовку для белков, большого уровня макромолекулярных комплексов и участков со многими атомами.

Оценка на реальных данных: 61 низкокачественная модель — AQuaRef лучше в 57 случаях

Для валидации использовали набор:

41 cryo‑EM модели (низкое разрешение),
20 low‑res X‑ray моделей,
все с соответствующими высококачественными референсами. Сравнивали три стратегии: стандартные геометрические ограничения, расширенные геометрические ограничения (включая H‑связи/вторичную структуру) и AIMNet2‑квантовые ограничения (AQuaRef).

Ключевые результаты:

AQuaRef улучшает геометрические метрики (MolProbity, Ramachandran Z‑score) по сравнению с классическими ограничениями и при этом не ухудшает согласование с экспериментальными данными;
для X‑ray моделей AQuaRef показал меньшую склонность к переобучению (меньшая разница Rwork‑Rfree);
в ряде локусов AQuaRef и классический подход давали локальные различия до ~2 Å, при этом AQuaRef ближе к высокоразрешающему референсу;
по 61 низкоразрешённой модели AQuaRef показал лучшее поведение в 57 случаях.

В сравнении с AMBER, Rosetta, REFMAC5 и Servalcat, AQuaRef демонстрирует сопоставимые или лучшие показатели по Rfree и геометрии; Rosetta сохраняет преимущество в некоторых метриках согласования, вероятно, из‑за своей нередуктивной оптимизационной стратегии.

Кейс: корректное определение позиций протонов (DJ‑1 и YajL)

Одно из наиболее впечатляющих достижений — автоматическое восстановление валидных позиций протонов в коротких и низкопороговых водородных связях:

Для белка DJ‑1 AQuaRef локализовал протон в положении, согласующемся с экспериментальной картой и энергодисперсионными расчётами, тогда как стандартные ограничения «сдвигают» геометрию к некорректным (безпротонным) стандартам.
Для YajL AQuaRef восстановил ситуацию с «shared proton» (низкопороговая H‑связь), где протон делится между двумя кислородами — результат совпадает с результатом безограничной (без жестких стереоограничений) шлифовки и с данными плотностной карты.
Это важно: протонное состояние часто критично для активности катализаторов и для понимания механизмов реакций.

AQuaRef — часть широкого тренда на сочетание ML‑потенциалов и квантовых данных для ускорения расчётов. Примеры смежных достижений:

методы от группы Оксфорда, создающие NN‑потенциалы для фрагментов с RMS ошибок порядка 1 kcal/mol;
квантовые алгоритмы (BF‑DCQO) и аппаратные квантовые ускорители, показывающие потенциальные ускорения в рядах для узких задач оптимизации.

Объединение ML‑потенциалов, активного отбора обучающих примеров и интеграции в рабочие конвейеры структурной биологии выглядит как практически плодотворное направление.

Хотите создать уникальный продукт? СМС – ваш надежный партнер в мире инноваций! Закажи разработки ИИ-решений, LLM-чат-ботов, моделей генерации изображений и автоматизации бизнес-процессов у профессионалов.

ИИ сегодня — ваше конкурентное преимущество завтра!

Тел. +7 (985) 982-70-55

E-mail sms_systems@inbox.ru

Сайт https://www.smssystems.ru/razrabotka-ai/