Команда учёных из Carnegie Mellon, Университета Вроцлава (Польша), Университета Флориды и партнёров представила AQuaRef — метод, который впервые делает практичной «квантовую» доработку (quantum refinement) полноатомных моделей белков.
Работа сочетает мощную ML‑модель атомных потенциалов AIMNet2, продуманный набор обучающих данных и практичную интеграцию в процесс рутинной кристаллографической / крио‑ЭМ‑шлифовки, что позволяет приблизить результаты к результатам DFT при скорости, близкой к классическим силовым полям.
Исследование опубликовано в Nature Communications: AQuaRef.
Зачем нужна «квантовая» шлифовка
Точное атомное расположение — фундамент для понимания катализа, взаимодействий белок‑лиганд, механизмов распознавания и для дизайна лекарств. Экспериментальные методы (X‑ray, cryo‑EM) выдают карту плотности, но итоговая атомная модель нуждается в шлифовке: сохранить правдоподобную стереохимию и при этом как можно лучше согласоваться с экспериментальными данными.
Традиционные инструменты (Phenix/REFMAC5/AMBER/Rosetta/Servalcat) используют базы геометрических ограничений; они стабильно работают для ковалентной части, но плохо описывают тонкие нековалентные взаимодействия (короткие/низкопороговые H‑связи, π‑stacking и т. п.), особенно при низком разрешении.
Квантовая механика (DFT) даёт более корректное описание взаимодействий, но её применимость к целым белкам ограничена вычислительными затратами. AQuaRef решает эту проблему через машинно‑обученный атомный потенциал, приближающий DFT‑ответ с высокой скоростью.
Что такое AQuaRef (в двух словах)
- Основа: AIMNet2 — ML‑модель атомных потенциалов, перенастроенная и дообученная под задачу шлифовки белковых моделей.
- Цель обучения: воспроизводить DFT‑D4 (B97M‑D4/def2‑QZVP) энергию, атомные силы и частичные заряды (Hirshfeld).
- Инфраструктура: предварительная корректировка модели (дополнение атомов, проверка симметрии/суперклетки для кристаллов), затем оптимизация через пакет Q|R с AIMNet2‑потенциалом и дополнительными коротко‑диапазонными репульсивными членами (включая термин из GFN1‑XTB).
- Практическая цель: обеспечить близость к квантовым расчётам при вычислительной стоимости, сопоставимой с классическими силовыми полями.
Датасет и обучение: миллион примеров для пептидных потенциалов
Для обучения AQuaRef собрали большой набор (~1 млн) конфигураций малых пептидов и их комплексов, с учётом:
- химического разнообразия (20 стандартных аминокислот, различные протонировки, N/C‑терминальные модификации, дисульфидные/селеновые аналоги);
- всесторонней конформационной выборки (OpenEye Omega, плотное сканирование торсионов, без жёстких ограничений по стереохимии — D/L и смешанные);
- составных комплексов (2–4 сегмента) для моделирования межмолекулярных взаимодействий;
- ограничением общего числа атомов (включая H) ≤ 120 для обучающих фрагментов.
Активное обучение по схеме query‑by‑committee позволило отобрать «информативные» структуры и провести локальные DFT‑вычисления, что привело к подписанному набору ~1M примеров (среднее ≈42 атома на пример).
Быстрота и масштабируемость
AIMNet2 в рамках AQuaRef демонстрирует линейное O(N) масштабирование для вычисления энергии и сил. Авторы приводят пример: одномоментный расчёт (single‑point energy + forces) для системы с ≈100k атомами занимает ~0.5 s; на одной H100 80GB можно обработать системы до ~180k атомов. Это делает возможной практически применимую «квантовую» шлифовку для белков, большого уровня макромолекулярных комплексов и участков со многими атомами.
Оценка на реальных данных: 61 низкокачественная модель — AQuaRef лучше в 57 случаях
Для валидации использовали набор:
- 41 cryo‑EM модели (низкое разрешение),
- 20 low‑res X‑ray моделей,
все с соответствующими высококачественными референсами. Сравнивали три стратегии: стандартные геометрические ограничения, расширенные геометрические ограничения (включая H‑связи/вторичную структуру) и AIMNet2‑квантовые ограничения (AQuaRef).
Ключевые результаты:
- AQuaRef улучшает геометрические метрики (MolProbity, Ramachandran Z‑score) по сравнению с классическими ограничениями и при этом не ухудшает согласование с экспериментальными данными;
- для X‑ray моделей AQuaRef показал меньшую склонность к переобучению (меньшая разница Rwork‑Rfree);
- в ряде локусов AQuaRef и классический подход давали локальные различия до ~2 Å, при этом AQuaRef ближе к высокоразрешающему референсу;
- по 61 низкоразрешённой модели AQuaRef показал лучшее поведение в 57 случаях.
В сравнении с AMBER, Rosetta, REFMAC5 и Servalcat, AQuaRef демонстрирует сопоставимые или лучшие показатели по Rfree и геометрии; Rosetta сохраняет преимущество в некоторых метриках согласования, вероятно, из‑за своей нередуктивной оптимизационной стратегии.
Кейс: корректное определение позиций протонов (DJ‑1 и YajL)
Одно из наиболее впечатляющих достижений — автоматическое восстановление валидных позиций протонов в коротких и низкопороговых водородных связях:
- Для белка DJ‑1 AQuaRef локализовал протон в положении, согласующемся с экспериментальной картой и энергодисперсионными расчётами, тогда как стандартные ограничения «сдвигают» геометрию к некорректным (безпротонным) стандартам.
- Для YajL AQuaRef восстановил ситуацию с «shared proton» (низкопороговая H‑связь), где протон делится между двумя кислородами — результат совпадает с результатом безограничной (без жестких стереоограничений) шлифовки и с данными плотностной карты.
Это важно: протонное состояние часто критично для активности катализаторов и для понимания механизмов реакций.
AQuaRef — часть широкого тренда на сочетание ML‑потенциалов и квантовых данных для ускорения расчётов. Примеры смежных достижений:
- методы от группы Оксфорда, создающие NN‑потенциалы для фрагментов с RMS ошибок порядка 1 kcal/mol;
- квантовые алгоритмы (BF‑DCQO) и аппаратные квантовые ускорители, показывающие потенциальные ускорения в рядах для узких задач оптимизации.
Объединение ML‑потенциалов, активного отбора обучающих примеров и интеграции в рабочие конвейеры структурной биологии выглядит как практически плодотворное направление.
Хотите создать уникальный продукт? СМС – ваш надежный партнер в мире инноваций! Закажи разработки ИИ-решений, LLM-чат-ботов, моделей генерации изображений и автоматизации бизнес-процессов у профессионалов.
ИИ сегодня — ваше конкурентное преимущество завтра!
Тел. +7 (985) 982-70-55
E-mail sms_systems@inbox.ru
Сайт https://www.smssystems.ru/razrabotka-ai/