Найти в Дзене
Николай Лазарев

Проект применения графовых нейронных сетей в материаловедении

Здравствуйте друзья! Продолжаю развивать компетенции прогнозирования свойств материалов. На текущий момент одним из наиболее перспективных направлений в этой области является применение графовых нейронных сетей. Этот проект основан на материалах курса «Machine Learning for Materials Design» Международного технологического университета Skoltech. Данный курс я осваивал под руководством наставника Кирилла Сиднова. Решил развивать данное направление в виде проекта на GitHub https://github.com/NikLaz25/GNN_for_materials_1/tree/main , постепенно добавляя новые модели и расширяя перечень задач. Основная цель проекта — ускорить процесс поиска и разработки новых материалов, предоставляя инструменты для предсказания их свойств на основе атомной структуры. Суть данной технологии довольно изящна. Кристаллические структуры материалов кодируются в виде графов, где узлы — атомы, а рёбра — химические связи. Модель обучается предсказывать физико-химические свойства (например, энергию образования) на ос
Оглавление

Здравствуйте друзья!

Продолжаю развивать компетенции прогнозирования свойств материалов. На текущий момент одним из наиболее перспективных направлений в этой области является применение графовых нейронных сетей.

Этот проект основан на материалах курса «Machine Learning for Materials Design» Международного технологического университета Skoltech. Данный курс я осваивал под руководством наставника Кирилла Сиднова.

В целом о проекте

Решил развивать данное направление в виде проекта на GitHub https://github.com/NikLaz25/GNN_for_materials_1/tree/main , постепенно добавляя новые модели и расширяя перечень задач.

Основная цель проекта — ускорить процесс поиска и разработки новых материалов, предоставляя инструменты для предсказания их свойств на основе атомной структуры.

Суть данной технологии довольно изящна. Кристаллические структуры материалов кодируются в виде графов, где узлы — атомы, а рёбра — химические связи. Модель обучается предсказывать физико-химические свойства (например, энергию образования) на основе этих графов, заменяя дорогостоящие DFT-расчёты. Результаты проекта показывают, что модель достигает R² до 0.85 на тесте (для простых структур), при MAE ~0.2–0.3 эВ/атом.

Хочу поделиться, что получил приглашение на участие в летней школе Сколтеха по машинному обучению. В рамках данного мероприятия планирую продолжить развитие данного проекта, применив экспертизу лучших преподавателей в направлении ML. Вы можете посмотреть слайды презентации, а также моё выступление по теме проекта на английском языке.

ИИ-ассистент

Также для продвижения проекта создан ИИ-ассистент, который объяснит цели нюансы и особенности проекта потенциальным пользователям, заказчикам, исследователям и ответит на Ваши вопросы. Конечно, на данном этапе он может быть слегка креативным, но мы продолжим его обучение :)

Вы можете найти нашего ассистента в телеграмм по username @Graph_NN_Materials_Science_bot

Или по QR-code

-2

Реализованные задачи

На данный момент в рамках проекта реализованы несколько задач:

Ноутбук 01_formation_energy_prediction.ipynb

На учебном датасете пространственной группы Fm-3m получен прогноз энергии образования. Применена модель PointTransformerGCN. Получены метрики качества модели. Test R² = 0.6184. Test MAE=0.38 эВ/атом.

Ноутбук 02_understanding_in_CGCNN.ipynb

По шагам разобрано применение модели CGCNN

При формировании датасета, для примера, выбраны соединения кремния (Si), максимум из 3х элементов и только кубическая сингония.

На данном этапе стояла задача разобраться в коде проекта из популярной научной статьи. Соответственно, взят из код с незначительными корректировками для его использования в отдельном файле jupyter notebook. Разобран по шагам алгоритм применения одной из самых лучших графовых моделей CGCNN. Получены результаты метрики качества модели: Test R² = 0.8519, MAE = 0.20 эВ/атом.

Ноутбук 04_02_easy_gnn_models.ipynb

Использован тот же датасет, по соединениям Si, кубическая сингония.

Задача построить наиболее полный граф и адаптировать модели под эту структуру.

С помощью Вороного подготовил наиболее полную структуру графов включая параметры связей.

Протестированы разные модели, с использованием разных составляющих графа. Удалось поэтапно получить новую модель CrystalGNN , которая, при использовании всей структуры графа, позволила достичь test R² = 0.80

Вывод по работе

На текущий момент общий вывод таков - сделаны только первые шаги:

  • Выбрано перспективное направление GNN.
  • Создан проект на GitHub, с целью его дальнейшего развития.
  • Cоздан LLM-ассистент проекта для консультации пользователей. Тема LLM в данном случае использована не только для соответствия тематике летней школы Skoltech Smails. Этот инструмент, хоть и является вспомогательным, имеет важную роль для реализации проекта. Он помогает пользователям получить быструю консультацию, как с помощью проекта реализовать клиентскую исследовательскую задачу.
  • Изучены несколько вариантов уже известных архитектур нейронных сетей применительно к тестовой задаче прогнозирования энергии образования.
  • Успешно применен метод Вороного для создания наиболее полной структуры графа с параметрами связей.

Перспективы

В будущем, в проекте планируется расширение новыми моделями графовых нейронных сетей, добавление мультитаргетных предсказаний, и реализация с помощью данных моделей широкого спектра реальных задач НИР и ОКР.

В перспективе, будет разработано специализированное программное обеспечение, проведена интеграция с облачными сервисами для удалённого доступа, а возможно и с роботизированным лабораторным оборудованием. Всё это делает проект мощным инструментом для научных изысканий и промышленных R&D, значительно сокращающим время и стоимость разработки новых материалов.

Общий вывод по сравнению GNN-моделей и классических ML-подходов в материаловедении

На основе анализа трёх различных архитектур (PointTransformerGCN, CGCNN и CrystalGNN), можно выделить ключевые особенности графовых нейросетей по сравнению с классическими методами машинного обучения (ML).

Объединённые преимущества GNN-моделей

-3

Общие недостатки GNN-моделей по сравнению с классическим ML

-4

GNN-модели — это мощный и универсальный инструмент, особенно актуальный для задач, где важно учитывать геометрию, симметрию и физику кристаллов. Они превосходят классические ML-подходы в предсказании свойств материалов, когда доступны структурные данные. Однако, классический ML остаётся актуальным для задач со слабо структурированными данными, малым объёмом информации и требованием высокой интерпретируемости.

Используем GNN, когда есть точная геометрия, CIF-файлы, требуется физически осмысленный прогноз.

Используем ML, когда нужно быстро, интерпретируемо, и данные уже есть в виде таблиц признаков.

Благодарности

Хочу выразить огромную благодарность Кириллу Сиднову за предоставленные материалы и ценнейшие консультации, которые легли в основу данного проекта.