Здравствуйте друзья!
Продолжаю развивать компетенции прогнозирования свойств материалов. На текущий момент одним из наиболее перспективных направлений в этой области является применение графовых нейронных сетей.
Этот проект основан на материалах курса «Machine Learning for Materials Design» Международного технологического университета Skoltech. Данный курс я осваивал под руководством наставника Кирилла Сиднова.
В целом о проекте
Решил развивать данное направление в виде проекта на GitHub https://github.com/NikLaz25/GNN_for_materials_1/tree/main , постепенно добавляя новые модели и расширяя перечень задач.
Основная цель проекта — ускорить процесс поиска и разработки новых материалов, предоставляя инструменты для предсказания их свойств на основе атомной структуры.
Суть данной технологии довольно изящна. Кристаллические структуры материалов кодируются в виде графов, где узлы — атомы, а рёбра — химические связи. Модель обучается предсказывать физико-химические свойства (например, энергию образования) на основе этих графов, заменяя дорогостоящие DFT-расчёты. Результаты проекта показывают, что модель достигает R² до 0.85 на тесте (для простых структур), при MAE ~0.2–0.3 эВ/атом.
Хочу поделиться, что получил приглашение на участие в летней школе Сколтеха по машинному обучению. В рамках данного мероприятия планирую продолжить развитие данного проекта, применив экспертизу лучших преподавателей в направлении ML. Вы можете посмотреть слайды презентации, а также моё выступление по теме проекта на английском языке.
ИИ-ассистент
Также для продвижения проекта создан ИИ-ассистент, который объяснит цели нюансы и особенности проекта потенциальным пользователям, заказчикам, исследователям и ответит на Ваши вопросы. Конечно, на данном этапе он может быть слегка креативным, но мы продолжим его обучение :)
Вы можете найти нашего ассистента в телеграмм по username @Graph_NN_Materials_Science_bot
Или по QR-code
Реализованные задачи
На данный момент в рамках проекта реализованы несколько задач:
Ноутбук 01_formation_energy_prediction.ipynb
На учебном датасете пространственной группы Fm-3m получен прогноз энергии образования. Применена модель PointTransformerGCN. Получены метрики качества модели. Test R² = 0.6184. Test MAE=0.38 эВ/атом.
Ноутбук 02_understanding_in_CGCNN.ipynb
По шагам разобрано применение модели CGCNN
При формировании датасета, для примера, выбраны соединения кремния (Si), максимум из 3х элементов и только кубическая сингония.
На данном этапе стояла задача разобраться в коде проекта из популярной научной статьи. Соответственно, взят из код с незначительными корректировками для его использования в отдельном файле jupyter notebook. Разобран по шагам алгоритм применения одной из самых лучших графовых моделей CGCNN. Получены результаты метрики качества модели: Test R² = 0.8519, MAE = 0.20 эВ/атом.
Ноутбук 04_02_easy_gnn_models.ipynb
Использован тот же датасет, по соединениям Si, кубическая сингония.
Задача построить наиболее полный граф и адаптировать модели под эту структуру.
С помощью Вороного подготовил наиболее полную структуру графов включая параметры связей.
Протестированы разные модели, с использованием разных составляющих графа. Удалось поэтапно получить новую модель CrystalGNN , которая, при использовании всей структуры графа, позволила достичь test R² = 0.80
Вывод по работе
На текущий момент общий вывод таков - сделаны только первые шаги:
- Выбрано перспективное направление GNN.
- Создан проект на GitHub, с целью его дальнейшего развития.
- Cоздан LLM-ассистент проекта для консультации пользователей. Тема LLM в данном случае использована не только для соответствия тематике летней школы Skoltech Smails. Этот инструмент, хоть и является вспомогательным, имеет важную роль для реализации проекта. Он помогает пользователям получить быструю консультацию, как с помощью проекта реализовать клиентскую исследовательскую задачу.
- Изучены несколько вариантов уже известных архитектур нейронных сетей применительно к тестовой задаче прогнозирования энергии образования.
- Успешно применен метод Вороного для создания наиболее полной структуры графа с параметрами связей.
Перспективы
В будущем, в проекте планируется расширение новыми моделями графовых нейронных сетей, добавление мультитаргетных предсказаний, и реализация с помощью данных моделей широкого спектра реальных задач НИР и ОКР.
В перспективе, будет разработано специализированное программное обеспечение, проведена интеграция с облачными сервисами для удалённого доступа, а возможно и с роботизированным лабораторным оборудованием. Всё это делает проект мощным инструментом для научных изысканий и промышленных R&D, значительно сокращающим время и стоимость разработки новых материалов.
Общий вывод по сравнению GNN-моделей и классических ML-подходов в материаловедении
На основе анализа трёх различных архитектур (PointTransformerGCN, CGCNN и CrystalGNN), можно выделить ключевые особенности графовых нейросетей по сравнению с классическими методами машинного обучения (ML).
Объединённые преимущества GNN-моделей
Общие недостатки GNN-моделей по сравнению с классическим ML
GNN-модели — это мощный и универсальный инструмент, особенно актуальный для задач, где важно учитывать геометрию, симметрию и физику кристаллов. Они превосходят классические ML-подходы в предсказании свойств материалов, когда доступны структурные данные. Однако, классический ML остаётся актуальным для задач со слабо структурированными данными, малым объёмом информации и требованием высокой интерпретируемости.
Используем GNN, когда есть точная геометрия, CIF-файлы, требуется физически осмысленный прогноз.
Используем ML, когда нужно быстро, интерпретируемо, и данные уже есть в виде таблиц признаков.
Благодарности
Хочу выразить огромную благодарность Кириллу Сиднову за предоставленные материалы и ценнейшие консультации, которые легли в основу данного проекта.