Найти в Дзене
ИОНХ РАН

Создана крупнейшая база данных растворимости органических соединений в неводных растворителях BigSolDB 2.0

Ученые из Института общей и неорганической химии им. Н.С. Курнакова РАН, Национального исследовательского университета «Высшая школа экономики», Московского государственного университета им. М.В. Ломоносова и Венского университета представили самую крупную базу данных растворимости органических соединений в неводных растворителях «BigSolDB 2.0» на более чем 100 тысяч экспериментальных значений для создания моделей машинного обучения и разработали для нее онлайн-приложение. Представленная база данных перспективна для прогнозирования растворимости химических веществ с помощью алгоритмов, основанных на данных, и может позволить создать рационально спроектированный, эффективный и экономичный инструмент для разработки материалов и химических составов нового поколения. Результаты работы опубликованы в журнале Scientific Data.

Растворимость является одним из ключевых свойств органических соединений, определяющих их применение в химии, материаловедении и фармацевтике. Однако, предсказание значений растворимости в любом растворителе, кроме воды, остается сложной задачей в современной хемоинформатике, не в последнюю очередь из-за отсутствия больших и разнообразных наборов данных. Для решения этой задачи целесообразно использовать методы машинного обучения, которые позволяют предсказывать свойства химических соединений без необходимости в экспериментальных образцах. Это делает процесс оценки, например, растворимости, значительно быстрее и дешевле. Кроме того, использование большой и качественной базы данных улучшает точность прогнозов и повышает надёжность полученных результатов, открывая возможности для масштабного скрининга новых соединений.

Химики представили большую базу данных растворимости органических соединений в неводных растворителях BigSolDB 2.0 для разработки моделей машинного обучения. Работу прокомментировал один из авторов статьи, младший научный сотрудник Лаборатории кристаллохимии и Центра цвета ИОНХ РАН Лев Краснов: «Мы проанализировали 1595 рецензируемых научных статьи и извлекли из них 103 944 экспериментальных данных о значениях растворимости для 1448 органических соединений в 213 различных растворителях, в температурном диапазоне от 243 до 425 K. Особое внимание было уделено качеству данных - мы проводили тщательную проверку и стандартизацию всех записей, устранение дубликатов и валидацию источников.

Все молекулярные структуры растворенных веществ и растворителей были стандартизированы и представлены в машиночитаемом формате SMILES, что позволяет проводить прямолинейный анализ с помощью методов машинного обучения. Данные были преобразованы в единицы LogS, что обычно желательно для приложений машинного обучения.

Мы также разработали онлайн-приложение для интерактивной визуализации и поиска в наборе данных, который позволяет легко находить значения растворимости как по химической структуре, так и по тривиальному названию соединения».

Общая схема создания BigSolDB 2.0.
Общая схема создания BigSolDB 2.0.

По словам авторов, созданная база данных решает критическую проблему недостатка комплексных наборов данных для растворимости органических веществ, которая ранее ограничивала развитие методов машинного обучения в этой области. Большинство предыдущих исследований были сосредоточены только на водной растворимости, тогда как BigSolDB 2.0 охватывает широкий спектр органических растворителей.

В представленной базе данных среди наиболее распространенных растворителей выделяются низкомолекулярные спирты, вода, этилацетат, ацетон и ацетонитрил. Это особенно важно для разработки многих химических и технологических процессов, где точное знание растворимости критично для выбора растворителей в синтезе, разработки лекарственных препаратов и создания эффективных методов экстракции и кристаллизации.

Исследование выполнено при поддержке Министерства науки и высшего образования Российской Федерации в рамках государственного задания ИОНХ РАН.

Источник: Lev Krasnov, Dmitry Malikov, Marina Kiseleva, Sergei Tatarin, Sergey Sosnin, and Stanislav Bezzubov; BigSolDB 2.0, dataset of solubility values for organic compounds in different solvents at various temperatures. Scientific Data, 12, 1236, 2025, 10.1038/s41597-025-05559-8. https://doi.org/10.1038/s41597-025-05559-8

Онлайн приложение: https://bigsoldb.streamlit.app/

Доступ к базе данных: https://doi.org/10.5281/zenodo.15094979

Пресс-релиз подготовлен ИОНХ РАН для проекта «Виртуальный музей химии: продолжение осмотра» при грантовой поддержке Минобрнауки России в рамках федерального проекта «Популяризация науки и технологий». Проект выполняется в рамках Десятилетия науки и технологий.