Разработка оптимальных структур в условиях ограничений является важной проблемой, охватывающей несколько областей естественных наук.
В частности, в химии разработка индивидуальных органических материалов и молекул требует эффективных методов исследования химического пространства.
Сам экспериментальный подход достаточно трудоемкий и дорогой.
Надежные вычислительные инструменты могут ускорить и направить экспериментальные усилия, чтобы быстрее находить новые материалы.
Обратное проектирование - это систематическое развитие структур с желаемыми свойствами.
В химии, задача обратного проектирования была решена как проблема оптимизации, в том числе в форме вариационных автоэнкодеров, генеративных состязательных сетей и генетических алгоритмов.
Вариационные автоэнкодеры и генеративные состязательные сети, или по-другому, нейронные сети, являются широко используемым методом для прямой генерации представлений молекулярных струн или графов.
Они кодируют дискретные представления в непрерывное (скрытое) пространство.
Молекулы, напоминающие известную структуру, могут быть найдены путем поиска в области кодированной точки.
Используя непрерывное скрытое представление, можно осуществлять поиск с помощью градиентов или байесовской оптимизации.
Тем не менее, генерация семантически и синтаксически действительных молекул - сложная задача.
Таким образом, было предложено несколько последующих работ для вариационных автоэнкодеров ( далее VAE) для обратного проектирования в химии.
Среди них, CVAE, GVAE и SD-VAE работают непосредственно над молекулярными представлениями струн.
Альтернативно, JT-VAE работает над молекулярными графами.
Во всех вышеперечисленных подходах генеративные модели обучают имитации эталонного набора данных, тем самым ограничивая разведочную способность VAE и GAN.
Мутация молекул с целью заселения последующих поколений является важным элементом генетического алгоритма.
A низкая степень мутации может привести к медленному освоению химического пространства, вызывая стагнацию поддерживающей функции.
Фундаментальная роль дискриминатора заключается в увеличении молекулярного разнообразия путем удаления долгоживущих молекул.
Рассмотрим реалистичный сценарий, в котором нейронная сеть обнаружила молекулу, близкую к оптимальной, где все мутации снижают приспособленность. В результате эта молекула выживает на протяжении нескольких поколений, занимая при этом большую часть населения. В такие периоды нейронные сети имеют ограниченное представление о химическом пространстве, поскольку оно неоднократно исследует мутации одной и той же молекулы с высокой физической подготовкой.
Простым решением было бы добавление линейного штрафа к поддерживающей функции, которая учитывает количество последовательных выживших поколений молекулы.
Однако этот метод присваивает независимые оценки подобным молекулам, которые снова приводят к меньшему разнообразию.
Решением может быть добавление адаптивной функции (в нашем случае дискриминатор на основе нейронной сети), что позволяет решить проблему стагнации. Кроме того, долгоживущие молекулы обучаются дольше и получают меньшие баллы, в результате чего снижается приспособленность - снижается вероятность длительных периодов застоя.
В литературе существует несколько примеров алгоритмов оптимизации молекул на основе генетических алгоритмов.
В каждом поколении приспособленность всех молекул оценивается как линейная комбинация
Хотя некоторые из этих примеров заранее определяют мутации на уровне SMILES, чтобы обеспечить действительность молекул, другие подходы используют основанную на фрагментах сборку молекул.
Детальный анализ данных, полученных с помощью изучения генетического алгоритма нейронными сетями, позволяет интерпретировать модель и изучать правила конструирования высокоэффективных молекул.
Молекулы генетического алгоритма превзошли все молекулы, созданные на основе генераторных моделей.
Сейчас для более дорогостоящих расчетов ученые планируют расширить подход к изучению, внедрив метод автоматизированного обучения нейронных сетей на лету, который откроет новые пути решение задач обратного проектирования в области химии, генетики и материаловедения.
В будущем данное обобщение покажет, что метод генетического алгоритма является общей концепцией новой генеративной модели.