Исследователи Массачусетского технологического института используют искусственный интеллект для создания новых белков, которые выходят за рамки тех, что встречаются в природе.
Они разработали алгоритмы машинного обучения, которые могут генерировать белки с определенными структурными особенностями, которые могут быть использованы для создания материалов с определенными механическими свойствами, такими как жесткость или эластичность. Такие биологические материалы потенциально могут заменить материалы, изготовленные из нефти или керамики, но с гораздо меньшим углеродным следом.
Исследователи из MIT, MIT-IBM Watson AI Lab и Университета Тафтса использовали генеративную модель, которая представляет собой тот же тип архитектуры модели машинного обучения, который используется в системах искусственного интеллекта, таких как DALL-E 2. Но вместо того, чтобы использовать ее для генерации реалистичных изображений на основе подсказок на естественном языке, как это делает DALL-E 2, они адаптировали архитектуру модели, чтобы она могла предсказывать аминокислотные последовательности белков для достижения конкретных структурных целей.
В статье, опубликованной сегодня в журнале Chem, исследователи демонстрируют, как эти модели могут генерировать реалистичные, но новые белки. По словам старшего автора Маркуса Бюлера, профессора инженерных наук Джерри МакАфи, профессора гражданского и экологического строительства и машиностроения, модели, изучающие биохимические взаимосвязи, контролирующие формирование белков, позволяют создавать новые белки, которые могут найти уникальное применение.
Например, этот инструмент может быть использован для разработки пищевых покрытий на основе белков, которые могут дольше сохранять свежесть продуктов и быть безопасными для человека. Кроме того, модели могут генерировать миллионы белков за несколько дней, быстро предоставляя ученым портфель новых идей для изучения, добавляет он.
"Когда вы думаете о создании белков, которые природа еще не открыла, это такое огромное пространство для проектирования, что вы не можете просто разобраться в нем с помощью карандаша и бумаги. Вы должны понять язык жизни, то, как аминокислоты кодируются в ДНК, а затем соединяются вместе, образуя белковые структуры. До появления глубокого обучения мы не могли этого сделать", - говорит Бюлер, который также является членом лаборатории искусственного интеллекта MIT-IBM Watson.
Вместе с Бюлером над статьей работали ведущий автор Бо Ни, постдок в лаборатории Бюлера по атомистической и молекулярной механике, и Дэвид Каплан, профессор инженерного факультета семьи Стерн и профессор биоинженерии в Тафтсе.
Адаптация новых инструментов для решения задачи
Белки состоят из цепочек аминокислот, сложенных вместе в трехмерную структуру. Последовательность аминокислот определяет механические свойства белка. Хотя ученые выявили тысячи белков, созданных в ходе эволюции, по их оценкам, огромное количество последовательностей аминокислот остается неизученным.
Чтобы упростить процесс открытия белков, исследователи недавно разработали модели глубокого обучения, которые могут предсказывать 3D-структуру белка по набору последовательностей аминокислот. Однако обратная задача - предсказание последовательности аминокислотных структур, отвечающих проектным целям, - оказалась еще более сложной.
Новое достижение в области машинного обучения позволило Бюлеру и его коллегам решить эту сложную задачу: модели диффузии на основе внимания.
Модели на основе внимания могут изучать очень дальние связи, что имеет ключевое значение для разработки белков, поскольку одна мутация в длинной последовательности аминокислот может изменить или разрушить весь дизайн, говорит Бюлер. Диффузионная модель учится генерировать новые данные с помощью процесса, который включает в себя добавление шума к обучающим данным, а затем учится восстанавливать данные, удаляя шум. Они часто более эффективны, чем другие модели, в генерировании высококачественных, реалистичных данных, которые могут быть обусловлены набором целевых задач для удовлетворения проектных требований.
Исследователи использовали эту архитектуру для построения двух моделей машинного обучения, которые могут предсказывать множество новых аминокислотных последовательностей, образующих белки, отвечающие целевым задачам структурного дизайна.
"В биомедицинской промышленности вам, возможно, не нужен белок, который полностью неизвестен, потому что тогда вы не знаете его свойств. Но в некоторых областях применения вам может понадобиться совершенно новый белок, который похож на тот, что встречается в природе, но делает что-то другое. С помощью этих моделей мы можем генерировать спектр, которым мы управляем, настраивая определенные ручки", - говорит Бюлер.
Общие схемы складывания аминокислот, известные как вторичные структуры, создают различные механические свойства. Например, белки с альфа-спиральной структурой дают растяжимые материалы, а белки с бета-листовой структурой - жесткие материалы. Сочетание альфа-спиралей и бета-листов позволяет создавать материалы, которые являются растяжимыми и прочными, как шелк.
Исследователи разработали две модели, одна из которых оперирует общими структурными свойствами белка, а другая - на уровне аминокислот. Обе модели работают путем объединения этих аминокислотных структур для создания белков. В модели, которая оперирует общими структурными свойствами, пользователь вводит желаемый процент различных структур (например, 40 процентов альфа-спирали и 60 процентов бета-листа). Затем модель генерирует последовательности, которые
Система искусственного интеллекта может генерировать новые белки,отвечающие целям структурного дизайна
21 апреля 202321 апр 2023
7
4 мин
1