Найти в Дзене
KolerskyAI

С помощью искусственного интеллекта исследователи предсказывают местоположение практически любого белка в клетке человека

Обученная совместному пониманию поведения белка и клетки модель может помочь в диагностике заболеваний и разработке новых лекарств.

Белок, расположенный в неправильной части клетки, может способствовать развитию ряда заболеваний, таких как болезнь Альцгеймера, муковисцидоз и рак. Но в одной клетке человека содержится около 70 000 различных белков и их вариантов, а поскольку ученые обычно могут протестировать только несколько в одном эксперименте, определение местоположения белков вручную является чрезвычайно дорогостоящим и отнимает много времени.

Новое поколение вычислительных методов направлено на оптимизацию процесса с использованием моделей машинного обучения, которые часто используют наборы данных, содержащие тысячи белков и их местоположения, измеренные в нескольких клеточных линиях. Одним из крупнейших таких наборов данных является Human Protein Atlas, в котором каталогизировано субклеточное поведение более 13 000 белков в более чем 40 клеточных линиях. Но каким бы огромным он ни был, Атлас белков человека изучил лишь около 0,25 процента всех возможных пар всех белков и клеточных линий в базе данных.

Теперь исследователи из Массачусетского технологического института, Гарвардского университета и Института Броуда Массачусетского технологического института и Гарварда разработали новый вычислительный подход, который может эффективно исследовать оставшееся неизведанным пространство. Их метод позволяет предсказать местоположение любого белка в любой линии клеток человека, даже если и белок, и клетка никогда ранее не тестировались.

Их метод идет на шаг дальше, чем многие методы, основанные на искусственном интеллекте, за счет локализации белка на уровне отдельной клетки, а не в виде усредненной оценки по всем клеткам определенного типа. Эта одноклеточная локализация может точно определить местоположение белка в конкретной раковой клетке, например, после лечения.

Исследователи объединили модель языка белков со специальным типом модели компьютерного зрения, чтобы получить подробные сведения о белке и клетке. В итоге пользователь получает изображение клетки с выделенной частью, указывающей на предсказание модели о том, где находится белок. Поскольку локализация белка указывает на его функциональное состояние, этот метод может помочь исследователям и клиницистам более эффективно диагностировать заболевания или определять мишени для лекарств, а также позволит биологам лучше понять, как сложные биологические процессы связаны с локализацией белка.

Вы могли бы проводить эти эксперименты по локализации белка на компьютере, не прикасаясь к лабораторному столу, и, надеюсь, сэкономили бы месяцы усилий. Хотя вам все равно нужно будет проверить предсказание, этот метод может действовать как первоначальный скрининг того, что нужно проверить экспериментально

К работе Tseo присоединились соавтор исследования Синьи Чжан, аспирант кафедры электротехники и компьютерных наук (EECS) и Центра Эрика и Венди Шмидт Института Броуда; Юнхао Бай из Института Броуда; и старшие авторы Фэй Чен, доцент Гарварда и член Института Броуда, и Кэролайн Улер, профессор инженерии Эндрю и Эрны Витерби в EECS и Институте данных, систем и общества Массачусетского технологического института (IDSS), которая также является директором Центра Эрика и Венди Шмидт и научным сотрудником Лаборатории информационных систем и принятия решений Массачусетского технологического института (LIDS). Исследование опубликовано сегодня в Nature Methods.

Модели сотрудничества

Картинка сгенерирована в KolerskyAI
Картинка сгенерирована в KolerskyAI

Многие существующие модели прогнозирования белка могут делать прогнозы только на основе данных о белках и клетках, на которых они были обучены, или не способны точно определить местоположение белка в отдельной клетке.

Чтобы преодолеть эти ограничения, исследователи создали двухкомпонентный метод прогнозирования субклеточного расположения невидимых белков, называемый PUPS.

В первой части используется модель последовательности белка, чтобы отразить свойства белка, определяющие локализацию, и его трехмерную структуру, основанную на цепи аминокислот, которая его образует.

Вторая часть включает в себя модель рисования изображения, которая предназначена для заполнения недостающих частей изображения. Эта модель компьютерного зрения рассматривает три окрашенных изображения клетки, чтобы собрать информацию о состоянии этой клетки, такую как ее тип, индивидуальные особенности и находится ли она в состоянии стресса.

PUPS объединяет представления, созданные каждой моделью, чтобы предсказать, где находится белок в отдельной клетке, используя декодер изображений для вывода выделенного изображения, показывающего прогнозируемое местоположение.

Разные клетки в клеточной линии обладают разными характеристиками, и наша модель способна понять этот нюанс

Пользователь вводит последовательность аминокислот, образующих белок, и три изображения окраски клеток — одно для ядра, одно для микротрубочек и одно для эндоплазматического ретикулума. Затем PUPS делает все остальное.

Более глубокое понимание

В процессе обучения исследователи применили несколько приемов, чтобы научить ЩЕНКОВ комбинировать информацию из каждой модели таким образом, чтобы они могли сделать обоснованное предположение о местонахождении белка, даже если они раньше этого белка не видели.

Например, они поручают модели второстепенную задачу во время обучения: явно назвать область локализации, например ядро клетки. Это делается параллельно с основной задачей рисования, чтобы помочь модели обучаться более эффективно.

Хорошей аналогией может быть учитель, который просит своих учеников нарисовать все части цветка в дополнение к написанию их названий. Было обнаружено, что этот дополнительный шаг помогает модели улучшить общее представление о возможных клеточных компартментах.

Кроме того, тот факт, что PUPS обучается работе с белками и клеточными линиями одновременно, помогает ему развить более глубокое понимание того, где на изображении клетки обычно локализуются белки.

ЩЕНКИ могут даже самостоятельно понимать, как различные части последовательности белка вносят отдельный вклад в его общую локализацию.

Большинство других методов обычно требуют, чтобы вы сначала сделали анализ белка, так что вы уже видели его в своих тренировочных данных. Наш подход уникален тем, что он может распространяться на белки и клеточные линии одновременно

Поскольку PUP могут распространяться на невидимые белки, он может фиксировать изменения в локализации, обусловленные уникальными мутациями белка, которые не включены в Атлас белков человека.

Исследователи подтвердили, что щенки могут предсказывать субклеточное расположение новых белков в невидимых клеточных линиях, проведя лабораторные эксперименты и сравнив результаты. Кроме того, по сравнению с базовым методом искусственного интеллекта, щенки демонстрировали в среднем меньшую ошибку прогнозирования по тестируемым ими белкам.

В будущем исследователи хотят усовершенствовать PUPS, чтобы модель могла понимать межбелковые взаимодействия и делать прогнозы локализации нескольких белков в клетке. В долгосрочной перспективе они хотят дать ЩЕНКАМ возможность делать прогнозы с точки зрения живой ткани человека, а не культивируемых клеток.

Исследование MIT

Как ещё используются нейросети в мире?

Сейчас нейросети применимы почти во всех сферах бизнеса и жизни. Например, сейчас разрабатывается проект KolerskyMP, где селлеры маркетплейсов смогут создать инфографику для карточки товара полностью автоматически.