Исследователи из Института иммунотерапии рака Блумберга-Киммеля при онкологическом центре Джонса Хопкинса разработали DeepTCR, программный пакет, который использует алгоритмы глубокого обучения для анализа данных секвенирования Т-клеточных рецепторов (TCR). Рецепторы Т-клеток находятся на поверхности иммунных Т-клеток. Эти рецепторы связываются с определенными антигенами или белками, обнаруженными на аномальных клетках, таких как раковые клетки и клетки, инфицированные вирусами или бактериями, и направляют Т-клетки для атаки и уничтожения пораженных клеток.
«DeepTCR - это программное обеспечение с открытым исходным кодом, которое можно использовать для ответов на вопросы в области исследований инфекционных заболеваний, иммунологии рака и аутоиммунных заболеваний; в любой области, где иммунная система срабатывает через Т-клеточные рецепторы», - сказал ведущий автор исследования Джон-Уильям Сидхом, доктор медицинских наук студент Медицинской школы Университета Джона Хопкинса и факультета биомедицинской инженерии, работающий в Институте иммунотерапии рака.
Исследование было опубликовано 11 марта в Nature Communications.
На разработку этого программного обеспечения Сидхом вдохновился в 2017 году после посещения презентации об использовании глубокого обучения в медицинских науках на встрече Американской ассоциации исследований рака. «Я проводил исследования по секвенированию Т-клеточных рецепторов, и меня поразило, что это была правильная технология для наилучшего анализа данных секвенирования Т-клеток», - говорит он.
Глубокое обучение - это форма искусственного интеллекта, которая довольно точно имитирует работу человеческого мозга с точки зрения распознавания образов. «Глубокое обучение - это очень гибкий и мощный способ распознавания образов любого типа данных. В этой работе мы используем глубокое обучение для выявления закономерностей в данных секвенирования рецепторов Т-клеток», - говорит Сидхом, добавляя, что его ПО исследует рецепторы Т-клеток способом, аналогичным поиску в Интернете. "Когда кто-то ищет в Интернете изображения кошек или собак, поисковая машина не включает поиск изображений с подписью, которая помечала бы изображение как кошку или собаку, а скорее применяет алгоритм, который исследует особенности изображений и распознает шаблоны, которые идентифицируют изображения как кошку или собаку. Это и есть глубокое обучение".
DeepTCR - это комплексная структура глубокого обучения, которая включает в себя как неконтролируемые, так и контролируемые модели глубокого обучения, которые можно применять на уровнях последовательностей и выборок. Сидхом говорит, что неконтролируемые подходы позволяют исследователям анализировать свои данные в исследовательской манере, где может не быть известных иммунных воздействий, а контролируемые подходы позволят исследователям использовать известные воздействия для улучшения изучения моделей. В результате, по его словам, DeepTCR позволит исследователям изучить функцию иммунного ответа Т-клеток в фундаментальных и клинических науках путем выявления паттернов в рецепторах, которые обеспечивают функцию Т-лимфоцитов по распознаванию и уничтожению патологических клеток.
Одна из основных проблем анализа данных секвенирования TCR - отличить значимые данные секвенирования от несущественных данных, и DeepTCR помогает выполнить этот анализ. «В чьем-то иммунном репертуаре много последовательностей. Есть много патогенов, которыми можно заразиться, поэтому иммунный ответ очень широкий. В результате в иммунном ответе возникает масса шума, и в определенное время для определенной инфекции важны только его части», - объясняет Сидхом. «У меня может быть Т-клеточная реакция на тысячу различных вирусов, но когда я заражаюсь гриппом, для борьбы с ним мне нужно использовать только небольшую часть этих Т-клеток. Главное, что может сделать алгоритм, - это выделить и сопоставить правильные Т-клетки для конкретных ответов".
Программный пакет, который использует тип архитектуры глубокого обучения, называемый сверточной нейронной сетью, предоставляет пользователям возможность находить шаблоны секвенирования Т-клеток, которые имеют отношение к конкретному воздействию, например, инфекции гриппа, рака или аутоиммунного заболевания.
«При представлении большого количества данных наши алгоритмы могут изучить закономерности в этих шаблонах последовательностей TCR. Например, мы можем не знать правил реакции организма на грипп, но при наличии достаточного количества данных наше программное обеспечение может изучить эти правила, а затем научить нас тому, что они из себя представляют, - говорит Сидхом. «Он очень хорошо подходит для выявления сложных паттернов в очень, очень большом иммунном репертуаре при идентификации взаимодействий между рецептором Т-клеток и его антигеном».