Введение. Современный врач вынужден становиться специалистом широкого профиля, сочетая глубокие медицинские знания с техническими компетенциями. Доступность геномных исследований за последние десятилетия резко возросла, однако, для полной их интеграции в медицинскую практику еще существует много препятствий. Учитывая лавинообразный рост новых знаний об ассоциациях геномных данных с болезнями человека, может возникнуть медицинская потребность их самостоятельного анализа для назначения дополнительных медико-генетических исследований, особенно, когда у пациента уже есть полученные ранее NGS-данные (например, экзома).
Цель. Разработать и предоставить детализированное руководство по проведению самостоятельного биоинформатического анализа NGS-данных пациента.
Материалы и методы. Исходными данными являются примеры файлов NGS-данных, предоставляемые пациенту после проведения медико-генетического исследования. Используются реализации как известных, так и самостоятельно разработанных программных алгоритмов выравнивания по референсному геному, обнаружения вариантов, их фильтрации по заданным критериям качества, генам (и их транскриптам) и оценки влияния на здоровье.
Результаты. Разработан общий алгоритм и программный биоинформационный конвейер обработки и анализа данных секвенирования с использованием команд интерфейса Linux, docker-контейнеров известных биоинформатических инструментов bwa, gatk, samtools, bcftools, программ R на основе пакетов проекта Bioconductor и собственных разработок. Этот алгоритм позволяет медицинскому специалисту самостоятельно получать и интерпретировать варианты генетических последовательностей из NGS-данных пациентов.
Выводы. Полученная с помощью этого конвейера информация может служить основой для дальнейших работ по диагностике наследственных заболеваний, персонализированной медицине и фармакогенетике. Использование предложенного алгоритма позволяет достичь поставленных целей и получить на персональных компьютерах варианты геномной последовательности (экзома) пациента, пригодные для последующего анализа и интерпретации. Предполагается, что компьютер врача сможет справиться с подобной задачей за разумное время, обеспечивая надежную и воспроизводимую обработку данных.
Введение
Современный врач вынужден становиться специалистом широкого профиля, сочетая глубокие медицинские знания с техническими компетенциями. Интеграция различных специальностей в медицине стремительно набирает обороты, и игнорировать этот тренд невозможно [1]. В любых концепциях современной медицины – персонализированная медицина [2], прецизионная (точная) медицина [3, 4], геномная медицина [5] – фундаментальную основу составляют геномные исследования, биоинформатика [6] и передовые инженерные технологии [7, 8].
Ранее врачи могли лишь наблюдать развитие болезни, теперь же новейшие технологии позволяют вмешиваться непосредственно в геном: проводить коррекции генных мутаций и эпигенетические модификации [9]. Например, в области оториноларингологии ранние симптомы потери слуха нередко являются маркерами серьезных генетических заболеваний, проявляющихся как сразу, так и позднее в зрелом возрасте [10]. Знание прогноза помогает предупреждать развитие болезни. Современные методы требуют развития новых подходов к лечению, направленных на устранение первопричин патологий, включая разработку целенаправленной этиологической и патогенетической терапии [2].
Доступность геномных исследований за последние десятилетия резко возросла благодаря развитию технологий Next Generation Sequencing (NGS) [11], однако на пути полной интеграции геномных исследований в повседневную клиническую работу до сих пор существуют препятствия [12]. К ним относятся все еще высокая стоимость процедур, сложность интерпретации генетических данных, недостаточный уровень знаний медиков в области биоинформатики, геномики [2] и понимания ими их практической ценности [13].
В российских университетах наблюдается постепенное включение элементов биоинформатики в учебные планы медицинских вузов. Некоторые медицинские академии, университеты вводят курсы, посвященные основам биоинформатики, молекулярной биологии, генной инженерии и цифровым технологиям. Однако такая практика пока носит скорее экспериментальный характер и не охватывает все учебные заведения. Во многих странах мира биоинформатика стала неотъемлемой частью современного медицинского образования [14–16]. По биоинформатике вводятся обязательные образовательные модули, начиная с бакалавриата и продолжая в магистратуре и докторантуре [17–19]. К примеру, в США многие американские медицинские школы предлагают специализированные курсы по биоинформатике и вычислительной биологии [20, 21]. Студенты имеют возможность изучать принципы анализа геномных данных, машинного обучения и статистического моделирования. Европейские университеты, такие как Оксфорд, Кембридж и Эдинбургский университет, давно ввели образовательные программы, включающие биоинформатику и вычислительные методы анализа данных [22]. Несмотря на осознание потребности и растущую важность биоинформатики в современной медицине, ее полноценное внедрение в образовательный процесс еще впереди [14, 23, 24].
Интерес врачей к геномным исследованиям возрастет, если они поймут, что знания в области биоинформатики и доступ к NGS-данным позволяют не только подтверждать выводы медицинских экспертов, но и самостоятельно проводить глубокие аналитические исследования для понятных практических задач, многократно используя один и тот же набор геномных данных пациента [25].
Подобные исследования доступны врачам любого уровня подготовки благодаря наличию открытых программных решений (bwa, samtools, gatk, R [26], Python и др.), позволяющих организовать биоинформатические конвейеры (сценарии) и проводить комплексный анализ на современном офисном компьютере. Эффективность работы с этими инструментами повышается благодаря современным технологиям контейнеризации [27], таким как Docker, облегчающим запуск готовых, предварительно настроенных образов программных продуктов и алгоритмов, устраняя необходимость сложной самостоятельной настройки программного обеспечения. Также способствует успеху наличие у врача навыков работы в операционных системах на базе Linux, получивших широкое распространение в медицинских учреждениях, образовательных центрах и исследовательских лабораториях. Однако вовсе не обязательно кардинально менять привычную рабочую среду (Windows или macOS) ради освоения Linux. Существует ряд технологий, позволяющих использовать преимущества Linux параллельно с существующими рабочими условиями: виртуализация, Docker-контейнеры, средства Windows для работы с Linux-программами, а также удаленная работа с мощными Linux-серверами.
Благодаря искусственному интеллекту и специализированным помощникам стало проще осваивать цифровые технологии, Linux и языки программирования [28], таким как российский чат-бот GigaChat, который способен подсказывать команды, разъяснять алгоритмы и помогать строить собственные программные конвейеры.
Основной целью настоящей работы является предоставление детализированного руководства по проведению биоинформатического анализа данных NGS-секвенирования пациента. Предполагается, что даже личный компьютер врача сможет справиться с подобной задачей за разумное время, обеспечивая надежную и воспроизводимую обработку данных. Для демонстрации процесса в статье приводится набор базовых команд интерфейса командной строки, доступных в разных операционных системах, поддерживающих Docker (Linux, macOS, Windows через WSL или Docker Desktop) и сценарии обработки и анализа данных на языке R [29–34].
Предлагаемые алгоритмы и их программные реализации могут использоваться врачами для образовательных целей, научных исследований и практической работы, в ситуациях дефицита или отсутствия доступа к услугам генетических лабораторий. Особенно, когда на руках у пациента уже есть полученные ранее NGS-данные (например, экзома). Это дает возможность своевременно назначать дополнительные диагностические мероприятия по лабораторной генетике у сертифицированных специалистов.
#генетикачеловека #вариантгеномнойпоследовательности #биоинформатика #биоинформатическиеинструменты #биоинформационныйконвейер #docker #bioconductor #экзом #секвенированныеngsданные #linux #biovarexplorer