Добавить в корзинуПозвонить
Найти в Дзене

Генетика и IT: неожиданное родство

Геном человека - это 3 миллиарда пар оснований. Если напечатать его на бумаге формата А4 мелким шрифтом, понадобится 60 000 страниц .Это как 60 тысяч отчётов из Мединской системы, сложенных в стопку. Раньше генетики читали эти страницы вручную. Искали мутации. Сравнивали с эталоном. Работа на годы, если не на десятилетия. Сегодня всё изменилось. Данные секвенирования (процесса прочтения ДНК) поступают в виде файлов. Гигабайты. Терабайты. И их нужно обработать, как любой другой Big Data. В Санкт-Петербургском НИИ уха, горла, носа и речи разработали алгоритм, который позволяет врачу самостоятельно обрабатывать NGS-данные (данные высокопроизводительного секвенирования) на обычном компьютере. Используются инструменты bwa, samtools, gatk, R, Python, Docker-контейнеры- всё как у нас в ИТ. Авторы прямо пишут: «Современный врач вынужден становиться специалистом широкого профиля, сочетая глубокие медицинские знания с техническими компетенциями» . И это не про будущее. Это про сегодня. Процесс п
Оглавление

Геном человека - это 3 миллиарда пар оснований. Если напечатать его на бумаге формата А4 мелким шрифтом, понадобится 60 000 страниц .Это как 60 тысяч отчётов из Мединской системы, сложенных в стопку.

Раньше генетики читали эти страницы вручную. Искали мутации. Сравнивали с эталоном. Работа на годы, если не на десятилетия.

Сегодня всё изменилось. Данные секвенирования (процесса прочтения ДНК) поступают в виде файлов. Гигабайты. Терабайты. И их нужно обработать, как любой другой Big Data.

Вот тут на сцену выходит IT.

В Санкт-Петербургском НИИ уха, горла, носа и речи разработали алгоритм, который позволяет врачу самостоятельно обрабатывать NGS-данные (данные высокопроизводительного секвенирования) на обычном компьютере. Используются инструменты bwa, samtools, gatk, R, Python, Docker-контейнеры- всё как у нас в ИТ.

Авторы прямо пишут: «Современный врач вынужден становиться специалистом широкого профиля, сочетая глубокие медицинские знания с техническими компетенциями» .

И это не про будущее. Это про сегодня.

Как генетики работают с данными

Процесс похож на то, что мы делаем с медицинскими отчётами, только сложнее.

Сначала - «сырые» данные с секвенатора. Это миллионы коротких фрагментов ДНК, которые нужно собрать в правильном порядке.

Потом - выравнивание по референсному геному. Как если бы мы сверяли заполненную карту пациента с эталонным образцом.

Потом - поиск вариантов. Где ДНК пациента отличается от эталона? Это мутации.

И наконец - интерпретация. Какие из этих тысяч отличий клинически значимы? Какие вызывают болезнь? А какие - просто безобидные особенности, вроде цвета глаз ?

В РНПЦ детской онкологии, гематологии и иммунологии (Беларусь) эту задачу автоматизировали с помощью биоинформатического алгоритма.

Раньше на интерпретацию данных уходили недели и месяцы. Сейчас- несколько часов .

Новые профессии: биоинформатик - кто это и зачем он нужен

Биоинформатика- это наука на стыке биологии, генетики и информационных технологий .

В Северо-Кавказском федеральном университете в рамках проекта «Цифровая кафедра» уже обучили более 200 будущих медиков и биологов по программе «Информационные технологии для анализа биологических и медицинских данных» .

Студенты получают дополнительную IT-квалификацию «Специалист по информационным системам».

Руководитель лаборатории Михаил Бабенко поясняет: «Объединив биологические науки и информационные технологии, мы можем готовить специалистов, способных эффективно работать с большими данными в медицинской сфере» .

Такие специалисты востребованы в научных институтах, медицинских центрах, фармакологических и биотехнологических компаниях .

Они не чисто врачи и не чисто программисты. Они - переводчики между двумя мирами.

Когда врач-генетик становится программистом

Павел Бобрик - младший научный сотрудник РНПЦ детской онкологии, гематологии и иммунологии.

По образованию он биолог. Но в процессе работы понял: без IT никуда. Установил Linux на ноутбук, освоил языки программирования, научился обрабатывать данные секвенирования.

Итог- он создал биоинформатический алгоритм, который сократил время диагностики с нескольких месяцев до нескольких часов .

В чём суть? Программа загружает сырые файлы, выбирает параметры фильтрации и выдаёт готовое заключение с клинически значимыми вариантами

Его разработка уже внедрена в практику, на неё есть инструкция Минздрава и 9 актов о внедрении.

А недавно Павел получил стипендию Президента Беларуси за свой вклад в науку.

Он не один такой.

В Новосибирском государственном университете разработали программу VarAn, которая помогает врачам находить в ДНК мутации, вызывающие наследственные и онкологические заболевания.

Программа собирает миллионы фрагментов ДНК, сравнивает с эталонным образцом и выдаёт готовый отчёт. Врачу не нужно быть программистом - достаточно загрузить данные через удобный сайт и нажать кнопку.

А в ИТМО создали облачную платформу GenomeAI, которая позволяет проводить весь цикл генетического анализа в одном интерфейсе - от загрузки данных до интерпретации результатов. Причём для работы нужны минимальные технические знания.

Что общего у нас с ними

Я работаю с медицинскими отчётами, базами данных, интеграциями. Генетики работают с геномами, вариантами мутаций, биоинформатическими конвейерами.

Но инструменты у нас одни и те же.

Python и R для анализа данных. SQL для запросов. Docker для контейнеризации. Linux для серверов. Git для версионности .

И главное - одинаковый образ мышления.

Увидеть хаос данных, найти в нём структуру, отсеять мусор, выделить главное, интерпретировать результат для того, кто будет принимать решение (врач или руководитель клиники).

Мой бывший коллега по цеху, биоинформатик Иван Молотков, работает сейчас в лаборатории в США. Он занимается статистической генетикой - разрабатывает методы анализа генетических данных, чтобы диагностировать редкие болезни, искать ассоциации между генами и мутациями.

Он говорит: «В генетике много больших данных, изучать которые можно только методами статистики и машинного обучения»

Замените «генетика» на «медицинская аналитика» и фраза не потеряет смысл.

Почему это важно для обычного пациента

Потому что без IT генетик не смог бы быстро и дёшево прочитать ваш геном.

А значит, не смог бы вовремя найти мутацию, которая вызывает рак. Не смог бы подобрать препарат, который подходит именно вашему метаболизму (это называется фармакогенетика). Не смог бы оценить риск наследственных заболеваний до того, как они проявились.

Искусственный интеллект уже помогает интерпретировать генетические тесты- выявлять значимые паттерны, классифицировать варианты генов как патогенные или нейтральные, предсказывать реакцию организма на лекарства .

В онкологии ИИ анализирует мутации BRCA1/BRCA2, чтобы определить риск рака молочной железы и подобрать терапию. В кардиологии - гены риска аритмий, чтобы дать индивидуальные рекомендации. В фармакогенетике - варианты генов метаболизма, чтобы подобрать дозировку препарата.

Всё это стало возможным только потому, что кто-то когда-то догадался скрестить медицину с информационными технологиями.

Резюме

Генетики сегодня - это те же аналитики, только с более сложными исходными данными.

Вместо Excel - геномы. Вместо отчётов - тысячи мутаций. Вместо KPI - клиническая значимость.

Но суть одна: взять хаос, навести порядок, выдать понятный результат.

Раньше генетик и IT-специалист были разными людьми, говорили на разных языках. Сегодня эти миры сливаются. Появляются биоинформатики - гибриды, которые умеют и читать ДНК, и писать код.

И это здорово. Потому что чем ближе IT к фундаментальной биологии, тем быстрее мы получим лекарство от генетических болезней. И тем быстрее каждый пациент сможет получить лечение, подобранное лично для него, под его уникальную ДНК.

А если вы хотите понять, как всё это связано с вашей клиникой, напишите мне.

#генетика #биоинформатика #медицина #аналитика #ИТвмедицине #геном #персонализированнаямедицина #данные #молекулярнаябиология #бигдата