Источник: Технический университет Дрездена.
Краткое содержание: С появлением GROVER — новой языковой модели, обученной на человеческой ДНК, исследователи получили возможность расшифровать сложную информацию, хранящуюся в нашем геноме.
GROVER рассматривает человеческую ДНК как текст и анализирует её структуру и контекст, чтобы выявить функциональную информацию о последовательностях ДНК.
ПОЛНАЯ ИСТОРИЯ
ДНК содержит основополагающую информацию, необходимую для поддержания жизни. Понимание того, как эта информация хранится и организована, было одной из величайших научных задач прошлого века. С GROVER, новой большой языковой моделью, обученной на человеческой ДНК, исследователи теперь могут попытаться расшифровать сложную информацию, скрытую в нашем геноме. Разработанная командой из Биотехнологического центра (BIOTEC) Дрезденского технического университета, GROVER рассматривает человеческую ДНК как текст, изучая ее правила и контекст, чтобы извлекать функциональную информацию о последовательностях ДНК. Этот новый инструмент, опубликованный в Nature Machine Intelligence , имеет потенциал для преобразования геномики и ускорения персонализированной медицины.
С момента открытия двойной спирали ученые пытались понять информацию, закодированную в ДНК. 70 лет спустя стало ясно, что информация, скрытая в ДНК, многослойна. Только 1-2 % генома состоит из генов, последовательностей, кодирующих белки.
«У ДНК есть много функций, помимо кодирования белков. Некоторые последовательности регулируют гены, другие служат структурным целям, большинство последовательностей выполняют несколько функций одновременно. В настоящее время мы не понимаем смысла большей части ДНК. Когда дело доходит до понимания некодирующих областей ДНК, кажется, что мы только начали царапать поверхность. Именно здесь могут помочь ИИ и большие языковые модели», — говорит доктор Анна Пётч, руководитель исследовательской группы в BIOTEC.
ДНК как язык
Большие языковые модели, такие как GPT, изменили наше понимание языка. Обученные исключительно на тексте, большие языковые модели развили способность использовать язык во многих контекстах.
«ДНК — это код жизни. Почему бы не относиться к нему как к языку?» — говорит доктор Поэтч. Команда Поэтча обучила большую языковую модель на эталонном геноме человека. Полученный инструмент под названием GROVER или «Правила генома, полученные с помощью извлеченных представлений» можно использовать для извлечения биологического смысла из ДНК.
«GROVER изучил правила ДНК. С точки зрения языка мы говорим о грамматике, синтаксисе и семантике. Для ДНК это означает изучение правил, управляющих последовательностями, порядка нуклеотидов и последовательностей, а также значения последовательностей. Подобно моделям GPT, изучающим человеческие языки, GROVER по сути научился «говорить» на ДНК», — объясняет доктор Мелисса Санабрия, исследователь, стоящий за проектом.
Команда показала, что GROVER может не только точно предсказывать следующие последовательности ДНК, но и может использоваться для извлечения контекстной информации, которая имеет биологическое значение, например, для идентификации промоутеров генов или участков связывания белков на ДНК. GROVER также изучает процессы, которые обычно считаются «эпигенетическими», т. е. регуляторные процессы, которые происходят поверх ДНК, а не кодируются.
«Удивительно, что, обучая GROVER только с помощью последовательности ДНК, без каких-либо аннотаций функций, мы фактически способны извлекать информацию о биологической функции. Для нас это показывает, что функция, включая некоторую эпигенетическую информацию, также закодирована в последовательности», — говорит доктор Санабрия.
Словарь ДНК
«ДНК напоминает язык. Она состоит из четырех букв, которые строят последовательности, а последовательности несут смысл. Однако, в отличие от языка, ДНК не имеет определенных слов», — говорит доктор Поэтч. ДНК состоит из четырех букв (A, T, G и C) и генов, но не существует предопределенных последовательностей разной длины, которые объединяются для построения генов или других значимых последовательностей.
Чтобы обучить GROVER, команде пришлось сначала создать словарь ДНК. Они использовали трюк из алгоритмов сжатия. «Этот шаг имеет решающее значение и отличает нашу модель языка ДНК от предыдущих попыток», — говорит доктор Поэтч.
«Мы проанализировали весь геном и искали комбинации букв, которые встречаются чаще всего. Мы начали с двух букв и снова и снова проходили по ДНК, чтобы выстроить ее до наиболее распространенных многобуквенных комбинаций. Таким образом, примерно за 600 циклов мы разбили ДНК на «слова», которые позволяют GROVER лучше всего справляться с предсказанием следующей последовательности», — объясняет доктор Санабрия.
Перспективы ИИ в геномике
GROVER обещает раскрыть различные слои генетического кода. ДНК содержит ключевую информацию о том, что делает нас людьми, о наших предрасположенностях к болезням и о наших реакциях на лечение.
«Мы считаем, что понимание правил ДНК через языковую модель поможет нам раскрыть глубины биологического смысла, скрытого в ДНК, что будет способствовать развитию как геномики, так и персонализированной медицины», — говорит доктор Поэтч.