Найти в Дзене
SkyNet | Новости ИИ

InstaDeep представляет Nucleotide Transformer v3 (NTv3): новая базовая модель в области мультивидовой геномики

Nucleotide Transformer v3 (NTv3) — это новая базовая модель в области мультивидовой геномики от компании InstaDeep. Она предназначена для работы с контекстами длиной до 1 мегабазы (Мб) с разрешением в один нуклеотид. Требования к геномным предсказаниям и дизайну Современные геномные предсказания и дизайн требуют моделей, которые связывают локальные мотивы с регуляторным контекстом масштаба мегабазы и работают с множеством организмов. NTv3 объединяет обучение представлению, прогнозирование функциональных треков и аннотаций генома, а также управляемую генерацию последовательностей в единой архитектуре, работающей с контекстами длиной 1 Мб с разрешением в один нуклеотид. Предыдущие модели Nucleotide Transformer Предыдущие модели Nucleotide Transformer показали, что самоконтролируемый предварительный тренинг на тысячах геномов даёт сильные признаки для прогнозирования молекулярных фенотипов. Оригинальная серия включала модели от 50 млн до 2,5 млрд параметров, обученные на 3 200 геномах

InstaDeep представляет Nucleotide Transformer v3 (NTv3): новая базовая модель в области мультивидовой геномики

Nucleotide Transformer v3 (NTv3) — это новая базовая модель в области мультивидовой геномики от компании InstaDeep. Она предназначена для работы с контекстами длиной до 1 мегабазы (Мб) с разрешением в один нуклеотид.

Требования к геномным предсказаниям и дизайну

Современные геномные предсказания и дизайн требуют моделей, которые связывают локальные мотивы с регуляторным контекстом масштаба мегабазы и работают с множеством организмов. NTv3 объединяет обучение представлению, прогнозирование функциональных треков и аннотаций генома, а также управляемую генерацию последовательностей в единой архитектуре, работающей с контекстами длиной 1 Мб с разрешением в один нуклеотид.

Предыдущие модели Nucleotide Transformer

Предыдущие модели Nucleotide Transformer показали, что самоконтролируемый предварительный тренинг на тысячах геномов даёт сильные признаки для прогнозирования молекулярных фенотипов. Оригинальная серия включала модели от 50 млн до 2,5 млрд параметров, обученные на 3 200 геномах человека и 850 дополнительных геномах различных видов. NTv3 сохраняет эту идею предварительного обучения только последовательностям, но расширяет её до более длинных контекстов и добавляет явный функциональный контроль и генеративный режим.

Архитектура для 1 Мб геномных окон

NTv3 использует архитектуру в стиле U-Net, которая нацелена на очень длинные геномные окна. Конволюционная башня понижающей дискретизации сжимает входную последовательность, стек трансформеров моделирует долгосрочные зависимости в этом сжатом пространстве, а башня деконволюции восстанавливает разрешение базового уровня для прогнозирования и генерации.

Данные для обучения

Модель NTv3 предварительно обучена на 9 триллионах пар оснований из ресурса OpenGenome2 с использованием маскированного языкового моделирования с базовым разрешением. После этого этапа модель дообучается с совместной целью, которая объединяет продолжение самоконтролируемого обучения с контролируемым обучением примерно на 16 000 функциональных треков и аннотационных меток из 24 видов животных и растений.

Производительность и бенчмарк NTv3

После дообучения NTv3 достигает современной точности прогнозирования функциональных треков и аннотаций генома среди видов. Она превосходит сильные модели последовательности к функции и предыдущие базовые модели геномики на существующих общедоступных бенчмарках и на новом бенчмарке NTv3, который определён как контролируемый набор инструментов для тонкой настройки с входными окнами стандартизированного размера 32 кб и выходами с базовым разрешением.

От прогнозирования до управляемой генерации последовательностей

Помимо прогнозирования, NTv3 можно настроить как управляемую генеративную модель с помощью маскированного диффузионного языкового моделирования. В этом режиме модель получает сигналы, которые кодируют желаемые уровни активности энхансеров и селективность промоторов, и заполняет замаскированные участки в последовательности ДНК таким образом, чтобы это соответствовало этим условиям....

Читать далее