17,8 тыс подписчиков

ИИ ускорил чтение ДНК-архивов в тысячи раз

27 марта 202527 мар 2025

2 мин

Теперь мы сможем сохранить память о себе на миллионы лет… Израильские ученые из Техниона разработали ИИ-алгоритм, позволяющий в 3200 раз ускорить извлечение информации, хранящейся в молекулах ДНК. Более того, им удалось добиться значительного повышения точности этого процесса. Хранение информации в ДНК — одно из самых перспективных направлений в развитии систем цифровой памяти. Молекулы наследственного материала способны сохранять данные на протяжении сотен тысяч лет. Это подтверждается, к примеру, успешным извлечением генетического кода из останков древней лошади возрастом 700 тысяч лет и мамонтов, живших более миллиона лет назад. Для сравнения, современные магнитные накопители, используемые в центрах обработки данных, служат максимум несколько десятилетий. Достоинства ДНК как носителя цифровой информации не ограничиваются долговечностью. Современные дата-центры потребляют около 3% мировой электроэнергии и производят 2% общемировых выбросов углекислого газа. С учетом экспоненциального

Теперь мы сможем сохранить память о себе на миллионы лет…

Израильские ученые из Техниона разработали ИИ-алгоритм, позволяющий в 3200 раз ускорить извлечение информации, хранящейся в молекулах ДНК. Более того, им удалось добиться значительного повышения точности этого процесса.

Хранение информации в ДНК — одно из самых перспективных направлений в развитии систем цифровой памяти. Молекулы наследственного материала способны сохранять данные на протяжении сотен тысяч лет. Это подтверждается, к примеру, успешным извлечением генетического кода из останков древней лошади возрастом 700 тысяч лет и мамонтов, живших более миллиона лет назад. Для сравнения, современные магнитные накопители, используемые в центрах обработки данных, служат максимум несколько десятилетий.

Достоинства ДНК как носителя цифровой информации не ограничиваются долговечностью. Современные дата-центры потребляют около 3% мировой электроэнергии и производят 2% общемировых выбросов углекислого газа. С учетом экспоненциального роста объемов информации эта нагрузка на окружающую среду будет только возрастать. Применение биологических носителей позволит существенно снизить энергозатраты.

Особенно впечатляет плотность записи в молекулах ДНК — она в 100 миллионов раз превышает возможности традиционных цифровых носителей. В объеме, который сейчас вмещает один мегабайт, теоретически можно разместить до 100 терабайт с помощью биологических технологий.

В основе хранения лежит последовательность органических соединений — нуклеотидов четырех типов, обозначаемых буквами A, C, G и T. В отличие от компьютеров, использующих двоичный код из нулей и единиц, четырехбуквенный алфавит обеспечивает значительно большее количество возможных комбинаций.

Однако есть и препятствия. При записи данных происходит химический синтез ДНК, во время которого нуклеотиды не всегда точно встраиваются в заданной последовательности - одни могут выпадать из цепочки, другие встраиваться в лишних местах, а третьи заменяться на неправильные. Более того, каждая молекула-носитель воспроизводится в множестве неидентичных копий, которые хаотично перемешиваются в растворе. В результате при попытке прочитать информацию приходится иметь дело с набором неточных копий, часть из которых к тому же теряется в процессе биохимического анализа.

Итак, специалисты Техниона создали DNAformer — систему, способную восстанавливать исходные последовательности по множеству неточных копий. В основе метода лежит трансформерная нейросеть, обученная на виртуальных данных распознавать и исправлять типичные ошибки синтеза и секвенирования. Алгоритм дополнен специальным кодом коррекции, который особенно эффективно справляется с сильно искаженными фрагментами генетического текста.

Работоспособность технологии проверили на разнообразном наборе файлов объемом 3,1 мегабайта. В него вошли цветная фотография, историческая аудиозапись первых слов Нила Армстронга на поверхности Луны, научный текст о перспективах ДНК-хранилищ и блок зашифрованных данных для проверки универсальности метода.

Результаты превзошли все ожидания: DNAformer обрабатывает до 100 мегабайт информации в 3200 раз быстрее существующих методов такой же точности. А в сравнении с быстрыми, но менее надежными способами он показал на 40% меньше ошибок при значительно более высокой скорости работы.

Научная группа планирует создать специализированные версии разработки для различных задач. Архитектура системы позволяет легко наращивать ее возможности, поэтому метод сможет развиваться вместе с технологиями синтеза и считывания ДНК, обрабатывая все большие объемы данных.

Наука

7 млн интересуются