Добавить в корзинуПозвонить
Найти в Дзене
Синяя Чайка

Жесткий диск из молекул: как человечество учится хранить данные в ДНК

Представьте: все, что когда-либо было написано человечеством, — каждая книга, каждый фильм, каждое письмо, каждая фотография, все серверы всех дата-центров планеты — умещается в пространстве размером с несколько игральных кубиков. Это не фантастика. Именно это обещает ДНК-хранилище данных. И в октябре 2024 года ученые сделали большой шаг в этом направлении. Мир генерирует данные с головокружительной скоростью. Каждый день — миллиарды фотографий, сообщений, транзакций, медицинских снимков, телеметрических данных со спутников. К 2024 году ежегодный объём создаваемых данных достигнет примерно 125 зеттабайт. Один зеттабайт — это миллиард терабайт. Физически хранить все это становится проблематично. Дата-центры уже сегодня занимают площади, сопоставимые с несколькими футбольными полями, и стоят около миллиарда долларов каждый. Жесткие диски выходят из строя за несколько лет. Магнитные ленты — за десятилетия. Даже самые надежные носители не рассчитаны на хранение дольше века. А природа уже д
Оглавление

Представьте: все, что когда-либо было написано человечеством, — каждая книга, каждый фильм, каждое письмо, каждая фотография, все серверы всех дата-центров планеты — умещается в пространстве размером с несколько игральных кубиков.

Это не фантастика. Именно это обещает ДНК-хранилище данных. И в октябре 2024 года ученые сделали большой шаг в этом направлении.

Почему вообще возникла эта идея

Мир генерирует данные с головокружительной скоростью. Каждый день — миллиарды фотографий, сообщений, транзакций, медицинских снимков, телеметрических данных со спутников. К 2024 году ежегодный объём создаваемых данных достигнет примерно 125 зеттабайт. Один зеттабайт — это миллиард терабайт.

Физически хранить все это становится проблематично. Дата-центры уже сегодня занимают площади, сопоставимые с несколькими футбольными полями, и стоят около миллиарда долларов каждый. Жесткие диски выходят из строя за несколько лет. Магнитные ленты — за десятилетия. Даже самые надежные носители не рассчитаны на хранение дольше века.

А природа уже давно решила эту задачу. Называется решение — ДНК.

Дата-центр
Дата-центр

Четыре буквы вместо двух

Обычные компьютеры хранят информацию в двоичном коде — нулях и единицах. Каждый бит — это либо «включено», либо «выключено».

ДНК работает иначе. В её основе — четыре азотистых основания: аденин (A), тимин (T), гуанин (G) и цитозин (C). Это алфавит из четырёх букв. Учёные научились переводить двоичный код в последовательности этих букв и обратно — это и есть запись данных в ДНК.

Преимущество колоссальное: один грамм ДНК способен хранить до 215 петабайт данных — это эквивалент 10 миллионов часов видео в высоком разрешении. Для сравнения: лучшие современные жёсткие диски хранят около 20 терабайт на устройство. Разница — в десять миллионов раз.

Теоретически, всё цифровое содержимое человечества поместится примерно в 81 килограмм ДНК.

-2

Ещё один плюс: ДНК не устаревает

У обычных носителей есть ещё одна проблема, о которой редко говорят: форматы устаревают. Попробуйте прочитать дискету 1990-х. Или найдите устройство для воспроизведения Betamax.

ДНК лишена этой проблемы. При температуре −18°C последовательности ДНК могут сохраняться до миллиона лет. И пока существует жизнь — будут существовать инструменты для её прочтения. Биология никуда не денется.

Именно поэтому ДНК-хранилище особенно привлекательно для архивного хранения: юридические документы, культурное наследие, медицинские данные — всё то, что должно пережить века.

Как это работает на практике: Microsoft и буква «H»

В лаборатории всё выглядит примерно так. Данные переводятся в последовательность нуклеотидов — A, T, G, C. Затем специальные машины синтезируют соответствующие молекулы ДНК. Чтобы прочитать данные обратно, используется секвенирование — процедура, которая определяет порядок букв в цепи.

Microsoft и Вашингтонский университет продемонстрировали первую полностью автоматизированную систему хранения и извлечения данных в синтетической ДНК. В простом тесте команда успешно закодировала слово «hello» в фрагментах ДНК и восстановила его в виде цифровых данных.

Звучит скромно — одно слово. Но это первый раз, когда весь цикл — запись, хранение, чтение — прошёл без участия человека, от начала до конца.

«Наша конечная цель — создать систему, которая для конечного пользователя выглядит как обычный облачный сервис хранения данных: биты отправляются в дата-центр и появляются, когда нужны клиенту», — говорит главный исследователь Microsoft Карин Штраусс.

лаборатория Microsoft Research
лаборатория Microsoft Research

Прорыв 2024 года: молекулярный печатный станок

До недавнего времени главная проблема ДНК-хранилища была такой: чтобы записать новые данные, нужно синтезировать новые цепочки ДНК. Это долго и дорого — примерно как переписывать книгу от руки каждый раз, когда хочешь её сохранить.

В октябре 2024 года группа учёных из Пекинского университета, Университета Аризоны и Университета Штутгарта опубликовала в журнале Nature принципиально другой подход.

Вместо синтеза новых цепочек исследователи используют заранее изготовленные «кирпичики» ДНК, которые собираются на универсальном шаблоне — как подвижные литеры в печатном станке Гутенберга. Информация записывается не в саму последовательность ДНК, а в эпигенетические метки — химические модификации, которые добавляются к молекуле ферментом.

Авторы назвали эти метки «эпи-битами» — epi-bits.

Используя набор из 700 различных сегментов ДНК в качестве строительных блоков, исследователи закодировали около 270 000 битов данных со скоростью 350 битов за реакцию.

Самое неожиданное: в эксперименте участвовали 60 добровольцев без профессионального опыта работы в биолаборатории — и все они успешно записали свои данные в ДНК, используя специальные наборы.

Концепция «молекулярного печатного станка» — ДНК-кирпичики собираются на шаблоне. Официальный арт из публикации Arizona State University
Концепция «молекулярного печатного станка» — ДНК-кирпичики собираются на шаблоне. Официальный арт из публикации Arizona State University

Почему это ещё не в магазинах

Если всё так хорошо — почему ДНК-диски не продаются в магазинах электроники?

Проблема одна, но серьёзная: цена. Сегодня кодирование и декодирование обходятся в тысячи долларов за мегабайт — это делает технологию коммерчески недоступной для массового использования.

Для сравнения: обычный SSD стоит около $0.05 за гигабайт. ДНК-запись того же гигабайта — несколько миллионов долларов.

Но цена стремительно падает — так же, как в своё время падала стоимость секвенирования генома. В 2003 году расшифровка одного человеческого генома стоила 3 миллиарда долларов. Сегодня — около 200 долларов. Такая же динамика ожидается и в отношении хранилищ ДНК.

Американское агентство IARPA поставило перед собой цель: к 2025 году снизить стоимость хранения до 1 доллара за гигабайт в системе объемом 1 терабайт для корпоративного архивного хранения.

Что дальше

ДНК-хранилище — это не завтрашний и даже не послезавтрашний день. Для широкого применения этой технологии потребуется 10–20 лет. Но первые коммерческие решения уже на подходе.

В мае 2025 года три института Фраунгофера разработали микрочип для крупномасштабного хранения данных в синтетической ДНК.

ДНК-хранилище движется в том же направлении, что и вся технология хранения данных: к уменьшению размеров, удешевлению и повышению надежности. Только на этот раз решение предложила не Кремниевая долина, а сама эволюция — три с половиной миллиарда лет назад.