Найти тему
Наука везде

Что зашифровано в ДНК ?(G)

После открытия функционала ДНК ученые сразу задумались об её организации. Называли библиотекой , некоторые считали , что она связана с «живой» вычислительной машиной клетки. Речь шла о Вычислительной машине Последовательного типа. Но, решить эту проблему не получалось. В 2003 году после моей первой работы по происхождению Жизни, как-то автоматически встал вопрос о следующем шаге – вплотную приблизившись к ДНК. Ясно было, что эта странная машина если уж есть, то всё держит при себе. Память и процессирующие модули. Теперь вроде уже очевидно, что комбинаторика должна была быть инструментом такого аналитического исследования. То есть, очевидно, что весь секвенс ДНК – должен быть «оцифрован». Почему? обычные вычислительные машины имеют миниум две шины - по одной идут инструкции и адреса, по другой - данные. здесь "шина - одна. И именно "тип" слов -будет "ключом" к его смыслу. Что же там за цифры ? Это могут быть только наборы из последовательностей A , T , C , G . Ясно, что эти «слова» не должны допускать двузначности. Одни - адреса, другие - инструкции, третьи - данные. То есть комбинация – набор слов. При этом, их размер должен быть связан с размером генома (ДНК).

Но параллельно уже развивалась другая идея: Эволюция двойничной (А,Т) первичной Жизни в четверичную ( C , G , A ,Т ). Потому что теория утверждала, что Жизнь зародилась двойничной и под главные кандидаты в первую пару попали А и Т(U) (аденин и тимин(Урацил)). Ведь речь идет о РНК происхождении Жизни.

И первым решением было нахождение Главного Уравнения Жизни через эту модель: распада матрицы (А,Т).

Новая пара нуклеиновых оснований ( C , G ) нашла свое место в эволюции. Она появилась позже - как модификация "А" и сначала просто была "вписана" в "инструменты" для разделения информации (А и Т), это потом появится полноценный синтез этой пары (С и G) и появится механическая возможность (достаточность материала) для полноправного участия в шифровании ДНК. Ясно, что мы находимся далеко от этой удивительной эпохи – БИНАРНОЙ ЖИЗНИ . С другой стороны, мы можем наблюдать сложные эволюционные процессы:

1. Распад `AТ` платформ.

2. Замещение `AТ ` платформ - `CG` платформами.

3. Вырождение `AТ` - платформ.

4. Вырождение `CG` - платформ.

Распад матриц мы можем определить из следующих соображений:

Примем: Скорость распада мультиплета размера (N) - зависит от его связанности с геномом:

(1) dN / dt = F(N)

Где: N – размер мультиплета.

F(N) - функция зависящая от `N`- размера мультиплета и его `связанности` с геномом.

t - `нормализованное` время.

Скорость распада мультиплетов также (n) пропорциональна их количеству:

(2) dn(N) / dt = Kn * n(N)

Где: n(N) – количество мультиплетов с `N` – размерами

Kn – коэффициент.

Используя уравнения (5) и (6) получаем:

(3) dN = F(N) * dn/(( Kn )* n(N) )

Функция F(N) – зависит от степени участия мультиплетов в жизненно-важных кластерах: как `ключей`, `инициирующих последовательностей` и других знаков в `грамматике` генома. Можно ожидать три простейших случая:

(4) а) F(N) = KN * N - когда мультиплеты размера -`N` не связаны своим размером с функциями генома;

Где: KN – Коэффициент характеризующий связь мультиплетов `N` размера с геномом (связь слабая);

б) F(N) = KN – когда мультиплеты `N` размера связаны своими кодирующими свойствами с геномом;

в) F(N) = KN /N - когда мультиплеты размера `N` сильно связаны своим размером с функциями генома и их оптимальная для генома мутация пропорциональна их размеру;

Соответственно, получаем основные зависимости `N` от` n(N)`:

(5) для 4 а Ln ( Ni/Nk ) = K1 * Ln ( n(Ni) / n(Nk) )

(6) для 4 б Ni -Nk = K1 * Ln (n(Ni) / n(Nk) )

(7) для 4 в Ni^2 -Nk^2 = K1 * Ln (n(Ni) / n(Nk) )

Где: К1 = KN / Kn

Можно ожидать, что разные размеры и виды мультиплетов будут находиться в различной зависимости от генома и, соответственно, описываться различными уравнениями. Эти зависимости позволяют измерять `дискретное` значение скорости мутаций в отдельных участках кластеров геномов . Ясно, что эти значения носят вероятностный характер и требуют дополнительных подтверждений.

Из секвенсов ДНК разных организмов зависимость (6) является глобальной. Исследовались сотни геномов из разных Царств Живых организмов, все они показали приверженность к этой модели. Только сложность и размер генома усложняли эти зависимости на высоких значениях размеров «слов».

Так граф 1 - Ehctericia Coli O 157 H 7, В – Encephalitozoon cunculi (хромосома 4), С – Giardia lamblia (хром. 1). Везде ось У - Ln(n) , а ось Х - Ni.

Граф 1 Ehctericia  Coli  O 157 H 7, В – Encephalitozoon  cunculi  (хромосома 4), С – Giardia  lamblia (хром. 1).
Граф 1 Ehctericia Coli O 157 H 7, В – Encephalitozoon cunculi (хромосома 4), С – Giardia lamblia (хром. 1).

Более того, оказалось , что хромосомы являются тождественными отображениями генома. Это было поразительно и ,конечно, послужили главным и прецизионным доказательством истинности модели (пример граф 2 – Drosophila melanogaster (геном – 2 R ,2 L ,3 R ,3 L , X ,4)

Граф 2 Drosophila melanogaster ( геном – 2R,2L,3R,3L,X,4)

Граф 2  Drosophila melanogaster ( геном  – 2R,2L,3R,3L,X,4)
Граф 2 Drosophila melanogaster ( геном – 2R,2L,3R,3L,X,4)

Интересно, что мы впервые видим в генетике прямые линии, а не облака из точек. То есть, процессинг действует очень жестко, с математической точностью.

Второй способ решения этой задачи через комбинаторику дал тот же результат:

Рассмотрим следующую проблему в развитии генома (родственную проблеме в информационных технологиях) – которую назовем ‘оптимизацией кода’. Чтобы обеспечить 'гладкий' процесс развития через мутации (которые неизбежно последуют мультиплицирование в геноме), геном, при наращивании своей длины, должен был оптимизировать длину ‘адресного слова’. При слишком длинном адресном векторе, процесс их 'подгонки' 'присвоение нового адреса' резко замедляется, так как новый ген мешает работе старого, а старый новому. Обратно, при слишком короткой длине, слишком легко, в разных местах генома, в процессе мутации, появляются 'нелегальные' адреса: что резко усложняет работу генома, его адаптацию и его эволюцию. По этой причине, геном вынужден 'решать' проблему оптимизации кодирования.

Можем записать следующее уравнение для всей информации в геноме:

1. M = B * A^B (A^B – информационный размер генома)

Где: M – физический размер генома; ^ - обозначение верхнего регистра- степени

A - код (мерность системы - скажем 4 - для A,T,C,G);

B - максимальный физический размер адресного слова (AV) .

Рис 3 - "Оцифровка всей длины ДНК на разные мультиплеты длинной "В""

Рис 3 Оцифровка ДНК
Рис 3 Оцифровка ДНК

Оптимум этого общего уравнения будем искать при условии: B*A = Const (которое соответствует информационному размеру AV). Смысл этого условия - ЭТО ИНФОРМАЦИОННАЯ ЕДИНИЦА. Тогда:

2. B * A = Const

Решая уравнение 1, при условии 2 получим:

3. A= e^(1-1/B)

То есть, при увеличении размера генома, ‘А’ – стремится к ‘е’.

Тогда:

4. M = B * e^(B-1)

Или

5. Ln ( M / B ) = ( B -1) где « n » = М/В

Тогда имеем :

6. Ln(n) = (B-1)

Ещё одним поразительным подтверждением этой модели была её проверка на организации триплетов в синтезе пептидов.

Синтез пептидов

Если рассмотреть начальный период развития жизни, то проблема 'оптимизации' встретилась и на этапе появления белкового синтеза. Повторяющиеся 'коды' белковых последовательностей заставили RNA-DNA систему разработать 'оптимизированный код' для оптимизации и эффективной работы механизма синтеза белков. И, видимо, все еще существует 'альтернативный синтез белка ' (RNA Driving Peptides 'RNA-DP') исполняемый только RNA (видимо подобными ncRNA или rRNA + ионами металлов (видимо: Ca, Mg) и АТФ -АДФ- АМФ. Такой синтез, наверное, работал для основных 'древних' аминокислот, предположительно кодируемых только A и U(T) основаниями:

AAA - Lisine , AAU-Asparagine, AUA-Isoleucine, AUU- Start, UUU-Phenylalanine, UUA- Leucine, UAU-Tyrosine, UAA-Stop, ( предположительно и UCU(A)-Serine, CCU(A)-Proline, CAU-Histidine, CAA-Glutamine, ACU(A)- Threonine.

Для случая промежуточного 'кодирования' пептидов, уравнение (4) опять будет справедливо, только код будет состоять из трех нуклеотидов четверичной системы (A,U,C,G).

6. Np = e^Bc

где: Np – число кодируемых функций.

Bc = 3

Получаем: Np ~ 20,1 , по таблице кодонов имеем: 20 аминокислот + 6 дополнительных функций, что намного ближе к истине, чем простое: 4^3 = 64.

Что следует из всего этого? Теория – вещь сложная, но она позволяет видеть истоки и законы управляющие явлениями. Из этих представлений оказалось возможным вычислять местные коэффициенты мутации, что практически невозможно экспериментальными методами.