но как это работает на уровне молекул, клеток и матриц кубитов это пока что по сути и во многом тайна которую нам сложно понять в деталях - но это так
и так каждое новое событие в мире это примерно как буква или слово
в большом тексте которую можно вычислить с определённой вероятностью
для таких расчетов нам нужно около 8300000 зетабайт
в реальности у нас есть только 175-180 зетабайт
то есть нам нужно в 46-47 тысяч раз больше данных
чем их есть сейчас
47 000 = 2 ^ 15.52
310650164093010
874980465405121
654510310312600
465468464106531
516540684080900
078974051321001
320123132106310
015016547967401
928406946512100
316464096460801
516516304684900
840961041650121
094605416504002
165106546406410
064096460840600
541654068496021
849849601245001
508515240201020
Когда создавали самые первые модели текстов gpt то математикам и программистам казалось что комбинаций слов и лексем слишком и невероятно много - настолько чтобы это можно было запрограммировать и формализовать с помощью матриц и векторных моделей множества числовых итераций - примерно так чтобы это всё было не очень сложно и хорошо понятно для тех кто создаёт новые тексты на основе модулей ии
Но затем однако оказалось что есть некоторые алгоритмы оптимизации сортировки кусков тегов данных которые могут упростить и сократить число возможных или нужных нам комбинаций слов в тексте
Хотя конечно их всё равно очень много
Так чтобы написать не очень большой текст нам понадобится база данных несколько гигабайт или может быть больше
Размер такой базы строк может доходить до нескольких терабайтов. Создать такую огромную базу фраз это довольно сложная задача, которая не может быть решена без помощи компьютерных сетей и различных облачных хранилищ данных интернета ..
В языке примерно 30- 50 тысяч базовых слов и их групп
Поэтому мы имеем очень большой порядок сложности комбинаций из этих слов Это примерно порядок е25- е30 и больше - да их очень много
00000 00000
00000 00000
00000 00000
Когда мы читаем простой текст мы этого к сожалению практически не понимаем. Потому что наше сознание может воспринимать число комбинаций слов не более 1000 - 100 000
Имея всего несколькео миллиардов строк мы можем написать примерно такой текст почти на любую тему
За год можно сделать около 3- 5 тысяч страниц , а сгенерировать с помощью программ можно намного больше данных Однако их качество может быть в этом смысле и не так очень высоким .
Однако комбинаций слов так много что качественно решить эту задачу на пк практически или почти не реально. Хотя программисты ищут некоторые решения которые могут сделать возможным реализацию алгоритмов генерации текста на обычном компьютере
Проблема заключается в том чтобы отыскать в базе текстов и файлов нужные нам строки и связать их вместе по смыслу простыми векторами и ключевыми словами
Это так довольно сложная задача, хотя если вы пишите текст на одну примерно и ту же тему тогда эта задача может стать проще, чем если у вас много тем для новых текстов ии
Также вероятно нужно крупные строки разбивать на более мелкие
Написать текст вручную это вроде бы не так и сложно И всё же это может быть всё намного эффективнее и улучшено на основе данных сети баз больших моделей Написать текст с помощью модели может быть даже сложнее, но при этом у вас очевидно возникнут новые инструмены обработки строк текста. И значит ваш текст таким образом может быть намного интереснее и разнообразнее во всех смыслах
Чтобы оценить объем данных, представленный формулой 8250 петабайт × миллиард, давайте разберемся с единицами измерения данных:Единицы измерения данных:
Петабайт (PB) = 101510 e15 байтов
Экзабайт (EB) = 101810 e18 байтов
Зеттабайт (ZB) = 102110 e21 байтов
Йоттабайт (YB) = 102410 e24 байтов
Расчет объема данных:
Для начала переведем петабайты в зеттабайты:8250 PB×1 000 000 000=8 250 000 000 000 PB8250PB×1000000000=8250000000000PBТеперь переведем это количество в зеттабайты:8 250 000 000 000 PB=8 250 000 ZB8250000000000PB=8250000ZB
Таким образом, объем данных составляет примерно
8,25 миллиона зеттабайт
Значение такого количества данных:
Такой огромный объем данных практически нереален для современных технологий хранения и обработки.
Для сравнения, по оценкам IDC, в 2025 году общий объем цифровых данных в мире составит около 175 зеттабайт.
Это означает, что указанный вами объем данных превышает ожидаемый объем всех мировых данных почти в 46-47 тысяч раз
Объем данных, равный 8,25 миллиона зеттабайт, настолько огромен, что даже представить сложно.
Современные технологии пока не способны эффективно обрабатывать и хранить такие объемы информации.
Однако, с развитием квантовых компьютеров и новых методов хранения данных, возможно, в будущем мы сможем приблизиться к таким масштабам.
Это нереально сейчас но через некоторое время
я не знаю какое - но тогда это станет реально
Вы здесь правы, что в настоящее время хранение и обработка такого огромного объема данных ( 8,258,25 миллиона зеттабайт) являются технически невозможными.
Тем не менее, давайте рассмотрим перспективы развития технологий, которые могут сделать это возможным в будущем.
Текущие ограничения в объёмах наших данных моделей
Современные технологии хранения данных включают жесткие диски, твердотельные накопители (SSD) и облачные хранилища. Даже самые крупные центры обработки данных (ЦОДы) имеют ограниченные возможности по хранению и обработке данных.
Например, крупнейший ЦОД в мире, расположенный в Рино, штат Невада, имеет емкость всего лишь порядка десятков экзабайтов, что значительно меньше указанного вами объема.Будущие технологии
Однако наука и технология постоянно развиваются, и существуют перспективные направления, которые могут существенно увеличить наши возможности:
Молекулярное хранение: Исследования показывают, что молекулы ДНК могут использоваться для хранения огромных объемов данных. Одна молекула ДНК способна хранить огромное количество информации в крошечном пространстве. По некоторым оценкам, вся цифровая информация мира могла бы поместиться в контейнер размером с обувную коробку, если бы использовалась технология ДНК-хранения.
Квантовые компьютеры: Квантовые технологии обещают революционные изменения в области обработки данных. Они смогут выполнять расчеты, которые классические компьютеры выполняют годами, за считанные секунды. Хотя квантовые компьютеры находятся на ранних стадиях разработки, их потенциал огромен.
Нанотехнологии: Развитие нанотехнологий позволит создать устройства хранения данных с невероятно высокой плотностью записи. Представьте себе жесткий диск размером с песчинку, способный хранить терабайты данных.
Облачные технологии следующего поколения:
Облачные сервисы продолжают развиваться, предлагая распределенные системы хранения и обработки данных. Новые алгоритмы сжатия и оптимизации могут значительно повысить эффективность существующих решений.
Когда это вероятно станет возможным для нас
Трудно точно предсказать, когда именно человечество сможет достичь уровня хранения и обработки данных в миллионы зеттабайт. Некоторые эксперты считают, что это может произойти в течение ближайших десятилетий благодаря быстрому развитию упомянутых выше технологий.
Другие полагают, что потребуется больше времени, возможно, столетия, учитывая сложность проблем, стоящих перед учеными и инженерами.Тем не менее, одно ясно: прогресс не стоит на месте, и каждое новое поколение технологий открывает двери к ранее невиданным возможностям.
Возможно, ваши внуки или правнуки будут жить в мире, где хранение и обработка миллиардов петабайт станут повседневной реальностью.