Найти в Дзене

большие данные - что это такое ?

+

какие данные можно считать большими- а какие - нет ?
сколько нужно фото, текстов, видео, музыки, моделей ии
наверно большие данные это то что больше 1-10 гигабайт ?
или это можно сформулировать точнее ?

+

ВКонтакте | Добро пожаловать

-2
-3
Что такое «Big Data»?


yandex.ru/search/?text= большие данные+что это такое - определение

Термин "большие данные" (big data) не имеет строгого количественного определения, и его можно трактовать по-разному в зависимости от контекста. В общем случае, большие данные характеризуются не только объемом, но и другими аспектами, такими как скорость, разнообразие и ценность данных.

Вот несколько критериев, которые могут помочь определить, что можно считать большими данными:

Объем: Данные, которые превышают возможности традиционных баз данных для обработки и хранения. Это может быть от нескольких гигабайт до терабайт и даже петабайтов. Например, 1-10 гигабайт могут считаться "небольшими" данными в контексте современных систем, но для некоторых задач это может быть достаточно.

Скорость: Данные, которые поступают с высокой скоростью и требуют быстрой обработки. Например, данные с сенсоров в реальном времени или потоки данных из социальных сетей.

Разнообразие: Данные могут поступать в различных форматах (структурированные, неструктурированные, полуструктурированные). Например, текстовые документы, изображения, видео, аудио и т.д.

Ценность: Данные, которые могут быть использованы для извлечения полезной информации и принятия решений. Даже небольшие объемы данных могут быть "большими" по своей ценности.

Что касается примеров:

Фото: Сотни тысяч изображений могут составлять большие данные, особенно если они в высоком разрешении.

Тексты: Миллионы текстовых документов могут считаться большими данными.

Видео: Даже несколько часов видео в высоком разрешении могут занимать терабайты данных.

Музыка: Библиотеки с миллионами треков могут считаться большими данными.

Модели ИИ: Обучение сложных моделей может потребовать огромных объемов данных для достижения высокой точности.

Таким образом, "большие данные" — это не только про объем, но и про сложность и скорость обработки данных.

то есть большие данные это примерно как миллионов файлов и более

связанных каким то образом вместе по своему контенту

Да, вы правильно подметили. Большие данные часто представляют собой большие объемы информации, которые могут включать миллионы или даже миллиарды файлов, связанных между собой по своему содержанию или контексту.

Это могут быть, например:

Текстовые файлы: миллионы статей, отзывов, комментариев и других текстовых документов. Изображения: коллекции фотографий или графиков, которые могут быть связаны по темам или категориям.

Видеофайлы: большие библиотеки видео, например, записи вебинаров, обучающих видео или пользовательского контента.

Аудиофайлы: музыкальные треки, подкасты и другие аудиозаписи, сгруппированные по жанрам или исполнителям.
Данные сенсоров: потоки данных от IoT-устройств, которые могут включать миллионы записей о показаниях.

Все эти данные могут быть связаны между собой по различным критериям, таким как тематика, временные метки, геолокация и т.д.

Кроме того, большие данные часто требуют специальных технологий и методов для хранения, обработки и анализа, таких как распределенные вычисления, машинное обучение и облачные технологии.
Это связано с тем, что традиционные методы обработки данных могут быть недостаточно эффективными для работы с такими объемами информации.

тогда какого примерно размера должен быть стандартный текст

чтобы мы могли из миллиона текстов сделать модель больших данных

{error": {"message": No deployments available for selected model,
Try again in 5 seconds.
Passed model=custom/blackbox-base. pre-call-checks=False, cooldown_list=
('20f954 efe208ffbec4b333d73f392e2a83bd0bc32183
ccc4a496cba6afb38d87', {'exception_received': ***
NotFoundError: OpenrouterException - {\"error\":{\"message\":\
No endpoints found that support image input\",\"code\":404}}',
'status_code': '404', 'timestamp': 1755738870.6208456, 'cooldown_time': 5})
(request id: 20250821011432499573897XLDspuA2)",
"type": "openai_error","param": "","code": "429"}}

+

тогда какого примерно размера должен быть стандартный текст
чтобы мы могли из миллиона текстов сделать модель больших данных

Короткий ответ:
Если у вас 1 000 000 текстов, то каждый текст должен быть не менее ~1–2 МБ в сыром виде (≈ 500–1000 страниц A4), чтобы совокупный объем составлял 1–2 ТБ — это уже точно "большие данные".

Подробно:
Объем текста Пример Комментарий 500 КБ / текст 250 страниц A4
1 млн таких текстов = 500 ГБ — это уже "масштабные данные", но не "большие" в строгом смысле.

1–2 МБ / текст 500–1000 страниц A4 1 млн текстов = 1–2 ТБ — точно "большие данные", требующие специальных инструментов.

10 МБ / текст 5000 страниц A4
1 млн текстов = 10 ТБ — это уже уровень корпоративных или научных дата сетов.

Как это выглядит на практике:

Твит (280 символов) ≈ 0,0002 МБ — нужно 5 млрд твитов, чтобы набрать 1 ТБ.

Новостная статья (1000 слов) ≈ 0,005 МБ — нужно 200 млн статей.

Научная статья (10 страниц PDF) ≈ 0,5 МБ — достаточно 2 млн статей, чтобы попасть в "большие данные".

Минимальный порог: 1 МБ на текст (≈ 500 страниц) → 1 ТБ на 1 млн текстов.
Оптимально: 2–5 МБ на текст (книга или длинный отчет) → 2–5 ТБ.

Такой объем уже требует распределенного хранения (HDFS, S3) и обработки (Spark, Dask).

> то есть это как то связано с количеством повторов в этих данных и то насколько они похожи - значит для этого они должны иметь достаточно большой объём

или просто определённый объём для создания нужного количества итераций и вариаций массива данных

Да, объем данных и их разнообразие играют ключевую роль в создании эффективных моделей на основе больших данных. Вот несколько аспектов, которые стоит учитывать:

Повторяемость и разнообразие

Повторяющиеся данные могут снизить качество модели, так как она может "запомнить" одни и те же шаблоны, а не научиться извлекать общие закономерности.

Разнообразие в данных помогает модели обобщать информацию, что делает её более устойчивой к новым, ранее невиданным данным.

Объем данных

Большой объем данных позволяет создавать более сложные модели и улучшать их производительность. С увеличением объема данных увеличивается вероятность нахождения редких, но важных паттернов.

Для достижения хороших результатов в машинном обучении часто требуется много итераций (эпох) обучения, что возможно только при наличии достаточного объема данных.

Итерации и вариации

Итерации в обучении модели означают, что модель проходит через данные несколько раз, что позволяет ей лучше "запоминать" и адаптироваться к разнообразию данных.

Вариации данных (например, разные формулировки одного и того же сообщения) помогают модели лучше понимать контекст и суть, что особенно важно в задачах, связанных с обработкой естественного языка (NLP).

Допустим, у вас есть 1 миллион текстов о здоровье:

Если тексты сильно повторяются (например, одни и те же советы), то модель будет плохо обобщать информацию.

Если тексты разнообразны (разные советы, исследования, мнения), то модель сможет лучше понять различные аспекты здоровья.

Чтобы создать качественную модель на основе больших данных, важно не только количество данных, но и их разнообразие и уникальность. Это позволит модели научиться извлекать полезные паттерны и делать более точные предсказания.

Давайте немного углубимся в некоторые ключевые аспекты, связанные с объемом, разнообразием и качеством данных, а также их влиянием на обучение моделей.

Качество данных и их сортировка по содержанию

Чистота данных: Данные должны быть очищены от шумов, ошибок и дубликатов. Некачественные данные могут привести к неправильным выводам и снижению производительности модели.

Анотации и метки
В задачах с учителем (supervised learning) важно, чтобы данные были правильно размечены. Неправильные метки могут сбить с толку модель и привести к плохим результатам.

Баланс данных

Классовый дисбаланс: Если в данных есть классы с очень разным количеством примеров (например, много примеров одного класса и очень мало другого), это может привести к смещению модели. В таких случаях важно использовать методы, такие как переобучение (oversampling) или недообучение (undersampling), чтобы сбалансировать данные.

Генерация данных

Аугментация данных: В задачах, где данных недостаточно, можно использовать методы аугментации, чтобы создать дополнительные примеры. Это может включать изменения в тексте, такие как замена синонимов, изменение порядка слов и т. д. Это помогает увеличить разнообразие и объем данных.

Синтетические данные: В некоторых случаях можно генерировать синтетические данные, которые имитируют реальные данные. Это особенно полезно, когда доступ к реальным данным ограничен.

Итеративное обучение

Обучение с использованием новых данных: Модели могут быть дообучены на новых данных по мере их поступления. Это позволяет им адаптироваться к изменениям в данных и сохранять актуальность.

Методы активного обучения: В таких методах модель может выбирать, какие примеры из неразмеченных данных следует аннотировать, чтобы максимально повысить свою производительность.

Оценка и валидация

Кросс-валидация: Использование методов кросс-валидации позволяет оценить, как хорошо модель будет работать на новых данных, и помогает избежать переобучения.

Метрики оценки: Важно использовать соответствующие метрики (например, точность, полнота, F1-мера) для оценки качества модели, особенно в случае несбалансированных классов.

В итоге, для успешного обучения моделей на больших данных необходимо учитывать не только объем, но и разнообразие, качество и баланс данных. Эти факторы влияют на способность модели обобщать и адаптироваться к новым условиям. Чем более разнообразны и качественны данные, тем более точные и надежные результаты можно ожидать от модели.


> тогда какие параметры данных мы учитываем при создании модели ?

например число файлов, их размер и то насколько они оригинальные и разнообразные по содержанию

При создании и обучении модели мы оцениваем данные по нескольким измеримым и «мягким» характеристикам. Удобно объединить их в четыре группы:

Объём (количественные метрики)

• N_файлов – число файлов/записей.

• V_байт – суммарный размер в байтах (или GiB).

• V_слов / V_токенов – суммарное число слов/токенов (для текста) или пикселей (для изображений).

• M_примеров – итоговое число обучающих примеров после разбиения (например, 1 файл = 1 пример, или 1 файл = 50 примеров).

Разнообразие (diversity)

• D_лекс – число уникальных лемм/слов (лексическое разнообразие).

• D_топик – число тематических кластеров (какой-то кластеризатор или LDA).

• D_стиль – различные жанры/источники (например, % научных статей, блогов, форумов).

• D_домен – сколько разных доменов/предметных областей покрыто.

• D_формат – сколько разных форматов данных (txt, pdf, html, json и т.д.).

Часто используют «коэффициент уникальности»:

U = N_уникальных_файлов / N_файлов,

где «уникальность» определяется хэшем, либо расстоянием > ε между векторами (например, MinHash, SimHash).

Качество (cleanliness / label quality)

• Q_чист – доля записей, прошедших фильтрацию дубликатов, спама, низкого качества.

• Q_разм – доля правильно размеченных примеров (для supervised задач).

• Q_баланс – минимальное и максимальное количество примеров по каждому классу (imbalance ratio).

• Q_шум – доля строк с OCR-ошибками, битых символов, невалидных токенов.

Актуальность / временная динамика

• T_span – временной диапазон (от самого старого до самого нового документа).

• T_Δ – средний интервал в днях между добавлением новых порций данных.

+

Пример «карточки» датасета перед запуском обучения:

Dataset: HealthText-2024

├─ Volume

│ ├─ files_total: 1 200 000

│ ├─ size_GB: 4.1

│ └─ tokens_total: 3.8 × 10^9

├─ Diversity

│ ├─ unique_lemmas: 1.3 × 10^6

│ ├─ topics_LDA: 120

│ ├─ sources: 5 (articles, blogs, forums, tweets, guidelines)

│ └─ uniqueness_ratio: 0.82 (18 % дубликатов/парафразов отфильтровано)

├─ Quality

│ ├─ clean_ratio: 0.96

│ ├─ label_accuracy: 0.94 (по 1000 выборочных проверок)

│ └─ min_max_class: 42k / 48k (imbalance 1.14)

└─ Freshness

└─ date_span: 2010-01-01 … 2024-05-15

Такой набор параметров позволяет принимать решения: достаточно ли объёма, нужна ли аугментация, стоит ли добавить данные из новых источников, какие фильтры применить и т.д.


*

Большие данные (Big Data) — это огромные массивы информации, которые собирают, обрабатывают и анализируют с помощью технологий.
media.halvacard.ru

Такие данные имеют такой объём, скорость поступления и сложность, что традиционные инструменты обработки становятся неэффективными.
kurshub.ru

Некоторые характеристики больших данных:

  • Объём (Volume) — физический размер данных, их вес и количество места, которое они занимают. Поток таких данных может составлять от 100 Гб в сутки.
  • Скорость (Velocity) — объём информации увеличивается с большой скоростью, в геометрической прогрессии, и требует быстрой обработки и анализа.
  • Разнообразие (Variety) — данные неоднородны и поступают в разных форматах: текст, картинки, голосовые сообщения, транзакции. Они могут быть неупорядоченными, структурированными полностью или частично. unisender.com

Примеры больших данных: информация о лайках, комментариях, активности пользователей в социальных сетях за месяц, массив данных о населении в городской системе распознавания лиц, логи серверов, медицинские записи и образы, аналитика поисковых систем

Термин «большие данные» или «big data» начал набирать популярность с 2011 года. Сегодня его хотя бы раз слышал каждый. Проблема в том, что часто понятие используют не по определению. Поэтому давайте подробно разберемся, что это такое.

С развитием технологий количество данных стало увеличиваться в геометрической прогрессии. Традиционные инструменты перестали покрывать потребность в обработке и хранении информации. Для обработки данных, объем которых превышает сотни терабайт и постоянно увеличивается, были созданы специальные алгоритмы. Их принято называть «big data».

Сегодня информация собирается огромными объемами из разных источников: интернет, контакт-центры, мобильные устройства и т.д. Чаще всего такие данные не имеют четкой структуры и упорядоченности, поэтому человек не может использовать их для какой-либо деятельности. Для автоматизации анализа применяют технологии «big data».

Когда появились первые большие данные?

Большие данные появились в 60-70 годах прошлого столетия вместе с первыми ЦОД (центры обработки данных). В 2005 году компании начали понимать масштабы создаваемого контента пользователями интернет-сервисов (Facebook, YouTube и др.). Тогда же начала работу первая платформа, предназначенная для взаимодействия с большими наборами данных, — Hadoop. Сегодня она представляет собой большой стек технологий для обработки информации. Чуть позже популярность начала набирать NoSQL — совокупность методов для создания систем управления большими данными.

Объем генерируемой информации стал увеличиваться с появлением крупных интернет-сервисов. Пользователи загружают фотографии, просматривают контент, ставят «лайки» и т.п. Вся эта информация собирается в больших объемах для дальнейшего анализа, после которого можно вносить улучшения в работу сервисов.
Например, социальные сети используют большие данные для показа пользователям релевантной рекламы ( то есть той, которая соответствует их потребностям и интересам) в таргете. Это позволяет соцсетям продавать бизнесу возможность проведения точных рекламных кампаний.

Основные свойства больших данных

В самом начале статьи мы определили три основных свойства больших данных из общепринятого определения. Давайте раскроем их более подробно:

Объем. Из названия «большие данные» становится понятно, что они содержат в себе много информации. И это действительно так: компании могут ежедневно получать десятки терабайт различных данных, некоторые — сотни петабайт. То есть «большие данные» не были бы таковыми без объема.

Скорость обработки данных
Большие данные поступают и обрабатываются из разных источников с высокой скоростью. При отсутствии этого свойства информацию уже нельзя будет назвать «big data». А еще они генерируются без остановки.

Разнообразие данных
Большие данные содержат в себе информацию, относящуюся к разным типам. Это одно из главных отличий от простых данных — они всегда структурированы и могут быть сразу сохранены в базе данных.

За последние несколько лет популярность больших данных увеличилась, в результате чего они получили два дополнительных свойства (характеристики): ценность и достоверность.

Ценность определяется каждой компанией по-своему.
Специалисты оценивают, принесет ли полученная информация пользу бизнесу. А достоверность показывает, можно ли используемым данным доверять (насколько они правдивы), ведь неточная информация может навредить компании и ее деятельности.

Как с ними работают ?
Большие данные несут в себе много полезной информации, на основе которой компании создают новые возможности и формируют бизнес-модели. Работа с большими данными делится на 3 этапа: интеграция, управление и анализ.

Интеграция
На этом этапе компания интегрирует в свою работу технологии и системы, позволяющие собирать большие объемы информации из разных источников. Внедряются механизмы обработки и форматирования данных для упрощения работы аналитиков с «big data».

Управление
Полученные данные нужно где-то хранить, этот вопрос решается до начала работы с ними. Решение принимается на основе множества критериев, главными из которых считаются предпочтения по формату и технологии обработки. Как правило, для хранения компании используют локальные хранилища, публичные или частные облачные сервисы.

Анализ
Большие данные начинают приносить пользу после анализа. Это заключительный этап взаимодействия с ними. Для этого применяют машинное обучение, ассоциацию правил обучения, генетические алгоритмы и другие технологии. После анализа данных остается только самое ценное для бизнеса.

Примеры использования больших данных
В общих чертах с «big data» разобрались. Но остался важный вопрос — где их можно применять практически? Ответ: в любой сфере деятельности, которая оперирует необходимыми для анализа данными. Давайте рассмотрим несколько реальных примеров. Это позволит лучше понять, для чего нужны большие данные и как от них можно получить пользу.

Big Data в банках
В российской банковской сфере большие данные первым начал использовать «Сбербанк». На основе «big data» и биометрической системы в 2014 году они разработали систему идентификации личности клиента по фотографии. Принцип работы очень простой: сравнение текущего снимка с фотографией из базы, которую делают сотрудники при выдаче банковской карты. Новая система сократила случаи мошенничества в 10 раз.

Сегодня «Сбербанк» продолжает использовать большие данные в работе: сбор и анализ информации позволяет управлять рисками, бороться с мошенничеством, оценивать кредитоспособность клиентов, управлять очередями в отделениях и многое другое.

Еще один пример из российского банковского сектора — ВТБ24. Внедрять «big data» компания начала чуть позже «Сбербанка». Сегодня они используют большие данные для сегментации и управления оттоком клиентов, формирования финансовой отчетности, анализа отзывов в интернете и многого другого. Банку большие данные помогают контролировать репутацию бренда в интернете, оценивать кредитоспособность новых клиентов, персонализировать контент, управлять рисками и т.п.

Большие данные в бизнесе
Многие ошибочно полагают, что работа с большими данными актуальна только для банковского сектора и ИТ-компаний. Это опровергает пример «Магнитогорского металлургического комбината», который разработал сервис «Снайпер» для снижения расходов сырья в производстве. Технология собирает большие объемы информации, анализирует их и дает рекомендации по оптимизации расходов материалов.

«Сургутнефтегаз» использует специальную систему для отслеживания основных бизнес-процессов в режиме реального времени. Это помогает в автоматизации учета продукции, ценообразовании, обеспечении персонала нужными данными и т.п.

Big Data в маркетинге
Маркетологи используют большие данные для прогнозирования результатов рекламных кампаний. Также анализ помогает в определении наиболее заинтересованной аудитории. Яркий пример «big data» в маркетинге — Google Trends. В систему поступает огромное количество данных, а после анализа пользователь может оценить сезонность того или иного товара (работы, услуги).

Сложности при использовании
Где есть большие возможности, там поджидают и большие трудности. Это правило не обошло стороной big data.

Первая сложность, с которой сталкиваются компании, — большие данные занимают много места. Да, технологии хранения постоянно улучшаются, но при этом и объем данных неуклонно растет ( в среднем в два раза каждые два года).
Приобретение огромного хранилища не решает всех проблем.
От простого хранения данных толку не будет, с ними нужно работать для получения выгоды. Отсюда вытекает другая сложность - налаживание обработки получаемых больших данных.

Сейчас аналитики тратят 50-80% рабочего времени для приведения информации в приемлемый для клиента вид. Компаниям приходится нанимать больше специалистов, что увеличивает расходы.

И еще одна проблема - стремительное развитие больших данных. Регулярно появляются новые инструменты и сервисы для работы (например, Hbase). Бизнесу приходится тратить много времени и средств, чтобы «быть в тренде» и не отставать от развития.

Таким образом,
big data - это совокупность технологий обработки больших объемов информации ( сотни терабайтов и более) и сегодня мало кто отрицает их важность в будущем. Их популярность будет расти и распространение в бизнесе увеличиваться.
Впоследствии разработают технологии по автоматизации анализа и с big data будут работать не только крупные компании, но и средние с маленькими.

что такое биг дата? -
кажется у нас есть достаточно простое и ёмкое определение
Это модель из миллиона и более связанных объектов


big data — это термин, который обозначает огромные объемы данных, которые не могут быть эффективно обработаны с помощью традиционных методов обработки данных.
Это не только большие объемы данных, но и их разнообразие и скорость поступления.

Ключевые характеристики биг дата:
Объем (Volume): Огромные объемы данных, которые могут достигать терабайтов и петабайтов.
Скорость (Velocity): Быстрое поступление данных в реальном времени, что требует быстрой обработки и анализа.

Разнообразие (Variety): Разные форматы данных (структурированные, неструктурированные и полуструктурированные), такие как текст, изображения, видео и др.

Достоверность (Veracity):
Качество и надежность данных, которые могут варьироваться.
Ценность (Value): Потенциальная ценность, которую можно извлечь из анализа больших данных.

Применение больших данных
Анализ поведения пользователей
Прогнозирование трендов
Оптимизация бизнес-процессов
Улучшение качества обслуживания клиентов

Таким образом, биг дата - это не просто "модель из миллиона и более связанных объектов", а гораздо более комплексное понятие, охватывающее множество аспектов обработки и анализа данных.

-4
-5
-6
-7

-8