Найти в Дзене

Уникальное человеческое — новая нефть. Только добывать его сложнее.


Продолжение поста dzen.ru/...zax

Рынок AI-датасетов вырос до $4,47 млрд в 2025 году и движется к $54 млрд к 2035-му — при росте почти 19% в год. Но не потому что данных стало больше. А потому что они стали дефицитом.
Парадокс в том, что данных на планете — океан. Мировой объём оцифрованной информации: около 180 зеттабайт, удваивается каждые два года. Все крупнейшие языковые модели вместе взятые обучались на нескольких сотнях терабайт — это в миллион раз меньше того, что существует. Проблема не в нехватке данных. Проблема в том, что почти все они заперты: в больницах, банках, на заводах, в личных архивах.
Что именно дорожает прямо сейчас:
Биометрика. Разнообразие лиц, голосов, походок — не «средних», а редких: нестандартная этническая внешность, пожилые лица, нетипичная мимика. API биометрических баз стоят от $185 до $3950 в месяц. Системы распознавания «под ключ» — от $80 000 до $500 000. Настоящий дефицит не в количестве лиц, а в их разнообразии.
Медицина. МРТ с редкими патологиями, ЭКГ нетипичных аритмий — то, что ни один генератор не придумает. Электронные медкарты мира — «в миллион раз больше, чем Common Crawl», по оценке IFP. Почти всё это недоступно.
Профессиональное знание в действии. Не текст о том, как диагностировать турбину — а реальные данные датчиков, логи решений инженера, видео рук мастера. Это знание существует только у конкретного человека.
Малые языки. На Земле около 7 000 языков. В топовых датасетах полноценно представлены от силы 100. Часовая запись живого носителя умирающего языка — уникум, который никогда не появится снова.
Общая логика: ценность определяется не объёмом, а верифицированной уникальностью. Один настоящий документ стоит дороже тысячи сгенерированных.

Продолжение тут dzen.ru/...ln9
1 минута