Добавить в корзинуПозвонить
Найти в Дзене
АйТи блог

Текстовый майнинг по полочкам

Текстовый майнинг и текстовая аналитика уже давно с нами. Глобальный рынок оценивается примерно в 4 миллиарда долларов США, а за ближайшие пять лет, к 2023, должен достичь 10 миллиардов. Откуда взялся этот рынок и почему он так быстро растёт? Многие компании уверяют, что именно они первыми предложили решения для текстового, семантического или какого-либо ещё анализа, суть которого сводится к текстовому майнингу. Указываются даты в районе 2002-2004 годов. Изначально технология использовалась для маркетинговых целей - так называемый social listening позволял анализировать стремительно цифровизирующихся пользователей. Преимущество - в скорости и объёме. Проанализировать тысячу отзывов или обращений - с трудом посильная задача для компании. Проанализировать десять тысяч, сто? Вот тут уже без текстового майнинга - никуда. По прогнозам Gartner, к 2021 году 15% всех взаимодействий с клиентами будут полностью обработаны AI. При этом, по результатам исследования той же компании Gartner, в 201

Текстовый майнинг и текстовая аналитика уже давно с нами. Глобальный рынок оценивается примерно в 4 миллиарда долларов США, а за ближайшие пять лет, к 2023, должен достичь 10 миллиардов.

Откуда взялся этот рынок и почему он так быстро растёт?

Многие компании уверяют, что именно они первыми предложили решения для текстового, семантического или какого-либо ещё анализа, суть которого сводится к текстовому майнингу. Указываются даты в районе 2002-2004 годов. Изначально технология использовалась для маркетинговых целей - так называемый social listening позволял анализировать стремительно цифровизирующихся пользователей.

Преимущество - в скорости и объёме. Проанализировать тысячу отзывов или обращений - с трудом посильная задача для компании. Проанализировать десять тысяч, сто? Вот тут уже без текстового майнинга - никуда. По прогнозам Gartner, к 2021 году 15% всех взаимодействий с клиентами будут полностью обработаны AI. При этом, по результатам исследования той же компании Gartner, в 2018 году только 4% ИТ-директоров внедрили какие-либо проекты по ИИ, а инвестиции в искусственный интеллект в то же время (в 2017 в сравнении с 2016, по данным FORRESTER) выросли на 300%.

-2

Такое расхождение в цифрах, вероятно, возникает из-за того, что процесс внедрения элементов ИИ куда бы то ни было довольно длительный. Однако, по данным исследования IBM, 34% организаций планируют внедрять ИИ у себя, а рынок систем ИИ только в РФ составлял на 2016 год более 100 миллионов долларов, с динамикой в десятки процентов. Так или иначе, но IDC предрекает, что к 2020 году 80% всех приложений будет содержать элементы ИИ, а к 2022, по словам Gartner, ИИ достаточно сильно проникнет и в персональные устройства, точнее, минимум в 10% из них - в сравнении с менее чем 1% в 2018. Граждане развитых стран будут использовать ИИ-помощников, а клиентский опыт будет обрабатываться “агентами по разговорам”, иными словами, опять же ИИ.

-3

Конечно же, анализ документов в таком масштабе всегда интересовал и государство. К примеру, в 2009 одни только записи системы здравоохранения США заняли примерно 150 экзобайт. Для сравнения - 5 экзобайт хватило бы, чтобы записать все слова, когда-либо произнесённые на Земле. Без ИИ не обойтись и в этой сфере.

А вообще, текстовый майнинг находит своё применение в самых неожиданных местах. Так, в 2011 году в свет вышел сервис семантического анализа новостей, используемый для высокочастотного трейдинга. Высокочастотный трейдинг в принципе всегда полагался на автоматику и алгоритмы, но никакой технический анализ не был способен читать в сердцах людей, чьи страхи и импульсивные решения непосредственно влияют на стоимость торгуемых финансовых инструментов. Пытаться действовать на основе новостей без текстового майнинга бессмысленно - человек может прочитать и оценить от 6 до 10 статей за час, а торговые роботы оперируют гораздо быстрее. Технологии позволяют оценивать новости, а также их предположительное влияние на цены, практически мгновенно.

В общем, чем дальше человечество отправляется в дивный новый цифровой мир, тем больше будет у текстового майнинга применений. Именно на этом и основывается прогнозируемый рост рынка в 17% каждый год в течение пяти лет.

Кстати! Иногда с понятием текстового майнинга смешивают и майнинг данных (data mining). Их надо различать. Дата майнинг занимается анализом структрированных данных. Текстовый майнинг, в свою очередь, должен проанализировать совершенно не структурированные данные, причём зачастую - в разных форматах. Более высокая сложность, разумеется, приводит к более высокой стоимости, более длительному развёртыванию, длинной подготовке - но результат того стоит.

Кирилл Кожевников
Автор блога Айти