Найти тему
Новое электричество

Обработка естественного языка

Photo by Soner Eker on Unsplash
Photo by Soner Eker on Unsplash

Мы написали уже о нескольких применениях Искусственного Интеллекта, и пора открыть серию постов об обработке языка – natural language processing, или NLP.

Идея проста – компьютеру дается обычный, неструктурированный текст, и алгоритм пытается что-то о нём узнать. Есть несколько задач, которые можно при этом решать.

Первая – понять, о чем текст. Например, это полезно для сортировки емэйлов – приходит клиентский запрос, и его нужно классифицировать, чтобы направить в соответствующий отдел. Здесь алгоритм распределяет запросы на несколько групп – «новые заказы», «послепродажное обслуживание», «сопутствующие услуги» или «иное». Сейчас это делается с очень высокой точностью.

Photo by Kolar.io on Unsplash
Photo by Kolar.io on Unsplash

Поисковики решают другую задачу – перебирают сайты и находят те, которые наиболее соответствуют запросу. Фактически, им нужно уметь определить степень соответствия любых двух текстов друг другу, при этом делать это невероятно быстро.

Большой интерес сейчас к принципиально иному направлению – анализу тональности (“sentiment analysis”). Одно дело определить, что текст о компании Toyota, но совсем другое — понять, положительно он отзывается о компании, негативно или нейтрально. С этой задачей искусственный интеллект также справляется.

Применений у анализа тональности множество – изучение настроения в социальных сетях или СМИ, их отношения к бренду или явлению. Если своевременно уловить изменение новостного фона, можно отреагировать и не допустить распространения «болезни».

Есть несколько компаний, которые используют анализ тональности для инвестиций. Смысл – надо покупать бумаги, по которым новостной фон улучшается, и продавать, по которым ухудшается. Есть свидетельства, что это работает, но пока статистики недостаточно, чтобы оценить, насколько хорошо.

Photo by Austin Distel on Unsplash
Photo by Austin Distel on Unsplash

Третий блок проблем NLP – это структурирование текста, то есть разбиение текста на смысловые блоки, чтобы обрабатывать их по отдельности. У этой задачи тоже много применений. Например, можно найти в большом тексте самую важную часть и сразу выдать ее человеку, сократив время чтения.

Также структурирование текста позволяет заполнять шаблоны данных. Скажем, есть задача собрать информацию о животных, выделив блоки “ареал обитания”, “повадки”, “размножение” и т.д. — можно прогнать алгоритм через множество статей о них и заполнить шаблон.

Даже этот краткий обзор показывает многообразие задач, которые может решать NLP. На самом деле применений намного больше. В следующих постах мы расскажем, что же именно делает алгоритм, чтобы проанализировать текст, и детально поговорим о различных областях использования NLP.

#nlp #искусственный интеллект #машинное обучение #нлп #технологии