Восемь миллиардов человек, населяющих землю, — это сила. пять миллиардов из них, имеющих доступ в интернет, — это уже стихия. Информационные цунами, которые люди с легкостью разгоняют в соцсетях, можно и нужно уметь предсказывать. Для этого достаточно всего лишь читать и понимать все, что пишут пять миллиардов человек.
Людям такая работа не по плечу, исследовать коллективное бессознательное в планетарных масштабах можно только с помощью роботов. Специалисты по компьютерной лингвистике и машинному обучению из компании Brand Analytics уже 10 лет учат машины понимать людей. Они рассказали нам, что…
ЯЗЫК — ЭТО АЛГОРИТМ, НО…
Люди часто меняют правила по ходу игры. Так, еще в 1960-е годы пионеры компьютерной лингвистики решили представить язык как базу данных слов во всех возможных формах, а также свод правил их использования.
- При таком подходе обучение машины чтению напоминает знакомые всем уроки русского языка в школе.
Учитель одновременно развивает словарный запас учеников и тренирует их определять части речи, проводить синтаксический анализ предложений, морфологический разбор слов по формальным признакам.
Пример: «Танцовщица распрямила кисть». Первое слово — существительное «танцовщица», имеет окончание «-а», а значит, используется в именительном падеже, единственном числе, имеет женский род. «Распрямила» — глагол, в котором окончание «-а» указывает на прошедшее время. Также можно установить, что «танцовщица» — подлежащее, это существительное указывает на объект, совершавший действие.
Такой простой, на первый взгляд, подход позволял машинам неплохо справляться с переводом официальных документов. Если слово нашлось в словаре на одном языке, нетрудно подобрать смысловой аналог из базы данных другого языка.
- Однако сразу возникли препятствия: алгоритмический анализ спотыкался об омонимы — одинаковые слова разного значения.
Например, существительное «кисть» может означать часть руки, инструмент для рисования или ветку с ягодами. Для разрешения таких случаев лингвисты добавили в алгоритм анализ контекста, заставив машину смотреть, какие слова связаны со спорным словом.
Другой проблемой стали редко используемые в языке слова и термины. Например, фамилию бывшего президента Франции Саркози компьютер может считать несуществующим глаголом «саркозить» в повелительном наклонении. Такие казусы решаются регулярным пополнением словарей, а также анализом частоты упоминания каждого слова вместе с другими.
- Однако когда в 2000-е годы появились соцмедиа — площадки, на которых пользователи сами оставляют сообщения, — языки начали очень быстро меняться.
Люди стали пользоваться письменной речью как устной, и для выражения интонаций и эмоций потребовались новые инструменты: сокращения, эмодзи, фонетическое письмо.
«Дратути» вместо «здравствуйте», «щас» вместо «сейчас» и «кагбэ» вместо «как бы». Чтобы понять такое, машины должны приспособиться к творческому использованию языка человеком.
ЯЗЫК — ЭТО ОБОБЩЕННЫЙ ОПЫТ, НО…
Машины пока не очень хорошие ученики — уже хорошисты, но не отличники. Однако сегодня они могут не только «сидеть на уроках», но и учиться самостоятельно. Когда в интернете появились миллиарды доступных текстов разного размера и содержания, лингвисты смогли обучать на этих материалах нейронные сети.
- Первый прорыв в распознавании смысла и тональности текста и речи искусственным интеллектом произошел с появлением рекуррентных нейросетей.
Такие системы обрабатывают предложение как последовательность данных: сначала на вход подается первое слово, затем второе, третье.
После обработки каждого элемента нейросеть сохраняет промежуточные «выводы» о значении слов в памяти, а затем уточняет смысл предложения по мере поступления новой информации.
сходя из опыта, полученного при обучении на больших объемах текстов, рекуррентная нейросеть также предполагает, какое слово, вероятнее всего, будет следующим в последовательности. Например, если предложение начинается со слов «Утром я пью…», искусственный интеллект будет ждать «кофе» или «чай» с большей вероятностью, чем «шампанское».
В середине 2010-х годов именно применение рекуррентных моделей позволило создать голосовые помощники на смартфонах Apple и Google Android. Эти нейросети также вывели на новый уровень качество машинного перевода: Google Translate стал почти безошибочно справляться с грамматикой в больших текстах.
- Однако человеческая неграмотность все же может сбить с толку рекуррентную нейросеть.
Предложение «Я сегодня утром пил ничего, поскольку мне запретил врач» поставило бы машину в тупик, из-за того что контекст находится в конце фразы, а общая последовательность не соответствует ожиданиям.
Решить эту проблему помог механизм Attention, который лег в основу модели Transformer. Такая нейросеть анализирует предложение или текст целиком, а не по словам, выделяя в процессе наиболее важные для понимания смысла фрагменты. Но, для того чтобы научить машину правильно «концентрировать внимание» и отделять важное от второстепенного, необходим хороший тренер-человек.
ЯЗЫК — ЭТО СМЫСЛ, НО…
Что такое смысл? С помощью языка люди решают множество проблем: делятся опытом, передают собственные эмоции или побуждают других к действиям.
Однако когда нейросети читают наши сообщения в соцмедиа, у них есть две основные задачи: понять, о чем идет речь в сообщении, и оценить отношение автора к объекту.
- Первая задача на языке лингвистов называется связыванием именованных сущностей. Машина должна выделить в сообщении и точно классифицировать объект, к которому относится остальная часть высказывания.
Например, в предложении «Я поеду в Киров на выходных» сразу выделяется ключевое слово «Киров». Однако идет ли речь о городе, боевом корабле «Киров» или о человеке по фамилии Киров?
В предложении есть сразу несколько подсказок:
- Во‑первых, словосочетание «поеду в…» не может относиться к человеку.
- Во-вторых, благодаря огромной базе знаний, заложенной при обучении, нейросеть знает о существовании в России города Кирова и сразу предполагает связь текста со знакомым топонимом.
- В-третьих, машина проверяет, в каком контексте слово чаще всего употребляется пользователями интернета. Поскольку атомный крейсер «Киров» был списан еще в 2002 году, его пределами профильных форумов, а значит, трактовку «Киров — это корабль», скорее всего, можно отбросить.
- Самая ценная информация для исследователей коллективного бессознательного в соцмедиа скрыта в отношении автора к объекту высказывания.
Учить нейросети определять, что такое хорошо и что такое плохо, лингвистам приходится вручную. Чтобы натренировать искусственный интеллект чувствовать все оттенки эмоций, люди выделяют в наборах сообщений выражения-маркеры, указывающие на позитивную и негативную тональность.
Например, при анализе предложения «Я обожаю Coca-Cola, а Fanta мне меньше нравится» нейросеть сперва найдет две именованные сущности — Coca-Cola и Fanta.
Затем компьютер понимает, что к объектам относятся разные слова, определяющие тональность. «Обожаю», относящееся к первому напитку, указывает на высокий уровень позитивной реакции автора, а «мне меньше нравится» говорит об умеренно негативном восприятии второго бренда.
Благодаря тому что специалисты Brand Analytics вручную обучили лингвистическую модель на десятках и сотнях тысяч размеченных сообщений из интернета, машина может даже считывать сарказм в выражениях авторов.
Конечно, компьютеры пока еще далеки от полного понимания всех смысловых оттенков нашей речи. Зато с их помощью мы можем изучать человеческое общество и быть уверенными, что каждый пользователь Сети будет услышан.
___________________________________________________________________
САДИСЬ, ДВА! ЛИНГВИСТ — О «НОВОЙ ГРАМОТНОСТИ», КОТОРУЮ НАМ ВСЕМ ПРИДЕТСЯ ОСВОИТЬ
Лингвист, доктор филологических наук, профессор НИУ ВШЭ и РГГУ, Максим Кронгауз рассказывает об особенностях интернет-коммуникации последних лет.
________________________________________________________________
Читайте новости про технологии и цифровизацию на нашем онлайн-портале digitalocean.ru и в соцсетях:
▪️ Telegram: t.me/digitaloceanru
▪️ Вконтакте: vk.com/digitalocean_ru
▪️ Яндекс.Дзен: zen.yandex.ru/digitalocean
▪️ YouTube: bit.ly/digitalocean_youtube
Для фанатов хрустящих страниц, пахнущих типографской краской — доступны все номера печатного «Цифрового океана» на Озоне: bit.ly/digitalocean_ozon
Закажите любой номер со скидкой больше 50% прямо сейчас!