18,3 тыс подписчиков

Правила компьютерной лингвистики

27 марта 202327 мар 2023

6 мин

Восемь миллиардов человек, населяющих землю, — это сила. пять миллиардов из них, имеющих доступ в интернет, — это уже стихия. Информационные цунами, которые люди с легкостью разгоняют в соцсетях, можно и нужно уметь предсказывать. Для этого достаточно всего лишь читать и понимать все, что пишут пять миллиардов человек. Людям такая работа не по плечу, исследовать коллективное бессознательное в планетарных масштабах можно только с помощью роботов. Специалисты по компьютерной лингвистике и машинному обучению из компании Brand Analytics уже 10 лет учат машины понимать людей. Они рассказали нам, что… ЯЗЫК — ЭТО АЛГОРИТМ, НО… Люди часто меняют правила по ходу игры. Так, еще в 1960-е годы пионеры компьютерной лингвистики решили представить язык как базу данных слов во всех возможных формах, а также свод правил их использования. Учитель одновременно развивает словарный запас учеников и тренирует их определять части речи, проводить синтаксический анализ предложений, морфологический разбор сл

Оглавление

ЯЗЫК — ЭТО АЛГОРИТМ, НО…
ЯЗЫК — ЭТО ОБОБЩЕННЫЙ ОПЫТ, НО…
ЯЗЫК — ЭТО СМЫСЛ, НО…

Людям такая работа не по плечу, исследовать коллективное бессознательное в планетарных масштабах можно только с помощью роботов. Специалисты по компьютерной лингвистике и машинному обучению из компании Brand Analytics уже 10 лет учат машины понимать людей. Они рассказали нам, что…

ЯЗЫК — ЭТО АЛГОРИТМ, НО…

Люди часто меняют правила по ходу игры. Так, еще в 1960-е годы пионеры компьютерной лингвистики решили представить язык как базу данных слов во всех возможных формах, а также свод правил их использования.

При таком подходе обучение машины чтению напоминает знакомые всем уроки русского языка в школе.

Учитель одновременно развивает словарный запас учеников и тренирует их определять части речи, проводить синтаксический анализ предложений, морфологический разбор слов по формальным признакам.

Пример: «Танцовщица распрямила кисть». Первое слово — существительное «танцовщица», имеет окончание «-а», а значит, используется в именительном падеже, единственном числе, имеет женский род. «Распрямила» — глагол, в котором окончание «-а» указывает на прошедшее время. Также можно установить, что «танцовщица» — подлежащее, это существительное указывает на объект, совершавший действие.

«Алтай» выглядит как глагол в повелительном наклонении

Такой простой, на первый взгляд, подход позволял машинам неплохо справляться с переводом официальных документов. Если слово нашлось в словаре на одном языке, нетрудно подобрать смысловой аналог из базы данных другого языка.

Однако сразу возникли препятствия: алгоритмический анализ спотыкался об омонимы — одинаковые слова разного значения.

Например, существительное «кисть» может означать часть руки, инструмент для рисования или ветку с ягодами. Для разрешения таких случаев лингвисты добавили в алгоритм анализ контекста, заставив машину смотреть, какие слова связаны со спорным словом.

Другой проблемой стали редко используемые в языке слова и термины. Например, фамилию бывшего президента Франции Саркози компьютер может считать несуществующим глаголом «саркозить» в повелительном наклонении. Такие казусы решаются регулярным пополнением словарей, а также анализом частоты упоминания каждого слова вместе с другими.

Однако когда в 2000-е годы появились соцмедиа — площадки, на которых пользователи сами оставляют сообщения, — языки начали очень быстро меняться.

Люди стали пользоваться письменной речью как устной, и для выражения интонаций и эмоций потребовались новые инструменты: сокращения, эмодзи, фонетическое письмо.

«Дратути» вместо «здравствуйте», «щас» вместо «сейчас» и «кагбэ» вместо «как бы». Чтобы понять такое, машины должны приспособиться к творческому использованию языка человеком.

ЯЗЫК — ЭТО ОБОБЩЕННЫЙ ОПЫТ, НО…

Машины пока не очень хорошие ученики — уже хорошисты, но не отличники. Однако сегодня они могут не только «сидеть на уроках», но и учиться самостоятельно. Когда в интернете появились миллиарды доступных текстов разного размера и содержания, лингвисты смогли обучать на этих материалах нейронные сети.

Первый прорыв в распознавании смысла и тональности текста и речи искусственным интеллектом произошел с появлением рекуррентных нейросетей.

Такие системы обрабатывают предложение как последовательность данных: сначала на вход подается первое слово, затем второе, третье.

После обработки каждого элемента нейросеть сохраняет промежуточные «выводы» о значении слов в памяти, а затем уточняет смысл предложения по мере поступления новой информации.

сходя из опыта, полученного при обучении на больших объемах текстов, рекуррентная нейросеть также предполагает, какое слово, вероятнее всего, будет следующим в последовательности. Например, если предложение начинается со слов «Утром я пью…», искусственный интеллект будет ждать «кофе» или «чай» с большей вероятностью, чем «шампанское».

А слово «крокодил» — производным от «крокодить»

В середине 2010-х годов именно применение рекуррентных моделей позволило создать голосовые помощники на смартфонах Apple и Google Android. Эти нейросети также вывели на новый уровень качество машинного перевода: Google Translate стал почти безошибочно справляться с грамматикой в больших текстах.

Однако человеческая неграмотность все же может сбить с толку рекуррентную нейросеть.

Предложение «Я сегодня утром пил ничего, поскольку мне запретил врач» поставило бы машину в тупик, из-за того что контекст находится в конце фразы, а общая последовательность не соответствует ожиданиям.

Решить эту проблему помог механизм Attention, который лег в основу модели Transformer. Такая нейросеть анализирует предложение или текст целиком, а не по словам, выделяя в процессе наиболее важные для понимания смысла фрагменты. Но, для того чтобы научить машину правильно «концентрировать внимание» и отделять важное от второстепенного, необходим хороший тренер-человек.

ЯЗЫК — ЭТО СМЫСЛ, НО…

Что такое смысл? С помощью языка люди решают множество проблем: делятся опытом, передают собственные эмоции или побуждают других к действиям.

Однако когда нейросети читают наши сообщения в соцмедиа, у них есть две основные задачи: понять, о чем идет речь в сообщении, и оценить отношение автора к объекту.

Первая задача на языке лингвистов называется связыванием именованных сущностей. Машина должна выделить в сообщении и точно классифицировать объект, к которому относится остальная часть высказывания.

Например, в предложении «Я поеду в Киров на выходных» сразу выделяется ключевое слово «Киров». Однако идет ли речь о городе, боевом корабле «Киров» или о человеке по фамилии Киров?

В предложении есть сразу несколько подсказок:

Во‑первых, словосочетание «поеду в…» не может относиться к человеку.
Во-вторых, благодаря огромной базе знаний, заложенной при обучении, нейросеть знает о существовании в России города Кирова и сразу предполагает связь текста со знакомым топонимом.
В-третьих, машина проверяет, в каком контексте слово чаще всего употребляется пользователями интернета. Поскольку атомный крейсер «Киров» был списан еще в 2002 году, его пределами профильных форумов, а значит, трактовку «Киров — это корабль», скорее всего, можно отбросить.

Голосовой помощник Siri использует нейросети-трансформеры для распознавания речи

Самая ценная информация для исследователей коллективного бессознательного в соцмедиа скрыта в отношении автора к объекту высказывания.

Учить нейросети определять, что такое хорошо и что такое плохо, лингвистам приходится вручную. Чтобы натренировать искусственный интеллект чувствовать все оттенки эмоций, люди выделяют в наборах сообщений выражения-маркеры, указывающие на позитивную и негативную тональность.

Например, при анализе предложения «Я обожаю Coca-Cola, а Fanta мне меньше нравится» нейросеть сперва найдет две именованные сущности — Coca-Cola и Fanta.

Затем компьютер понимает, что к объектам относятся разные слова, определяющие тональность. «Обожаю», относящееся к первому напитку, указывает на высокий уровень позитивной реакции автора, а «мне меньше нравится» говорит об умеренно негативном восприятии второго бренда.

Благодаря тому что специалисты Brand Analytics вручную обучили лингвистическую модель на десятках и сотнях тысяч размеченных сообщений из интернета, машина может даже считывать сарказм в выражениях авторов.

Сталкиваясь со словом «Киров», нейросеть в первую очередь предполагает, что речь идет о городе

Конечно, компьютеры пока еще далеки от полного понимания всех смысловых оттенков нашей речи. Зато с их помощью мы можем изучать человеческое общество и быть уверенными, что каждый пользователь Сети будет услышан.

___________________________________________________________________

САДИСЬ, ДВА! ЛИНГВИСТ — О «НОВОЙ ГРАМОТНОСТИ», КОТОРУЮ НАМ ВСЕМ ПРИДЕТСЯ ОСВОИТЬ

Лингвист, доктор филологических наук, профессор НИУ ВШЭ и РГГУ, Максим Кронгауз рассказывает об особенностях интернет-коммуникации последних лет.

________________________________________________________________

Читайте новости про технологии и цифровизацию на нашем онлайн-портале digitalocean.ru и в соцсетях:

▪️ Telegram: t.me/digitaloceanru

▪️ Вконтакте: vk.com/digitalocean_ru

▪️ Яндекс.Дзен: zen.yandex.ru/digitalocean

▪️ YouTube: bit.ly/digitalocean_youtube

Для фанатов хрустящих страниц, пахнущих типографской краской — доступны все номера печатного «Цифрового океана» на Озоне: bit.ly/digitalocean_ozon

Закажите любой номер со скидкой больше 50% прямо сейчас!