1952 подписчика

Что не умеют переводить нейросети?

26 октября 202326 окт 2023

6 мин

Нейросети умеют искать информацию, рисовать, генерировать тексты и даже копировать голоса. Но есть ли то, чего они еще не знают и не умеют? ЕСТЬ! Тема заходит? Ставь 5 в комментариях. Если читать дальше невозможно — 1. По данным компании Meta*, на сейчас нейросети знают чуть больше 1100 языков, из 7000 возможных. Так, если предложить искусственному интеллекту перевести текст на язык монголов Внутренней Монголии, то, скорее всего, он не сможет этого сделать. Всё потому, что большая часть мировых систем письменности была оцифрована с использованием стандартного кода. Но монгольское письмо было закодировано не совсем аккуратно, и нейросеть не пока не смогла расшифровать его и обучиться этому языку. Также несмотря на постоянное совершенствование машинного перевода, искусственный интеллект по-прежнему не научился переводить с учетом социокультурных особенностей языка и менталитета его носителей. До недавнего времени искусственный интеллект (ИИ) обучался только тем исчезающим языкам, на кото

Оглавление

Внутренняя Монголия
Азербайджан
США

Нейросети умеют искать информацию, рисовать, генерировать тексты и даже копировать голоса. Но есть ли то, чего они еще не знают и не умеют? ЕСТЬ!

Тема заходит? Ставь 5 в комментариях. Если читать дальше невозможно — 1.

По данным компании Meta*, на сейчас нейросети знают чуть больше 1100 языков, из 7000 возможных. Так, если предложить искусственному интеллекту перевести текст на язык монголов Внутренней Монголии, то, скорее всего, он не сможет этого сделать. Всё потому, что большая часть мировых систем письменности была оцифрована с использованием стандартного кода. Но монгольское письмо было закодировано не совсем аккуратно, и нейросеть не пока не смогла расшифровать его и обучиться этому языку.

Также несмотря на постоянное совершенствование машинного перевода, искусственный интеллект по-прежнему не научился переводить с учетом социокультурных особенностей языка и менталитета его носителей.

До недавнего времени искусственный интеллект (ИИ) обучался только тем исчезающим языкам, на которых есть достаточный для этого объем текстов.

Но в прошлом году Google и Meta объявили о проектах по разработке новых технологий искусственного интеллекта для исчезающих и редких языков. Новые модели ИИ смогут переводить с и на многие исчезающие языки, однако пока нет методики, которая бы контролировала качество такого перевода.

Внутренняя Монголия

Около 5 миллиардов жителей планеты являются активными пользователями интернета. По данным Internet World Stats, английский язык используют 25% пользователей для общения в интернете. Далее идет китайский язык — его применяют 19% от общего количества пользователей в мире. Десятку самых популярных языков завершает немецкий язык 2,1% пользователей, которые говорят на этом языке.

Однако на данный момент есть языки, которые используются в сети крайне мало, несмотря на большое количество потенциальных пользователей. Язык Внутренней Монголии, на котором говорят 3,5 миллиона человек этого региона Китая, принадлежит к их числу. Искусственный интеллект пока не располагает достаточными ресурсами для обучения этому языку.

В нашем Телеграм-канале мы рассказываем о бизнесе с разными странами, переводах и внутренней кухне бюро переводов. Присоединяйтесь!

Жители Внутренней Монголии пытаются препятствовать обучению нейросетей их родному языку. Они считают, что если ИИ обучится ему, то государство будет следить за населением и вводить цензуру.

Негативное отношение к нейросетям появилось в 2020 году. Власти Внутренней Монголии объявили, что местный диалект больше не будет использоваться для обучения в школах. Этнические монголы (на территории Китая проживает 7,5 млн монголов) стали бояться утраты своей языковой идентичности. Население начало строить планы протеста, распространяя их по WeChat, крупнейшему мессенджеру Китая. Тысячи родителей школьников договаривались в сети о забастовках и маршировали по местным улицам, требуя отменить решение властей.

Чтобы распространять информацию на монгольском языке, люди использовали разные ухищрения. Одно из них: в WeChat есть раскладка на внутреннем монгольском языке, но вместо того, чтобы набирать текст в чате и давать обучающую информацию нейросетям, пользователи стали отправлять друг другу скриншоты текста.

Алгоритмы нейросетей не могли понять распознать jpeg-файлы с монгольским курсивом — рассказал Сойонбо Борджгин, местный журналист, освещавший протесты. Изображения и длинные голосовые сообщения, которыми обменивались протестующие, сложно было быстро оцифровать и расшифровать. Этим жители Внутренней Монголии не только закрыли доступ к обучению ИИ, но и получили весомое преимущество при организации протестов. Полиция просто не успевала проследить за всеми планами митингующих. В итоге усилия Китая по подавлению монгольского языка внутри своих границ только обострили конфликт с местным населением.

Сойонбо Боржгин заинтересовался технологическими аспектами этого конфликта и начал изучать систему машинного обучения — она разрабатывается в университете Внутренней Монголии. Оказывается, новая система должна научить ИИ читать изображения монгольского письма, которое было оцифровано еще во времена, когда внутренний язык поддерживали власти Китая. Эта разработка финансируется в том числе государством и носит статус важного проекта, отвечающего за госбезопасность.

Хотите короче? Смотрите минутные видео и полные ролики о языках, реальной жизни бюро переводов и бизнесе на Youtube-канале iTrex.

Азербайджан

Азербайджанский журналист Арзу Гейбулла глубоко изучает вопросы цифровой цензуры. Она считает, что одна из главных проблем применения ИИ для модерации контента в соцсетях снова связана с «отсутствием понимания культурных, исторических и политических нюансов в контексте».

В Азербайджане антиармянский настрой регулярно фиксируется в интернете. Слово «армянин» часто используется как оскорбление для нападок на диссидентов. Однако это слово нейтрально в большинстве других контекстов, поэтому нейросеть легко упускает из виду его использование.

Арзу Гейбулла считает, что обучение искусственного интеллекта для мониторинга разжигания ненависти и подстрекательства на азербайджанском языке может поставить в тупик ИИ. По ее мнению, модерация контента должна осуществляться людьми.

Сейчас в Азербайджане работает старая система наблюдения. Учитывая ужесточение наказания за экстремизм, улучшение автоматического распознавания азербайджанского языка может только усугубить ситуацию. Журналист утверждает, что вместо развития технологий искусственного интеллекта, стоит инвестировать в найм и обучение живых модераторов.

США

Основатель инициативы First Languages AI Reality Майкл Раннинг Вульф, считает, что разработчики искусственного интеллекта недооценивают проблемы американских языков. Работая исследователем в этой области, он задался вопросом: что же мешает ИИ распознать, например, шайенский язык, который распространен в некоторых штатах Северной Америки.

Майкл пришел к выводу, что основная проблема кроется в том, что современные алгоритмы пока не могут понять редкие американские языки, ведь ИИ рассматривает их через призму английского. Исследователь считает, что в данной ситуации виноват англоцентризм.

Американские языки были поставлены в такое положение давно. До начала 20-го века позиция Правительства США в отношении языков коренных американцев заключалась в их искоренении. С 1860 по 1978 год десятки тысяч детей были насильно разлучены со своими родителями и содержались в школах-интернатах, где общение на родном языке было запрещено и жестоко каралось. Сегодня почти все языки коренных американцев находятся под угрозой исчезновения.

Майкл также считает, что, с другой стороны, инструменты искусственного интеллекта, могут облегчить освоение языков коренных народов и компенсировать сегодняшнюю нехватку материалов и учителей. Это потенциально может уберечь редкий язык от полного вымирания.

Что касается виртуальной слежки, которой так боятся носители языка Внутренней Монголии, Майкл более оптимистичен. Он считает, что эта проблема не настолько масштабна. Ведь в случае с языками коренных американцев, их носителей слишком мало, чтобы государству вкладываться в организацию такого надзора.

А вот сама нация шайенов, например, не хочет иметь ничего общего с чужаками. В настоящее время они не заинтересованы в использовании систем, которые развивает и практикует Майкл Раннинг Вульф.

*В статье упоминается корпорация Meta, деятельность которой запрещена на территории Российской Федерации.

Гаджеты и электроника

5,73 млн интересуются