Найти тему
Это интересно...

Как ограничение количества символов влияет на твиты

Спонтанное лингвистическое общение обычно не ограничено по длине высказываний, но в некоторых ситуациях существуют ограничения на длину. Например, существуют ограничения по количеству слов в газетных заголовках, рекламе, журналистских статьях, студенческих газетах и научных рукописях.

Эти ограничения иногда влияют на структуру предложений, содержание и словосочетания. Например, появление телеграфа потребовало эллиптического стиля, получившего название телеграфный стиль, который рассматривается как нормальная выразительная форма языка.

Более современным примером эллиптического стиля является текстовый язык, который часто используется в современных текстовых сообщениях.

Для телеграфных и текстовых сообщений характерны установленные ограничения. Однако принципиальное различие заключается в характере ограничения длины: в телеграммах расходы связаны с количеством слов, а не с количеством символов.

В текстовых сообщениях, с другой стороны, необходимо сохранять пространство символов, что приводит к иной практике экономии.

Источник: Яндекс.Картинки
Источник: Яндекс.Картинки

Уменьшение количества символов в тексте может быть достигнуто не только за счет минимизации количества слов, но и за счет сокращения и использования более коротких синонимов и символов. Текст называют "сжатым", что хорошо отражает его грамматические особенности.

Стратегия уменьшения символов, присущий текстовому формату, называется textism. Он не только экономит место для символов, но и сокращает усилия при наборе текста без ущерба для передаваемого значения и даже в некоторых случаях добавляет его. Сюда относятся аббревиатуры (например, LOL), смайлики, стилизация акцентов (например, жаргоны), сокращения (например, "спс" вместо "спасибо"), а также отсутствие пунктуации.

Другой стратегией сокращения использования символов является пропуск определенных категорий речи (POS). 

Примером современной платформы, которая может потребовать стратегии эллиптического письма, является Twitter, онлайн-платформа микроблогов, которая устанавливает ограничения на объем сообщений для своих пользователей. 

8 ноября 2017 года Twitter удвоил количество ограниченных символов от 140 до 280 символов. Ученые назвали это изменением ограничения на количество символов (CLC). 

После пробного периода в сентябре, Twitter отметил, что 9% английских твиттеров достигли предыдущего предела в 140 символов, тогда как только 1% твитов достигли нового предела в 280 символов.

Считалось, что удвоение лимита символов не позволит группе пользователей "заглушить свои мысли". Кроме того, только 2% пробных твитов превысили 190 символов, что указывает на то, что многие пользователи использовали всего на несколько символов больше, чем это было возможно ранее.

Когда Twitter объявил о предстоящем лимите, сообщество отреагировало неоднозначно. Некоторые пользователи оценили увеличенный объем твита, который предоставил больше места для выражения своих мыслей, в то время как другие утверждали, что это нанесет ущерб краткости и точным характеристикам твитов.

Источник: Яндекс.Картинки
Источник: Яндекс.Картинки

Удвоение максимальной длины твита дает интересную возможность изучить последствия ослабления ограничений по длине для лингвистических сообщений.

Что случилось со средней длиной твитов?

И что более интересно, как изменение количества символов повлиял на структуру и использование слов в твитах?

В настоящем исследовании ученые использовали другой подход, который дополняет предыдущие выводы: вместо выбора твитов в определенном диапазоне символов они провели анализ содержания примерно 1,5 миллиона твитов, включая все диапазоны (т.е. 1-140 и 1-280).

В набор данных входят твиты, которые были созданы в период с 25 октября 2017 года по 21 ноября 2017 года, т.е. за две недели до и две недели после создания CLC.

Они провели общий анализ для изучения изменений в количестве символов, слов, предложений, эмоций, знаков препинания, цифр и URL-адресов.

Для проверки первой гипотезы провели анализ маркеров и биграмов для выявления всех изменений относительных частот маркеров (например, отдельных слов, знаков препинания, цифр, специальных символов) и биграмов (последовательностей из двух слов).

Эти изменения относительных частот затем можно было бы использовать для извлечения маркеров, которые были особенно затронуты CLC.

Кроме того, был проведен анализ POS для проверки второй гипотезы, т.е. повлиял ли CLC на структуру POS предложений. 

Результаты показывают, что потребность в экономии места для выражения мнений уменьшилась.

Поэтому первая гипотеза исследователей гласит, что твиты после CLC содержат относительно меньше аббревиатур, сокращений или других "экономящих пространство" слов.

Кроме того, они предполагают, что CLC повлиял на структуру POS твитов, содержащих относительно больше прилагательных, наречий, союзов и предлогов.

Эти категории POS содержат дополнительную информацию о описываемой ситуации, справочную информацию, такую как особенности объектов, временной порядок событий, местоположение событий или объектов и причинно-следственные связи между событиями.

Это структурное изменение также влечет за собой увеличение длины предложения и количества слов в предложении.