Найти в Дзене
Самара Онлайн 24

Мурманские ученые создали программу для анализа изменений слов в русском языке

Специалисты Мурманского арктического университета разработали уникальную компьютерную программу, позволяющую отслеживать устаревание слов и появление новых лексических единиц в русском языке. Запатентованная технология работает по принципу «цифрового сита», анализируя огромные массивы текста и подсчитывая частоту употребления слов с течением времени. Программа прошла апробацию на данных Национального корпуса русского языка, включающем более 250 миллионов слов. Исследование охватило три периода: досоветский (1700–1916), советский (1918–1991) и постсоветский (1992–2016). Алгоритм привёл слова к начальной форме, что позволило корректно сравнивать их частоту в разные эпохи. Результаты показали, что количество новых слов уменьшается, однако активный словарный запас растёт. Слова вроде «псевдогаллюцинация», «маслообразный» и «ангельчик» исчезают, а после 1991 года появляются «транслит», «лизинговый», «офисный», «инвестирование» и «внедорожник». Также увеличивается доля цифр в текстах. Накопл
Оглавление
   freepik.com
freepik.com

Мурманские ученые создали программу для анализа изменений слов в русском языке

Специалисты Мурманского арктического университета разработали уникальную компьютерную программу, позволяющую отслеживать устаревание слов и появление новых лексических единиц в русском языке. Запатентованная технология работает по принципу «цифрового сита», анализируя огромные массивы текста и подсчитывая частоту употребления слов с течением времени.

Исторический анализ и результаты

Программа прошла апробацию на данных Национального корпуса русского языка, включающем более 250 миллионов слов. Исследование охватило три периода: досоветский (1700–1916), советский (1918–1991) и постсоветский (1992–2016). Алгоритм привёл слова к начальной форме, что позволило корректно сравнивать их частоту в разные эпохи.

Тенденции и новые слова

Результаты показали, что количество новых слов уменьшается, однако активный словарный запас растёт. Слова вроде «псевдогаллюцинация», «маслообразный» и «ангельчик» исчезают, а после 1991 года появляются «транслит», «лизинговый», «офисный», «инвестирование» и «внедорожник». Также увеличивается доля цифр в текстах.

Перспективы применения

Накопленные данные помогут строить прогнозы развития языка и использовать их для обучения искусственного интеллекта, способного моделировать языковые тенденции и понимать динамику изменения лексики.

Больше новостей и эксклюзивных видео смотрите в канале Самара Онлайн 24 в MAX.

Читайте также:

Читать на сайте