Найти в Дзене
IT Russia brief

Компьютерная программа отслеживает изменения русского языка

Учёные Мурманского арктического университета разработали программу, которая на основе анализа сотен миллионов слов фиксирует, как со временем меняется русский язык В России команда МАУ представила компьютерную программу для диахронического анализа лексики. Программа работает на основе автоматической лемматизации и количественного анализа текстов. Алгоритм автоматически приводит слова к начальной форме и вычисляет, как менялась частота их употребления в разные исторические периоды. Система обрабатывает большие массивы текстов и выявляет динамику словоупотребления без ручной разметки. Открытие бесценно для лингвистических исследований и позволяет работать с лексическими данными в промышленных масштабах. Благодаря этому исследователи видят, как со временем меняется язык. Тестирование провели на материалах Национального корпуса русского языка. В исследование вошли тексты дореволюционного, советского и постсоветского периодов. Всего программа проанализировала более 250 миллионов слов. Иссле
   Источник изображения: ItRussia.Media
Источник изображения: ItRussia.Media

Учёные Мурманского арктического университета разработали программу, которая на основе анализа сотен миллионов слов фиксирует, как со временем меняется русский язык

В России команда МАУ представила компьютерную программу для диахронического анализа лексики. Программа работает на основе автоматической лемматизации и количественного анализа текстов. Алгоритм автоматически приводит слова к начальной форме и вычисляет, как менялась частота их употребления в разные исторические периоды.

Система обрабатывает большие массивы текстов и выявляет динамику словоупотребления без ручной разметки. Открытие бесценно для лингвистических исследований и позволяет работать с лексическими данными в промышленных масштабах. Благодаря этому исследователи видят, как со временем меняется язык.

Тестирование провели на материалах Национального корпуса русского языка. В исследование вошли тексты дореволюционного, советского и постсоветского периодов. Всего программа проанализировала более 250 миллионов слов.

Интересный результат

Исследование выявило интересную картину. Язык не демонстрирует взрывного появления новых слов. При этом общее число слов, которые активно используются в повседневной речи, растёт.

В текстах стало заметно больше чисел. Понятно, что тут сказывается влияние цифровой среды и усиление роли статистики, технологий и вообще количественных показателей в общественной жизни.

Одновременно часть слов постепенно теряют актуальность и всё реже встречается в современных текстах. Программа позволяет фиксировать такие процессы автоматически.

Разработчики считают, что накопленные данные можно использовать для более точного прогнозирования изменений разговорного и официального языков. Накопленные массивы информации помогут обучать системы искусственного интеллекта лучше понимать эволюцию лексики и адаптироваться к её изменениям.

Поскольку нейросети «общаются» с нами с помощью письменной лексики, исследование просто неоценимо. Так мы сможем лучше понимать друг друга.