Найти в Дзене
Молодёжная газета

Цифровой резонанс: В Башкирии разрабатывают стратегию развития языка в эпоху ИИ

Стремительное развитие искусственного интеллекта рождает новые вызовы: язык, не освоивший пространство искусственного интеллекта, рискует покинуть сферу живого общения. Именно это стало темой совещания прошедшего сегодня, 13 февраля, под руководством первого заместителя премьер-министра Правительства РБ Урала Кильсенбаева. Эксперты обсудили стратегию, которая должна уберечь родную речь от превращения в «музейный артефакт» и обеспечить её место в цифровом будущем. - Если мы сейчас не задумаемся о том, как работать вместе с искусственным интеллектом для развития наших родных языков, существует большой риск: через пять-шесть лет мы можем вывести их из живого общения, - подчеркнул Урал Кильсенбаев. - Наши языки превратятся в «музейные экспонаты» — останутся в культурных произведениях, спектаклях, возможно, в системе образования, но перестанут развиваться. Как латинский язык: его изучают, на нём написаны важные тексты, но на нём никто не говорит в повседневной жизни. Раньше мы говорили: со

Стремительное развитие искусственного интеллекта рождает новые вызовы: язык, не освоивший пространство искусственного интеллекта, рискует покинуть сферу живого общения. Именно это стало темой совещания прошедшего сегодня, 13 февраля, под руководством первого заместителя премьер-министра Правительства РБ Урала Кильсенбаева. Эксперты обсудили стратегию, которая должна уберечь родную речь от превращения в «музейный артефакт» и обеспечить её место в цифровом будущем.

- Если мы сейчас не задумаемся о том, как работать вместе с искусственным интеллектом для развития наших родных языков, существует большой риск: через пять-шесть лет мы можем вывести их из живого общения, - подчеркнул Урал Кильсенбаев. - Наши языки превратятся в «музейные экспонаты» — останутся в культурных произведениях, спектаклях, возможно, в системе образования, но перестанут развиваться. Как латинский язык: его изучают, на нём написаны важные тексты, но на нём никто не говорит в повседневной жизни. Раньше мы говорили: сохраняйте языковую среду в семье, учитесь в школах, проводите культурные мероприятия. Сегодня на первый план выходит другое — развитие языка в цифровой среде и искусственном интеллекте. И важно понимать: для этого не нужны колоссальные бюджеты. Достаточно, чтобы каждый носитель языка ежедневно уделял внимание его использованию в цифровом пространстве — и уже эта совокупная активность станет серьёзным вкладом в сохранение языка.

Выступая на совещании, Рустам Гатауллин, ученый , экономист, государственный и общественный деятель, обозначил тревожную тенденцию цифровой эпохи: «Языки будущего — это языки, интегрированные в большие языковые модели. А язык, оставшийся за пределами цифровой экосистемы, рискует стать невидимым для новых поколений».

По его словам, несмотря на первые успехи — включение башкирского языка в ряд нейросетей, создание переводчиков и систем распознавания речи, данных на башкирском недостаточно для полноценного развития модели.

- Усилий отдельных энтузиастов уже недостаточно, — подчеркнул Рустам Гатауллин. — Ключ к спасению языка — в массовом вовлечении. Каждый носитель башкирского языка может и должен стать учителем искусственного интеллекта: задавать вопросы нейросетям, просить составить тексты, рассказывать сказки на родном языке. Каждый такой запрос создаёт «языковой резонанс» — обучающий сигнал, который заставляет ИИ развиваться в нужном направлении.

Эксперт призвал запустить широкомасштабную кампанию по «цифровому обучению» языка, чтобы уже через год-полтора искусственный интеллект мог генерировать контент на башкирском на уровне носителя.

Фонд развития башкирского языка уже сегодня демонстрирует внушительные результаты цифровизации: 8 тематических сайтов, 13 мобильных приложений для разных возрастных групп, 217 умных колонок с поддержкой родной речи, сотрудничество с такими гигантами, как Сбер и РУВИКИ. Недавно состоялось тестирование системы машинного перевода на основе переданных Сберу 4 гигабайт текстовых материалов — качество перевода оценено как «хорошее». Однако, как констатировала руководитель Фонда Гульназ Юсупова, за этим успехом скрывается еще одна угроза: «Объём языковых знаний модели остаётся ограниченным из-за недостаточного массива качественных обучающих данных».

Суть проблемы — в разрыве между текущими возможностями и требованиями современных нейросетей. Для полноценного обучения ИИ требуется корпус текстов объёмом не менее десятка миллионов слов, тогда как в открытом интернет-пространстве нормативного башкирского контента критически мало. При этом существующие цифровые проекты разрознены: приложения и ресурсы созданы в разное время, размещены на разных платформах, отсутствуют единые хранилища кода и языковых данных.

- Мы передали Сберу 4 гигабайта — это достижение, — отметила Юсупова. — Но для того чтобы ИИ заговорил на башкирском как носитель, нужны не гигабайты отдельных текстов, а системные корпуса на основе архивов издательства «Китап», библиотек, радио- и телестудий.

Выход — в создании единого центра IT-языковых проектов, который аккумулирует цифровые ресурсы, обеспечит централизованное хранилище данных и сформирует машинно-читаемые датасеты в защищённом формате, исключающем нарушение авторских прав.

- Обычному пользователю такие данные будут бесполезны — их нельзя читать как книги, — пояснила спикер. — Но для нейросети это станет полноценным «питанием». Без этого мы рискуем остаться с умными колонками, которые понимают отдельные фразы, но не способны вести диалог на уровне живого языка.

По мнению Гульназ Юсуповой, только системная работа с архивами и создание единой инфраструктуры позволят вывести башкирский язык из статуса «языка с ограниченными возможностями» в цифровой среде к статусу полноценного участника эпохи искусственного интеллекта.

Проректор по цифровизации Уфимского университета науки и технологий Айнур Хайбуллин обозначил главный принцип: «Любой ИИ начинается не с кода, а с данных». Поэтому первый шаг — создание централизованного «озера данных» на российских серверах, где филологи и волонтёры будут собирать и верифицировать тексты. Цель — 10 млн словоупотреблений и 300 тыс. парных предложений для формирования полноценного датасета.

Однако просто загрузить тексты в готовую модель недостаточно. Башкирский язык обладает агглютинацией: одно слово может содержать множество морфем, которые стандартные нейросети разбивают на десятки токенов, вызывая ошибки перевода.

- Токен — это мозговая клетка машины, — пояснил Айнур Хайбуллин. — Для башкирского нужны свои «клетки»». Поэтому второй этап — разработка собственного токенизатора и библиотеки языковых единиц, своего «алфавита ИИ».

Финал дорожной карты — массовая обратная связь: пользователи через ботов в браузерах и мессенджерах будут сообщать об ошибках, а система автоматически направлять их на дообучение моделей.

- Когда каждый носитель станет учителем ИИ, даже законы будут переводиться без потери смысла, — отметил спикер.

Депутат Госдумы РФ Эльвира Айткулова, комментируя проект плана мероприятий по развитию башкирского языка в ИИ, предложила усилить его практической составляющей: «План структурирован и логичен, но он весь слабый в части конкретики. Его нужно дополнить организационными мерами, которые переведут обсуждение в практическую плоскость».

В качестве примера она привела опыт Липецкой области, где с прошлого года в каждом районе назначено ответственное лицо за внедрение искусственного интеллекта с отдельными показателями эффективности.

- Для развития родных языков в цифровой среде нужны такие же системные решения — чтобы в каждом районе был человек, отвечающий за продвижение языка в ИИ, независимо от местной специфики, — отметила Эльвира Айткулова.

Кроме того, она анонсировала инициативу по включению темы родных языков в повестку парламентских слушаний по искусственному интеллекту, запланированных на апрель.

Завершая совещание, первый заместитель Премьер-министра Правительства РБ Урал Кильсенбаев объявил о создании рабочей группы, которая станет связующим звеном между стратегическими решениями и их реализацией. Её задачи определены чётко: во-первых, критически пересмотреть и дополнить проект плана мероприятий, включив в него измеримые критерии оценки качества, во-вторых, запустить систему обучения тех, кто непосредственно работает с языковым контентом.

- Нам нужны не только технические специалисты, но и филологи, — подчеркнул Кильсенбаев. — Первым делом проведём семинары для учителей родных языков: покажем, как использовать ИИ на уроках, как генерировать задания, проверять работы. Но это лишь начало. Глубже придётся работать с библиотекарями — они владеют архивами, которые нужно перепрошить в машиночитаемый формат. Обязательно вовлечём учреждения культуры и СМИ: именно они сегодня производят живой контент на башкирском языке.

Рабочая группа начнёт работу уже в ближайшие недели — сначала в формате видеоконференций, чтобы оперативно включить в процесс все муниципалитеты республики.