Добавить в корзинуПозвонить
Найти в Дзене
Осетия - [æ]

Девятиклассница из Владикавказа переводит сканы осетинских книг в данные для обучения нейросетей

Ученица IT-куба Милана Плиева сравнила существующие OCR-системы, чтобы выбрать лучшую для осетинских текстов и в дальнейшем дообучить её. Это нужно, чтобы подготовить качественные данные для обучения нейросетей. Исследование принесло школьнице победу в секции «Большие данные, искусственный интеллект и безопасность» регионального этапа всероссийского конкурса «Большие вызовы». Об этом телеграм-каналу «Проекты. Северная Осетия» рассказали в IT-кубе. Милана исследовала OCR-системы — технологии, которые распознают текст на изображениях и переводят его в редактируемый формат. «Я решила выбрать лучшую OCR-систему, которая хорошо распознаёт осетинский текст. В дальнейшем я планирую автоматизировать процесс оценки результатов системы», — рассказала Милана. Сейчас цифровых данных на осетинском языке крайне мало. А те, что есть, часто хранятся в виде сканов, фотографий или других нередактируемых файлов. Такой формат не подходит для обучения нейросетей и разработки приложений. Исследование шк

Девятиклассница из Владикавказа переводит сканы осетинских книг в данные для обучения нейросетей.

Ученица IT-куба Милана Плиева сравнила существующие OCR-системы, чтобы выбрать лучшую для осетинских текстов и в дальнейшем дообучить её. Это нужно, чтобы подготовить качественные данные для обучения нейросетей. Исследование принесло школьнице победу в секции «Большие данные, искусственный интеллект и безопасность» регионального этапа всероссийского конкурса «Большие вызовы». Об этом телеграм-каналу «Проекты. Северная Осетия» рассказали в IT-кубе.

Милана исследовала OCR-системы — технологии, которые распознают текст на изображениях и переводят его в редактируемый формат.

«Я решила выбрать лучшую OCR-систему, которая хорошо распознаёт осетинский текст. В дальнейшем я планирую автоматизировать процесс оценки результатов системы», — рассказала Милана.

Сейчас цифровых данных на осетинском языке крайне мало. А те, что есть, часто хранятся в виде сканов, фотографий или других нередактируемых файлов. Такой формат не подходит для обучения нейросетей и разработки приложений.

Исследование школьницы поможет эффективно оцифровывать тексты — от книг до архивных документов. В перспективе это создаст качественную базу для обучения нейросетей, переводчиков и других цифровых сервисов на осетинском языке.