Исследователи Института искусственного интеллекта МГУ и Яндекса создали LORuGEC – первый открытый набор данных с примерами ошибок по сложным правилам русского языка. Они также разработали метод, который помогает дообучить нейросети и повысить точность исправлений на 5–10%. Разработки находятся в открытом доступе, их можно использовать например, для создания образовательных сервисов. Статья о датасете и методе дообучения нейросетей получила приз за лучшую работу на воркшопе по инновационному использованию ИИ в образовании, который прошел в рамках международной конференции по компьютерной лингвистике ACL 2025. Проблема существующих языковых моделей заключается в ошибках при работе со сложными правилами русского языка, которые проверяют в том числе на ЕГЭ и олимпиадах. LORuGEC охватывает 48 правил русского языка. Всего в датасет вошло почти 1000 предложений, каждое из которых связано с конкретной языковой нормой. Яндекс уже протестировал новый метод на собственных моделях YandexGPT 5 Lite
МГУ и Яндекс создали первый открытый датасет для обучения нейросетей сложным правилам русского языка
26 ноября 202526 ноя 2025
1
1 мин