MTS AI при поддержке Сколтеха разработал уникальный датасет для идентификации парафразов
Компания MTS AI вместе со Сколтехом создали датасет (набор данных) RuPAWS, с помощью которого можно обучать и тестировать модели для индентификации парафразов.Dgl.ru
Датасет RuPAWS состоит из 17 346 пар парафразов и содержит большое количество предложений, в которых много одинаковых слов, но смысл при этом разный.ПЛАС
Один из эталонных датасетов, ParaPhraser, близок по объёму (9 151 пар предложений), и успешно используется для обучения и тестирования моделей машинного обучения.ПЛАС
Замена одного слова на другое 0.96 0.02 NLP-исследователи MTS AI Никита Мартынов и Ирина Кротова представят статью о новом языковом корпусе RuPAWS на одной из крупнейших международных конференций LREC 2022, которая пройдет в Марселе с 20 по 25 июня.ПЛАС