Найти тему
РР-Новости

Яндекс разрабатывает единую нейронную сеть для распознавания речи и текста

Яндекс работает над разработкой единой нейронной сети для обработки речи и текста. Об этом стало известно благодаря вакансии инженера в области машинного обучения, которая была размещена на сайте компании. Согласно источникам, эта модель, получившая название SpeechGPT, должна быть мультимодальной, то есть способной обрабатывать различные типы входных данных, включая текст и звук.

Согласно информации, предоставленной Дмитрием Дырмовским, генеральным директором группы компаний MDG, мультимодальные модели могут распознавать речь на разных языках, а также распознавать эмоции и сложные невербальные приемы, такие как ирония и сарказм. Они также помогают снизить порог доступа к речевым технологиям, объединяя несколько технологий и используя тот же интерфейс, что и текстовые модели.

Некоторые сервисы Яндекса, такие как помощник Alice и Yandex SpeechSense, уже предлагают возможность приема различных типов данных. Однако есть разница между мультимодальным опытом пользователя и мультимодальностью самой модели, объясняет Кирилл Петров, соучредитель Just AI. Мультимодальные модели позволяют учитывать весь контекст без задержек, в отличие от традиционных подходов, при которых данные передаются из одного представления в другое.

По мнению экспертов, MVP (минимальный жизнеспособный продукт) SpeechGPT может появиться в ближайшие месяцы, после чего начнется процесс постоянных улучшений. Однако некоторые эксперты сомневались, что разработка "Яндекса" будет сопоставима по возможностям с мультимодальными моделями других крупных игроков рынка искусственного интеллекта.

]]>