6 месяцев назад
Почитал RASU: Retrieval Augmented Speech Understanding through GenerativeModeling с #interspeech в надежде, что кто-то уже реализовал RAG для SLU. Пока что, есть ощущение, что надежде не суждено было сбыться. Я надеялся на что-то типа - навигатор просят построить маршрут на матч спартак-динамо, модель распознает интент построения маршрута, и спрашивает в текстовой базе события и адреса. После чего строит дерево как на картинке, несмотря на то, что ничего не знала про игры и спартак в обучающей выборке. А тут другое - в базе часть обучающей выборки(а может и вся), аудио интент и слот для каждого сэмпла. Retriever ищет самые близкие аудио, извлекает из базы top k, вместе с интентами и слотами, засовывает их в виде промпта декодеру, получает результат. Не покидает ощущение, что авторы просто переизобрели KNN. Улучшение результата по сравнению с e2e WhiSLU - доли процента. Если вручную выбрать из базы правильные примеры для промпта - получили бы еще +11% по exact match. #конференция #статья #slu #asr
741 читали · 2 года назад
Значение рун в рунической магии. Для вас я собрала все руны в одном месте, чтобы в любой момент вы могли зайти и посмотреть нужную. Феху Уруз Турисаз Ансуз Райдо Кеназ Гебо Вуньо Хагалаз Наутиз Иса Йера Эйваз Перт Альгиз Соулу Тейваз Беркана Эваз Манназ Лагуз Ингуз Дагаз Одал