14 подписчиков

Google Health AI выпускает MedASR: модель преобразования речи в текст на основе Conformer для клинической диктовки

СегодняСегодня

2 мин

Команда Google Health AI выпустила MedASR — модель преобразования речи в текст на основе архитектуры Conformer. Она предназначена для клинической диктовки и разговоров между врачами и пациентами и разработана для интеграции в современные рабочие процессы с использованием искусственного интеллекта. Что такое MedASR и как она используется? MedASR — это модель преобразования речи в текст, основанная на архитектуре Conformer. Она предварительно обучена для медицинской диктовки и транскрипции. Модель позиционируется как отправная точка для разработчиков, которые хотят создавать приложения для здравоохранения, основанные на распознавании голоса, такие как инструменты для диктовки в радиологии или системы для записи заметок о визитах пациентов. Модель имеет 105 миллионов параметров и принимает одноканальное аудио с частотой 16 000 герц и 16-битными целыми волновыми формами. Она выдаёт только текстовый вывод, поэтому может быть напрямую интегрирована в системы обработки естественного языка

Что такое MedASR и как она используется?

MedASR — это модель преобразования речи в текст, основанная на архитектуре Conformer. Она предварительно обучена для медицинской диктовки и транскрипции. Модель позиционируется как отправная точка для разработчиков, которые хотят создавать приложения для здравоохранения, основанные на распознавании голоса, такие как инструменты для диктовки в радиологии или системы для записи заметок о визитах пациентов.

Модель имеет 105 миллионов параметров и принимает одноканальное аудио с частотой 16 000 герц и 16-битными целыми волновыми формами. Она выдаёт только текстовый вывод, поэтому может быть напрямую интегрирована в системы обработки естественного языка или генеративные модели, такие как MedGemma.

MedASR входит в портфель Health AI Developer Foundations вместе с MedGemma, MedSigLIP и другими медицинскими моделями, которые имеют общие условия использования и согласованную систему управления.

Данные для обучения и специализация по предметной области

MedASR обучена на разнообразном корпусе деидентифицированной медицинской речи. Набор данных включает около 5 000 часов диктовки врачей и клинических разговоров в области радиологии, внутренней медицины и семейной медицины.

Для обучения пары аудиосегментов сопоставляются с транскриптами и метаданными. Подмножества разговорных данных аннотируются медицинскими именованными сущностями, включая симптомы, лекарства и состояния. Это даёт модели хорошее покрытие клинической лексики и фраз, которые используются в рутинной документации.

Модель предназначена только для английского языка, и большинство обучающих аудиозаписей получены от носителей языка, выросших в Соединённых Штатах. В документации отмечается, что производительность может быть ниже для других профилей говорящих или при использовании шумных микрофонов, и рекомендуется тонкая настройка для таких условий.

Архитектура и декодирование

MedASR следует дизайну кодировщика Conformer. Conformer сочетает в себе блоки свёртки с уровнями самовнимания, что позволяет улавливать локальные акустические закономерности и более длительные временные зависимости в одном стеке.

Модель представлена в виде автоматизированного детектора речи с интерфейсом в стиле CTC. В эталонной реализации разработчики используют AutoProcessor для создания входных функций из аудиоданных в виде волновых форм и AutoModelForCTC для получения последовательностей токенов. По умолчанию используется жадное декодирование. Модель также может быть объединена с внешней шестиграммовой языковой моделью с лучевым поиском размером 8 для повышения точности распознавания слов.

Результаты на задачах медицинской речи

Ключевые результаты с жадным декодированием и с ше...