24 подписчика

Google Health AI представила MedASR для медицинской транскрипции

28 декабря 202528 дек 2025

1 мин

Команда Google Health AI представила MedASR – новую модель преобразования речи в текст, основанную на архитектуре Conformer. Она разработана для автоматической транскрипции медицинской диктовки и разговоров между врачами и пациентами, с возможностью интеграции в существующие рабочие процессы с использованием искусственного интеллекта. MedASR является отправной точкой для разработчиков, желающих создавать приложения в сфере здравоохранения, основанные на распознавании голоса. Примеры включают инструменты для диктовки в радиологии и системы для ведения записей о приеме пациентов. Модель содержит 105 миллионов параметров и работает с одноканальным аудио формата WAV (16 кГц, 16 бит). Вывод представлен в виде текста, что позволяет легко интегрировать MedASR с системами обработки естественного языка и генеративными моделями, такими как MedGemma. MedASR входит в состав Health AI Developer Foundations, наряду с другими медицинскими моделями, такими как MedGemma и MedSigLIP, и имеет единые усло

MedASR является отправной точкой для разработчиков, желающих создавать приложения в сфере здравоохранения, основанные на распознавании голоса. Примеры включают инструменты для диктовки в радиологии и системы для ведения записей о приеме пациентов.

Модель содержит 105 миллионов параметров и работает с одноканальным аудио формата WAV (16 кГц, 16 бит). Вывод представлен в виде текста, что позволяет легко интегрировать MedASR с системами обработки естественного языка и генеративными моделями, такими как MedGemma.

MedASR входит в состав Health AI Developer Foundations, наряду с другими медицинскими моделями, такими как MedGemma и MedSigLIP, и имеет единые условия использования.

Обучение модели проводилось на 5 000 часах деидентифицированной медицинской речи, включающей диктовки врачей и клинические разговоры по радиологии, внутренней и семейной медицине. Данные аннотированы медицинскими сущностями, такими как симптомы, лекарства и диагнозы, что обеспечивает хорошее понимание медицинской терминологии.

Важно отметить, что MedASR оптимизирована для английского языка и может демонстрировать сниженную производительность при работе с другими языками или в условиях повышенного шума. Рекомендуется проводить тонкую настройку модели для конкретных условий использования.

Архитектура MedASR основана на кодировщике Conformer, который сочетает в себе сверточные блоки и механизмы самовнимания для эффективного анализа акустических характеристик и временных зависимостей в речи.

В реализации используется интерфейс автоматического распознавания речи в стиле CTC (Connectionist Temporal Classification) с применением AutoProcessor и AutoModelForCTC. Для повышения точности распознавания можно использовать внешнюю шестиграммовую языковую модель с лучевым поиском.

В общем и целом, MedASR – это еще один шаг к тому, чтобы врачи тратили больше времени на общение с пациентами, а не на заполнение бумажной работы. Хотя, конечно, кто-то должен будет и эти бумаги заполнять, так что работа у нас все равно найдется.