В конце декабря Google представил MedASR, специализированную модель для распознавания медицинской речи. MedASR не лечит, не анализирует симптомы и не делает выводов. Она решает всего одну задачу, точно превращает слова врача в текст. Для IT-World эта новость важна не как очередная демонстрация «умного ИИ», а как пример того, с каких практических и приземленных задач сегодня действительно начинается внедрение искусственного интеллекта в медицине.
Фразу «ИИ научился понимать врачей» легко принять за преувеличение. Но именно в медицине задача точного распознавания речи оказывается одной из самых практичных. Врачебная диктовка является зоной повышенного риска. Термины похожи, формулировки длинные, темп высокий. Ошибка в одном слове меняет смысл записи.
MedASR построена на архитектуре Conformer и содержит 105 млн параметров. Обучение велось примерно на 5000 часах обезличенной медицинской речи. В базу вошли врачебные диктовки и фрагменты клинических разговоров из радиологии, внутренней и семейной медицины. Это не лабораторные записи, а живая речь, где профессиональный язык врача постоянно сталкивается с неструктурированными описаниями пациента.
На вход модель принимает моноаудио с частотой 16 кГц и выдает только текст. Никаких диагнозов, рекомендаций или попыток «понять пациента». Такое ограничение выглядит осознанным. Google явно разделяет этапы. Сначала необходимо точно зафиксировать сказанное. Дальше, при необходимости, другие модели, которые работают уже с текстом и помогают оформить заметку, свести симптомы или подготовить черновик записи в МИС.
ИИ в медицине начинал с изображений
ИИ в медицине изначально начинал не с речи. С изображениями ему было проще работать и проще отвечать за результат. Рентген, КТ, МРТ дают фиксированный вход. Форматы стандартизированы. Ошибку можно увидеть, пересмотреть, обсудить с коллегами. Для алгоритмов это понятная задача. Для регуляторов тоже.
Поэтому именно радиология стала первым рабочим сегментом медицинского ИИ. Алгоритмы здесь не ставят диагнозы и не спорят с врачом. Они подсвечивают подозрительные зоны, помогают с первичной сортировкой исследований и снижают риск пропуска находок в большом потоке снимков. В реальной практике это второй взгляд и страховка от человеческой усталости, а не автоматическая диагностика.
Кейсы практического применения ИИ в медицине
Российский рынок пошел ровно тем же путем. Большинство зрелых ИИ-решений в медицине у нас связаны именно с анализом изображений. Это системы поддержки принятия врачебных решений для КТ и рентгена, встроенные в PACS и МИС и прошедшие регистрацию как медицинское изделие. Не презентационные пилоты, а продукты, которые встраиваются в клинический контур и работают внутри существующих процессов.
Характерным примером можно назвать Botkin.AI. Проект стартовал в 2017 году и стал одним из первых заметных российских решений для анализа КТ с помощью ИИ. Его изначально позиционировали как «второе мнение» для врача, а не как автоматическую диагностику. Платформа подсвечивала потенциально проблемные зоны на снимках и помогала не пропустить патологические изменения в потоке исследований. В 2020 году система получила регистрационное удостоверение Росздравнадзора и использовалась в ряде пилотных и коммерческих внедрений, в том числе в рамках COVID-сценариев. При этом история Botkin.AI показала и обратную сторону рынка: высокую зависимость от регуляторики, пострегистрационного сопровождения и устойчивой экономики проекта. В 2023 году действие регистрационного удостоверения было приостановлено, а сам разработчик впоследствии вошел в состав конкурирующей компании.
Похожую роль играет и « Третье мнение». Здесь фокус сделан на рентгенологии и массовых сценариях, где поток исследований особенно высок, а времени на каждый снимок мало. Алгоритм используется не для вынесения решения, а для первичной навигации по данным и подсветки потенциально значимых зон, которые врач затем оценивает самостоятельно.
IT-World ранее рассказывал, как нейросети помогают медицинскому бизнесу не только спасать жизни, но и зарабатывать деньги. Сбер сообщал как искусственный интеллект с точностью более 80% оценивает техническое качество маммографии и занимается диагностикой сердечно-сосудистых заболеваний. ИИ пришел и в стоматологию. Он видит то, что человеческий глаз может пропустить, и помогает врачу быть точнее. Но насколько далеко мы готовы пустить ИИ в стоматологическое кресло или на место врача?
Важно, как такие системы описываются и применяются. Ни в России, ни за ее пределами их почти никогда не называют автоматической диагностикой. Используются формулировки вроде «предварительный анализ», «подсветка», «поддержка принятия решений». Финальное слово остается за врачом. В противном случае продукт просто не проходит ни регуляторный контроль, ни реальную клиническую практику.
На этом фоне становится понятнее, почему голос и диалог долго оставались вне фокуса. Не потому, что они второстепенны, а потому что устная речь сложнее формализуется и хуже поддается проверке. Снимок можно открыть еще раз. Сказанное же слово сразу становится частью документа
С речью все оказалось сложнее
С речью у медицинского ИИ все сложнее и приземленнее, чем может показаться со стороны. Здесь нет одного технологического «узкого места». Есть сразу несколько факторов, которые вместе делают задачу дорогой и рискованной.
Медицинская речь плохо формализуется. Врач диктует быстро, часто на ходу. Использует сокращения, профессиональный сленг, может менять формулировки в середине фразы. Пациент говорит иначе. С эмоциями, паузами, повторами, бытовыми описаниями. Добавим фон кабинета, неидеальные микрофоны, акценты. В итоге входные данные получаются нестабильными даже в пределах одной клиники.
Вторая проблема — цена ошибки. В радиологии неверно подсвеченный участок можно пересмотреть. В голосе ошибка сразу попадает в текст назначения или протокол осмотра. И дальше начинает жить своей жизнью. Поэтому требования к качеству распознавания здесь выше, чем в любом другом ASR-сценарии.
На этом фоне параметры MedASR выглядят уже не так эффектно, хотя более реалистично. 105 млн параметров и около 5000 часов обезличенной медицинской речи не так уж и много, скорее это минимально достаточный объем, чтобы модель перестала системно путать термины. Даже эти 5000 часов не представляют из себяоднородный массив. Там смешаны диктовки и диалоги, разные специальности, разные стили речи. Это не идеальный датасет, а компромисс между тем, что хотелось бы иметь, и тем, что вообще возможно получить в реальных условиях здравоохранения.
В обычном ASR достаточно считать процент ошибок по словам. В медицине этого мало. Ошибка в предлоге и ошибка в названии препарата формально равны, но по последствиям несопоставимы. Поэтому такие системы приходится оценивать не только по общему качеству, но и по типам ошибок. Это усложняет и разработку, и внедрение
Именно здесь становится понятен подход Google. MedASR не пытается понимать смысл сказанного и не лезет в клиническую логику. Он просто аккуратно фиксирует речь специалиста. Все остальное выносится в отдельные слои и отдельные модели, где риски можно контролировать иначе.
Что есть в России
Прямых публичных моделей, обученных именно на медицинской речи и решающих задачу специализированного ASR, у нас сейчас нет. То, что используется в клиниках, устроено иначе.
Чаще всего это не модель, а связка. Универсальное распознавание речи общего назначения. Поверх него накладываются медицинские словари, сокращения, локальные термины. Дальше слой обработки текста, который вытаскивает лекарства, дозировки, даты, длительности и пытается аккуратно разложить все по полям МИС. Такой подход работает, но сильно зависит от условий. От микрофона, от кабинета, от того, как именно говорит врач. Масштабировать его сложно, каждый проект получается почти штучным.
Параллельно развивается другая ветка — медицинские ассистенты. Они часто воспринимаются как «ИИ в медицине», но на практике работают в более безопасной зоне. Сбор жалоб, предскрининг, навигация по данным пациента, помощь врачу в оформлении записей. Пример — решения СберМедИИ, которые фокусируются именно на поддержке процессов, а не на клинических выводах. Это интерфейс и вспомогательный слой, а не диагноз и не лечение.
И здесь проходит важная граница. Российский рынок довольно четко разделяет помощь врачу и принятие медицинского решения. Чем ближе система подходит к клиническим выводам, тем выше регуляторные, юридические и этические требования. Поэтому большинство решений сознательно останавливаются на шаг раньше и не пытаются «говорить вместо врача».
На этом фоне MedASR воспринимается не как продукт, который можно просто скопировать, а как ориентир. Он показывает, сколько данных и аккуратности требуется, чтобы голосовой асстистент в медицине перестал быть побочной функцией и стал самостоятельным инструментом.