Найти в Дзене

Разработчики создали настраиваемый инструмент распознавания речи для Apple Silicon

Разработчики создали открытый пакет на Swift для обработки речи на устройствах Apple Silicon. Инструмент поддерживает 11 моделей речи и работает без подключения к облаку, что делает его особенно полезным для разработчиков, стремящихся к локальной обработке данных. Инструмент использует возможности MLX (GPU) и CoreML (Neural Engine) для выполнения различных задач, включая автоматическое распознавание речи (ASR), синтез речи (TTS) и диаризацию. Это означает, что теперь вы можете создавать приложения, которые могут синхронизации речи, распознавать голос и обрабатывать звук в реальном времени на M2 Max. Конкретные модели включают Qwen3-ASR (поддержка многозадачности) и Parakeet TDT с высокой скоростью обработки, достигающей 0,06 RTF. Для синтеза речи используются Qwen3-TTS и CosyVoice3, обеспечивая низкую задержку в ~120 мс на первом фрагменте. Этот инструмент выделяется на фоне конкурентов, например, WhisperKit, так как запрограммирован таким образом, чтобы избежать блокировки ресурсов Ne
Оглавление

Разработчики создали открытый пакет на Swift для обработки речи на устройствах Apple Silicon. Инструмент поддерживает 11 моделей речи и работает без подключения к облаку, что делает его особенно полезным для разработчиков, стремящихся к локальной обработке данных.

Что предлагает новый пакет

Инструмент использует возможности MLX (GPU) и CoreML (Neural Engine) для выполнения различных задач, включая автоматическое распознавание речи (ASR), синтез речи (TTS) и диаризацию. Это означает, что теперь вы можете создавать приложения, которые могут синхронизации речи, распознавать голос и обрабатывать звук в реальном времени на M2 Max.

Конкретные модели включают Qwen3-ASR (поддержка многозадачности) и Parakeet TDT с высокой скоростью обработки, достигающей 0,06 RTF. Для синтеза речи используются Qwen3-TTS и CosyVoice3, обеспечивая низкую задержку в ~120 мс на первом фрагменте.

Рынок распознавания речи

Этот инструмент выделяется на фоне конкурентов, например, WhisperKit, так как запрограммирован таким образом, чтобы избежать блокировки ресурсов Neural Engine. Все модели соответствуют общим протоколам, что позволяет легко менять реализации и комбинировать их в потоках данных.

План на будущее включает создание функции MeetingTranscriber, которая обеспечит диаризацию и сегментированное распознавание речи во время встреч.

Практическая значимость

Для разработчиков в России этот инструмент представляет интерес, так как обеспечивает низкие затраты на использование в сравнении с облачными решениями, а также обеспечивает надежность благодаря отсутствию интернет-зависимости. Учитывая рост рынка решений для автоматизации и облачных технологий, такой инструмент может занять значительное место на рынке.

Следующий шаг — расширение функциональности и интеграция в реальные приложения, что предоставит разработчикам новые возможности. Это поможет развивать функциональность программ для распознавания речи и их применение в бизнесе и повседневной жизни.

The post Разработчики создали настраиваемый инструмент распознавания речи для Apple Silicon appeared first on itech-news.