Разработчики создали открытый пакет на Swift для обработки речи на устройствах Apple Silicon. Инструмент поддерживает 11 моделей речи и работает без подключения к облаку, что делает его особенно полезным для разработчиков, стремящихся к локальной обработке данных. Инструмент использует возможности MLX (GPU) и CoreML (Neural Engine) для выполнения различных задач, включая автоматическое распознавание речи (ASR), синтез речи (TTS) и диаризацию. Это означает, что теперь вы можете создавать приложения, которые могут синхронизации речи, распознавать голос и обрабатывать звук в реальном времени на M2 Max. Конкретные модели включают Qwen3-ASR (поддержка многозадачности) и Parakeet TDT с высокой скоростью обработки, достигающей 0,06 RTF. Для синтеза речи используются Qwen3-TTS и CosyVoice3, обеспечивая низкую задержку в ~120 мс на первом фрагменте. Этот инструмент выделяется на фоне конкурентов, например, WhisperKit, так как запрограммирован таким образом, чтобы избежать блокировки ресурсов Ne
Разработчики создали настраиваемый инструмент распознавания речи для Apple Silicon
6 марта6 мар
1 мин