Найти в Дзене

Тестируем SpeechKit, Whisper и видеокарты

Привет, на связи опять Артём — техлид mClouds ⛅️ Продолжаю цикл публикаций перед вебинаром — «GPU в облаке: как выжать максимум без лишних затрат». В прошлый раз я показывал, что можно получить до 60 FPS через RDP на наших оптимизированных шаблонах операционных систем — актуально для работы с графикой: CAD, 3D, визуализация, чтобы обеспечить плавность картинки. Сейчас подсвечу, как можно использовать в AI/ML GPU и почему не все GPU одинаковы. 🔹 Кейс 1. Попытаться распознать запись разговора (аудио в текст), чтобы затем выполнить анализ текста. Решение казалось бы очевидным — по API подключиться к SpeechKit и получать запись разговора. Нюанс: SpeechKit показывал результат ошибок на реальных записях 45%. Как сократить? Использовать другие сервисы. Пробовали, но процент ошибок был на уровне 29%. Я был бы не инженером, если бы не провёл тестирование со своими записями и не сравнил WER (word error rate). Как сравнить? Зашёл на наш сайт mClouds.ru, прочитал текст на сайте и сделал запись. С

Привет, на связи опять Артём — техлид mClouds ⛅️

Продолжаю цикл публикаций перед вебинаром — «GPU в облаке: как выжать максимум без лишних затрат».

В прошлый раз я показывал, что можно получить до 60 FPS через RDP на наших оптимизированных шаблонах операционных систем — актуально для работы с графикой: CAD, 3D, визуализация, чтобы обеспечить плавность картинки.

Сейчас подсвечу, как можно использовать в AI/ML GPU и почему не все GPU одинаковы.

🔹 Кейс 1. Попытаться распознать запись разговора (аудио в текст), чтобы затем выполнить анализ текста.

Решение казалось бы очевидным — по API подключиться к SpeechKit и получать запись разговора.

Нюанс: SpeechKit показывал результат ошибок на реальных записях 45%.

Как сократить?

Использовать другие сервисы. Пробовали, но процент ошибок был на уровне 29%.

Я был бы не инженером, если бы не провёл тестирование со своими записями и не сравнил WER (word error rate).

Как сравнить?

Зашёл на наш сайт mClouds.ru, прочитал текст на сайте и сделал запись.

Сделаю оговорку, что текст с специфичными терминами и словами, например Intel Xeon Gold.

🔹 Какие результаты получились?

  • WER SpeechKit — 70.92%
  • WER Whisper Turbo model — 13.95%

Привёл пример на Хабре по сравнению разных уровней GPU — NVIDIA L4 и NVIDIA A16.

Псс.. L4 быстрее на модели Turbo в Whisper на 46%.

Можем в комментариях обсудить, как можно оптимизировать SpeechKit или что протестировать или показать на вебинаре?