Speech to text Появилась недавно у меня задача - перевести довольно много аудиосообщений в текст. К моему удивлению, ChatGPT, до этого довольно бодро справлявшийся с моими задачами, дал слабину. Причем не справился не только перевести голос в текст, но и нормально обработать результаты, когда я уже транскрибировал без него! Запахло слабостью в OpenAI короче говоря. Гораздо лучше себя повел Gemini, успешно распознав пару аудио-файлов. Однако в UI нельзя загрузить больше 10 файлов аудио за раз, а у меня был 121 файл. Пришлось расчехлять питон и делать небольшой скриптик. Заиспользовал whisper, и в 12 GB моей RTX 4070 даже влезла какая-то large модель, что приятно. Не зря гроб собирал! По результату могу сказать, что сработало все это дело замечательно. Аудиофайлы я экспортировал из своего приватного канала в телеграме, который создал специально для этого дела. Вначале я думал использовать фичу телеграм премиума по распознаванию аудио, однако оказалось, что долгие аудио он не вывозит.