Компания Google начала внедрение новой модели синтеза речи Gemini 3.1 Flash Live, ориентированной на голосовое общение в реальном времени. Технология уже доступна разработчикам через API и AI Studio, а также постепенно появляется в пользовательских сервисах, включая Gemini Live и поиск. Главный акцент сделан на естественности диалога. Новая модель заметно сокращает задержку между репликами и избавляется от типичного «роботизированного» ритма. Разговор с ИИ становится ближе к живому: ответы звучат быстрее, а интонации выглядят более реалистично. По оценкам специалистов, комфортный порог задержки составляет около 300 мс, и Gemini вплотную к нему приближается. Отдельное внимание уделено устойчивости в реальных условиях. Модель лучше справляется с шумом, перебиваниями и паузами в речи, а также точнее выполняет сложные многошаговые запросы. При этом в специализированных тестах она пока уступает узконаправленным системам, но выигрывает за счёт универсальности и способности вести диалог. Чтоб
Google представила Gemini 3.1 Flash Live - голосовой ИИ, который почти не отличить от человека
27 марта27 мар
1 мин