Найти в Дзене

тут пошел хайп по поводу свежей работы от Sakana - KAME; вообще, она конца прошлого года, но сейчас про нее вышел пресс-релиз


суть работы очень простая, мы применяем принцип разноскоростных блоков для обработки аудио - есть быстрая аудио-модель, которая говорит, и есть медленная текстовая модель, которая подсказывает ответ (на картинке и видео - синим и оранжевым соотв.); принцип стал набирать популярность еще год назад - разбирали тут (это была работа от Sakana как раз) и тут; отчасти это похоже на speculative decoding, но тут решение о финальном выходе принимает маленькая модель

Около минуты