Исследователи из Университета Макао создали новую модель управления автономным автомобилем с помощью голосовых команд. Разработка объединяет компьютерное зрение, понимание естественного языка и мощные языковые модели. Ученые отмечают, что люди пока с опаской относятся к полной передаче управления машинам. Голосовой помощник позволит пассажирам давать указания автомобилю, повышая доверие к автономному транспорту. Сложность заключается в том, чтобы научить систему понимать естественную речь и связывать её с обстановкой на дороге. Исследователи использовали набор данных Talk2Car, где нужно указывать на участки дороги, исходя из текстовых инструкций. Для решения этой задачи создана модель CAVG. Она использует компьютерное зрение для выделения областей на изображении с камеры, а затем анализирует их соответствие командам. Особое внимание уделено пониманию эмоционального контекста команд и сложных ситуаций на дороге. В модели применяются современные языковые технологии, вроде GPT-4V, для точ