Ученые Массачусетского технологического института разработали систему, которая учится распознавать объекты в изображении на основе его устного описания. Учитывая само изображение и аудио-сопровождение, модель будет выделять в режиме реального времени описываемые в данный момент объекты и области на картинке. В отличие от сегодняшних технологий распознавания речи, эта система не требует ручной транскрипции и аннотаций на примерах обучения. Вместо этого она узнает слова напрямую из записанных речевых файлов и необработанных изображений, связывая их друг с другом. Модель в настоящее время может распознать лишь несколько сотен разных слов и типов объектов. Но исследователи надеются, что однажды их комбинированная технология распознавания речи и изображений поможет сберечь бесчисленное количество часов ручного труда и открыть новые возможности в распознавании. Например, такая система распознавания, как Siri, требует транскрипции многих тысяч часов записи речи. Используя эти данные, система
Система машинного обучения распознает речь и объекты
24 сентября 201824 сен 2018
1
1 мин