Найти тему
Pixel Google

Как работает новый диктофон на телефонах Google Pixel?

Оглавление

Однозначно, Google сейчас в авангарде исследований искусственного интеллекта (ИИ) и машинного обучения (МО). Достаточно посмотреть на продукцию компании — начиная с топовой технологии компьютерной фотографии, заканчивая подсказками при наборе писем. ИИ и МО — ключевой элемент всей деятельности Google.

Очередной пример успешного применения МО — диктофон на Pixel 4. Компания выпустила умное приложение вместе с новым Pixel: с помощью встроенного машинного обучения устройство может расшифровывать аудиозаписи. Спустя несколько месяцев приложение стало доступно и на более старых моделях телефона, на днях в блоге Google появилось подробное объяснение того, как именно работает программа.

Расшифровка

-2

Приложение создает скрипт прямо во время проигрывания записи. По готовой расшифровке можно искать отдельные слова — так вам не придется переслушивать целую запись, чтобы найти конкретный момент разговора.

-3

Для этого в Google улучшили встроенную модель распознавания речи. Благодаря обновлению диктофон теперь может расшифровывать записи длиной до нескольких часов. Слова отображаются с прикрепленной временной меткой — при прочтении вы можете нажать на любое слово, и запись начнет проигрываться с нужного момента. Таким же образом можно включить нужное место записи, запустив предварительно поиск конкретного слова.

Визуализация звука

-4

Также в блоге Google объяснили, как для построения связи между звуками и цветами используются сложные нейросети. Та же модель работы используется в Live Caption — функция, появившаяся впервые на Android 10.

Модель распознает различные звуки, например, лай собаки или игру на музыкальном инструменте, а затем назначает выбранной аудиоволне свой цвет. Это позволяет пользователю визуально отличать звуки. Так, если где-то еще на записи лает собака, вы можете сразу это увидеть и промотать этот момент аудио, не слушая его.

-5

Диктофон самостоятельно определяет разные виды звуков — речь, музыку — каждые 50 миллисекунд в промежутке 960 миллисекунд. Представители компании говорят, что такой механизм «позволяет точнее определить начало и конец звука, чем просто проверка большого отрезка длиной в 960 миллисекунд».

-6

Возможные названия и тэги

-7

По окончании записи приложение предложит название для нее и соответствующие тэги. Для этого диктофон рассчитывает частоту употребления отдельных слов и их грамматическую роль в предложении. Слова, которые приложение считывает как наиболее важные, выделяются прописными буквами, после этого встроенный алгоритм помечает существительные и имена собственные, которые пользователю легче всего запомнить. Затем они проходят через специальный механизм, который выстраивает их по порядку в соответствие со степенью важности. Финальный результат выводится на экран.

-8
-9

Что же, сделать действительно хороший диктофон не так просто, как кажется. Удивительно много работы приложение производит за кадром. Причем, помимо всего прочего, в Google позаботились и о безопасности данных — все перечисленные процессы происходят исключительно на телефоне. Единственный минус — пока приложение не может ориентироваться между динамиками, но наверняка и с этим компания вскоре разберется.