1256 подписчиков

Эй, ИИ! Давай поговорим. Meta, Google и другие компании способствуют возрождению голосовых помощников, но люди уже более 10 лет считают эту

27 марта 202527 мар 2025

6 мин

Пара очков от Meta делает снимок, когда вы говорите: «Эй, Мета, сделай фото». Миниатюрный компьютер, который крепится к вашей рубашке, Ai Pin, переводит иностранные языки на ваш родной язык. На экране с искусственным интеллектом есть виртуальный помощник, с которым вы разговариваете через микрофон. В прошлом году OpenAI обновил свой чат-бот ChatGPT, чтобы он мог отвечать устно, а недавно Google представил Gemini, замену своему голосовому помощнику на телефонах Android. Технологические компании делают ставку на возрождение голосовых помощников спустя много лет после того, как большинство людей решили, что разговаривать с компьютерами — это не круто. Сработает ли это на этот раз? Возможно, но это может занять некоторое время. Согласно исследованиям проведённым за последнее десятилетие, многие люди до сих пор никогда не пользовались голосовыми помощниками, такими как Alexa от Amazon, Siri от Apple и Google Assistant, а подавляющее большинство тех, кто ими пользуется, заявили, что никогда

Оглавление

технологию немодной
Почему голосовые помощники становятся умнее
Когда голосовые помощники помогают, а когда нет

технологию немодной

В прошлом году OpenAI обновил свой чат-бот ChatGPT, чтобы он мог отвечать устно, а недавно Google представил Gemini, замену своему голосовому помощнику на телефонах Android.

Технологические компании делают ставку на возрождение голосовых помощников спустя много лет после того, как большинство людей решили, что разговаривать с компьютерами — это не круто.

Сработает ли это на этот раз? Возможно, но это может занять некоторое время.

Согласно исследованиям проведённым за последнее десятилетие, многие люди до сих пор никогда не пользовались голосовыми помощниками, такими как Alexa от Amazon, Siri от Apple и Google Assistant, а подавляющее большинство тех, кто ими пользуется, заявили, что никогда не хотели бы, чтобы их видели разговаривающими с ними на публике.

Я тоже редко пользуюсь голосовыми помощниками, и в ходе недавнего эксперимента с очками Meta, которые оснащены камерой и динамиками для получения информации об окружающей обстановке, я пришёл к выводу, что разговаривать с компьютером в присутствии родителей и их детей в зоопарке по-прежнему невероятно неловко.

Это заставило меня задуматься, станет ли это когда-нибудь нормой. Не так давно люди, разговаривающие по телефону с помощью Bluetooth-гарнитур, казались сумасшедшими, но теперь так делают все. Увидим ли мы когда-нибудь множество людей, которые ходят и разговаривают со своими компьютерами, как в научно-фантастических фильмах?

Я задал этот вопрос экспертам в области дизайна и исследователям, и они пришли к единому мнению: поскольку новые системы искусственного интеллекта улучшают способность голосовых помощников понимать, что мы говорим, и действительно помогать нам, в ближайшем будущем мы, скорее всего, будем чаще разговаривать с устройствами — но до того, как мы начнём делать это публично, ещё много лет.

Вот что нужно знать.

Почему голосовые помощники становятся умнее

Новые голосовые помощники работают на основе генеративного искусственного интеллекта, который использует статистику и сложные алгоритмы, чтобы угадывать, какие слова сочетаются друг с другом, подобно функции автозаполнения в вашем телефоне. Это делает их более способными использовать контекст для понимания запросов и последующих вопросов, чем виртуальные помощники вроде Siri и Alexa, которые могут отвечать только на ограниченный список вопросов.

Например, если вы скажете ChatGPT: «Какие есть рейсы из Сан-Франциско в Нью-Йорк на следующей неделе?» — и продолжите: «Какая там погода?» и «Что мне взять с собой?» — чат-бот сможет ответить на эти вопросы, потому что он устанавливает связи между словами, чтобы понять контекст разговора. (В прошлом году газета New York Times подала в суд на OpenAI и его партнёра Microsoft за использование без разрешения новостных статей, защищённых авторским правом, для обучения чат-ботов.)

Более старый голосовой помощник, такой как Siri, который реагирует на базу данных с командами и вопросами, которые он запрограммирован понимать, не сработает, если вы не используете конкретные слова, в том числе «Какая погода в Нью-Йорке?» и «Что мне взять с собой в поездку в Нью-Йорк?»

Первый разговор звучит более непринуждённо, как если бы люди разговаривали друг с другом.

Основная причина, по которой люди отказались от голосовых помощников, таких как Siri и Alexa, заключалась в том, что компьютеры не могли понять большую часть того, о чём их просили, и было трудно понять, какие вопросы работают.

Димитра Вергири, директор по речевым технологиям в SRI, исследовательской лаборатории, разработавшей первоначальную версию Siri до того, как её приобрела Apple, сказала, что генеративный ИИ решает многие проблемы, с которыми исследователи боролись годами. По её словам, эта технология позволяет голосовым помощникам понимать спонтанную речь и давать полезные ответы.

Джон Бёрки, бывший инженер Apple, работавший над Siri в 2014 году и открыто критиковавший этого помощника, сказал, что, по его мнению, из-за того, что генеративный искусственный интеллект упрощает получение помощи от компьютеров, многие из нас, скорее всего, скоро будут разговаривать с помощниками — и когда это начнут делать достаточно людей, это может стать нормой.

«Siri была ограничена по размеру — она знала лишь ограниченное количество слов, — сказал он. — Теперь у вас есть более совершенные инструменты».

Но могут пройти годы, прежде чем новая волна ИИ-помощников получит широкое распространение, потому что они создают новые проблемы. Чат-боты, в том числе ChatGPT, Google Gemini и Meta AI, склонны к «галлюцинациям», то есть они что-то выдумывают, потому что не могут найти правильные ответы. Они ошибаются в базовых задачах, таких как подсчёт и обобщение информации из интернета.

Когда голосовые помощники помогают, а когда нет

По мнению экспертов, даже несмотря на совершенствование речевых технологий, общение вряд ли заменит или вытеснит традиционное взаимодействие с компьютером с помощью клавиатуры.

В настоящее время у людей есть веские причины разговаривать с компьютерами в некоторых ситуациях, когда они находятся в одиночестве, например, когда они едут в машине и хотят проложить маршрут. Однако в общественных местах разговор с помощником не только может показаться странным, но и чаще всего это непрактично. Когда я надел очки Meta в продуктовом магазине и попросил их определить, что это за продукт, подслушивающий покупатель дерзко ответил: «Это репа».

Вы бы тоже не стали диктовать конфиденциальное рабочее электронное письмо в присутствии других людей в поезде. Точно так же было бы невежливо просить голосового помощника зачитывать текстовые сообщения вслух в баре.

«Технология решает проблему», — сказал Тед Селкер, ветеран в области разработки продуктов, работавший в IBM и Xerox PARC. «Когда мы решаем проблемы, а когда создаём их?»

Тем не менее, можно найти ситуации, когда разговор с компьютером настолько помогает вам, что вам будет всё равно, насколько странно это выглядит со стороны, — сказала Каролина Миланези, аналитик исследовательской фирмы Creative Strategies.

По пути на следующую встречу в офисе было бы полезно попросить голосового помощника рассказать вам о людях, с которыми вы собираетесь встретиться. Во время прогулки по тропе было бы быстрее спросить у голосового помощника, куда повернуть, чем останавливаться и открывать карту. Во время посещения музея было бы здорово, если бы голосовой помощник мог рассказать вам об истории картины, на которую вы смотрите. Некоторые из этих приложений уже разрабатываются с использованием новых технологий искусственного интеллекта.

Когда я тестировал некоторые из последних продуктов с голосовым управлением, я заглянул в это будущее. Например, когда я записывал видео, как пеку хлеб, надев очки Meta, было удобно сказать: «Эй, Meta, сними видео», потому что у меня были заняты руки. А попросить Ai Pin от Humane продиктовать мой список дел было удобнее, чем останавливаться и смотреть на экран телефона.

«Пока вы идёте — это идеальное время», — сказал Крис Шмандт, который десятилетиями работал над речевыми интерфейсами в Media Lab Массачусетского технологического института.

Когда он около 35 лет назад стал одним из первых пользователей мобильного телефона, он рассказывал, что люди смотрели на него, когда он бродил по кампусу Массачусетского технологического института и разговаривал по телефону. Теперь это нормально.

Я уверен, что настанет день, когда люди будут иногда разговаривать с компьютерами на улице, но это произойдёт очень не скоро.

Подпишитесь на канал "Жизнь Дурова: ЗОЖ, деньги, ИТ" - все самое главное о здоровье, технологиях и деньгах