Найти в Дзене
Воробей

Как работает Алиса: мой личный опыт общения с голосовым помощником

Когда я впервые сказал «Алиса, включи музыку», я думал, что это просто магия. Ну, или сложная программа, которая делает вид, что понимает. Но чем больше я узнавал, тем больше понимал: внутри этой «магии» — настоящая инженерия будущего. Сегодня я расскажу, как всё устроено, с точки зрения обычного пользователя, который однажды решил разобраться. Алиса появилась в октябре 2017 года. Её сделали в «Яндексе», и главная задача разработчиков была не просто создать «исполнителя команд», а сделать полноценного собеседника. С характером. Чтобы я мог спросить про погоду, а потом тут же пошутить про этот вечный дождь. И чтобы она поддержала. Мне всегда было интересно, как она вообще понимает русский язык. Ведь это не английский, где порядок слов почти фиксирован. У нас можно сказать «поставь песню группы „Би-2“», а можно «„Би-2“, песню поставь» — и смысл тот же. Алиса понимает оба варианта. И это первое, что меня зацепило. Первая магия происходит в момент, когда я произношу «Алиса». На моей колонк
Оглавление

Когда я впервые сказал «Алиса, включи музыку», я думал, что это просто магия. Ну, или сложная программа, которая делает вид, что понимает. Но чем больше я узнавал, тем больше понимал: внутри этой «магии» — настоящая инженерия будущего. Сегодня я расскажу, как всё устроено, с точки зрения обычного пользователя, который однажды решил разобраться.

С чего всё началось

Алиса появилась в октябре 2017 года. Её сделали в «Яндексе», и главная задача разработчиков была не просто создать «исполнителя команд», а сделать полноценного собеседника. С характером. Чтобы я мог спросить про погоду, а потом тут же пошутить про этот вечный дождь. И чтобы она поддержала.

Мне всегда было интересно, как она вообще понимает русский язык. Ведь это не английский, где порядок слов почти фиксирован. У нас можно сказать «поставь песню группы „Би-2“», а можно «„Би-2“, песню поставь» — и смысл тот же. Алиса понимает оба варианта. И это первое, что меня зацепило.

Как она меня слышит

-2

Первая магия происходит в момент, когда я произношу «Алиса». На моей колонке или телефоне активируется микрофон, и звук отправляется на серверы «Яндекса». Там работает система распознавания речи, которая называется SpeechKit.

Внутри неё — нейросетевые модели, в том числе на основе архитектуры трансформеров. Они обучены на тысячах часов записей: голоса в тишине, голоса в шумном метро, голоса с акцентом, голоса детей. Всё это «скормили» алгоритмам, чтобы они научились выделять именно человеческую речь.

В итоге Алиса понимает меня даже когда я говорю из другой комнаты, когда рядом работает пылесос или я сижу в машине с открытым окном. Конечно, иногда она ошибается. Но чем дольше я ей пользуюсь, тем реже это случается. Система дообучается на реальных диалогах (анонимно, конечно), так что я вношу свой вклад в её развитие.

Как она меня понимает

-3

Допустим, я сказал: «Алиса, чё там за окном?». Она распознала текст. Но теперь нужно понять, что именно я хочу.

Это называется NLU (Natural Language Understanding) — понимание естественного языка. Здесь в дело вступают большие языковые модели. Алиса не просто ищет ключевые слова, а определяет моё намерение (интенцию) и выделяет сущности (слоты) — например, города, время, названия.

Если я спросил «А что в Питере?» сразу после того, как она ответила про Москву, она поймёт контекст. Она знает, что «Питер» — это Санкт-Петербург. Она понимает разговорные обороты. И это для меня главное: я не должен говорить с ней как с роботом, чётко и по слогам. Я могу говорить как с человеком.

Как она решает, что ответить

Дальше начинается самая интересная часть. Алиса получает моё намерение и решает, что с ним делать.

Если вопрос простой — «сколько времени?» или «какой курс доллара?» — она обращается к нужному сервису и выдаёт ответ.

Если вопрос сложный или творческий, она использует генеративную нейросеть, например YandexGPT. Она может пересказать новости, объяснить сложную тему простыми словами, придумать рецепт из того, что есть в холодильнике, или даже написать стихотворение.

Если я прошу что-то сделать — поставить будильник, добавить задачу в список, включить свет через умный дом — она передаёт команду в нужный сценарий.

И всё это происходит за секунду или две. Для меня это выглядит как мгновенная реакция, а на деле — цепочка сложнейших вычислений.

Как она отвечает голосом

Когда ответ сформирован, наступает этап синтеза речи. Здесь тоже работает SpeechKit, но теперь в обратную сторону: текст превращается в голос.

Я всегда удивлялся, почему Алиса звучит так естественно. В ней нет роботизированных интонаций. Она умеет делать логические паузы, выделять голосом важные слова, менять тон в зависимости от контекста. Если она шутит, это слышно. Если говорит серьёзную вещь — тон становится мягче.

Это называется нейросетевым синтезом речи. Голос не склеивается из заранее записанных фраз, а генерируется в реальном времени. У Алисы есть несколько голосов на выбор — я могу поменять их в настройках.

Как она становится умнее

Самое интересное для меня как пользователя — что Алиса постоянно обновляется. Я ничего не скачиваю, не переустанавливаю. Просто однажды замечаю, что она стала лучше понимать длинные команды или научилась чему-то новому.

Разработчики рассказывают, что улучшения идут постоянно: дообучаются модели распознавания, расширяется база знаний, добавляются новые сценарии. Иногда выходят большие обновления, как в 2023 году, когда Алиса получила новую нейросетевую основу и стала гораздо более «разговорчивой».

Что я думаю обо всём этом

Для меня Алиса — это не просто инструмент. Это пример того, как технологии становятся человечными. За её голосом стоит огромная инфраструктура: серверы, нейросети, команда разработчиков, лингвистов, тестировщиков. Но когда я говорю «Алиса, расскажи что-нибудь интересное», я об этом не думаю. Я просто общаюсь.

И, наверное, это и есть главный критерий хорошей технологии: она работает настолько хорошо, что ты перестаёшь замечать, как она работает.

Теперь, когда меня спрашивают «как там устроена твоя Алиса?», я могу ответить. Но обычно я просто говорю: «Спроси у неё сама». И она отвечает.

Ниже представлены Умные колонки от Яндекса, которые вы можете приобрести на Яндекс Маркете.

1. Умная колонка Яндекс Станция Лайт 2 с Алисой Розовая - https://market.yandex.ru/cc/96RwNa

2. Умная колонка Яндекс Станция Мини 3 с Алисой на YaGPT, черная - https://market.yandex.ru/cc/96Rxdj

3. Умная колонка Яндекс Станция Мини 3 с Алисой на YaGPT, серая - https://market.yandex.ru/cc/96Rxot

4. Умная колонка Яндекс Станция Миди с Zigbee, серая - https://market.yandex.ru/cc/96RyAm

5. Умная колонка Яндекс Станция 3 с Алисой, Zigbee™, 50 Вт серая - https://market.yandex.ru/cc/96Ryjp

6. Умная колонка Яндекс Станция 3 с Алисой, Zigbee™, 50 Вт черная - https://market.yandex.ru/cc/96Rytt

7. Умная колонка Яндекс Станция Макс с Алисой, с Zigbee, черный - https://market.yandex.ru/cc/96Rzdz

8. Умная колонка Яндекс Станция ДУО Макс с Алисой, с Zigbee, бежевая - https://market.yandex.ru/cc/96S2aP

Подписывайтесь на канал: ещё больше интересного и полезного внутри!