Голосовой помощник «Алиса», разработанный «Яндексом», отметил сегодня седьмой день рождения. Сегодня он используется в каждом пятом российском домохозяйстве, правда, пользовательская база уже растёт медленно: в сентябре 2024 года «Алисой» пользовались 64 млн. человек, а в сентябре 2023-го только 62 млн. Лидерство на рынке в «Яндексе» объясняют тем, что их голосовой помощник первым вышел на рынок, он «умнее» конкурирующих решений, а также «поднимает настроение».
Несмотря на замедление роста пользовательской базы из-за близости к насыщению рынка, у «Алисы» растёт вовлечённость: так, после весеннего обновления с переходом на большую языковую модель YandexGPT количество запросов на одного пользователя выросло на 20%. При этом в 6 раз уменьшилось количество вопросов, на которые «Алиса» не отвечает.
Также насчитывается 1,3 млн. подписчиков «Алисы Про», правда, тут важно понимать, что первые полгода эта подписка была бесплатной.
Немного истории: в 2017 году «Алиса» впервые появилась в мобильном приложении «Яндекса». Голосовой помощник умел выдавать результаты поиска, говорить о погоде и поддерживать несложные беседы. Главным же было понимание простых разговорных фраз, а не специализированных поисковых запросов.
В 2018 году появились первые колонки со встроенной «Алисой», а также API, благодаря которому сторонние разработчики могли подключить голосовой интерфейс «Алисы» к своим приложениям и таким образом «научить» её новым навыкам, а в 2019-м помощник научился распознавать голос владельца, что особенно важно, когда колонка с «Алисой» используется в семье – тогда запросы других членов семьи к «Яндекс Музыке» (наиболее частый) не влияют на рекомендательные алгоритмы для основного аккаунта, а спустя три года появилась возможность распознавать голоса всех домочадцев. В 2020 году запустилась оболочка для телевизоров «Яндекс ТВ», в которую также была встроена «Алиса», в том числе для полностью голосового управления без пульта.
В 2021 году, тогда «Алиса» научилась практически бесконечно вести содержательные диалоги с пользователем. В том же году появилось распознавание шёпота и возможность шёпотом же генерировать ответы. В 2022 году «Алиса» заработала в браузерной версии, а в 2023-м впервые подключили языковую модель YandexGPT – генеративную нейросеть. В 2024-м она окончательно перешла на LLM и стала общаться, как человек – поддерживать контекст беседы, понимать уточняющие вопросы, объяснять сложные понятия и явления, а также предлагать идеи. Также она научилась понимать людей с особенностями речи – маленьких детей, шамкающих стариков, страдающих заиканием и т.п.
Сегодня же у «Алисы» вышло новое мобильное приложение, отдельное от поиска, «Дома с Алисой» и т.п., оно эксклюзивное для голосового помощника. Пока оно во многом повторяет веб-интерфейс на сайте, однако в бета-версии уже находятся новые функции, важнейшая из которых – мультимодальный поиск при помощи изображения с камеры смартфона со сложными запросами, например, можно ли в такой одежде идти на мероприятие с определённым дресс-кодом и что на что поменять, если нельзя. Появится также долгосрочная память, то есть, голосовой помощник будет помнить большой объём данных о пользователе, даже где он отдыхал летом и как зовут его коллег – и в такой персонализации кроются огромные возможности для монетизации, т.к. чем уже и точнее таргетинг, тем эффективнее реклама. Эта функция, впрочем, будет настраиваемой – чтобы у вас не было паранойи. При этом во время разговора с колонкой текстовую версию беседы можно будет увидеть в приложении по отдельному запросу. Также можно будет перебить «Алису» в процессе выдачи ответа, чтобы не дослушивать его до конца и не обращаться повторно. Но это будет в релизе чуть позже, а пока основной смысл установки «Алисы» -- это функция генерации картинок (доступная только с подпиской «Про»).
Для генерации изображений используется новое поколение визуальной нейросети — YandexART 2.0. Модель научилась создавать надписи прямо на изображениях, придерживаться нескольких стилей на одной картинке, располагать объекты в пространстве и относительно друг друга более естественно и учитывать при генерации больше деталей из текстового запроса.
Особенностью модели является одновременное использование свёрточной и трансформенной нейросетей. Свёрточная модель работает по принципу человеческого глаза и выявляет на картинке важные признаки — края, текстуры и формы. При этом нейросеть с такой архитектурой не умеет учитывать длинный контекст (поэтому ей трудно справляться с большим количеством деталей в запросах), зато это умеет трансформер. Объединение двух этих моделей в YandexART 2.0 позволило ей точнее следовать текстовым запросам. Так, теперь она умеет придерживаться нескольких стилей в одном изображении и может, например, сгенерировать фотореалистичную банку лимонада, на этикетке которой будет аниме-персонаж. У нас же получился отличный квадробобер – гибрид квадрокоптера и курва-бобра.
По результатам тестов YandexART 2.0 превосходит многие зарубежные нейросети. Например, YandexART 2.0 выиграла у Midjourney v6.1 в 66% случаев по критерию комплексности, в 58% по эстетичности и практически сравнялась по доле побед в релевантности запросам пользователей. Алиса может не просто сгенерировать картинку, но и дополнить её и изменить так, как захочет пользователь. Промты можно уточнять прямо в режиме диалога. Например, сначала сказать: «Алиса, нарисуй свечу ручной работы», а после получения результата добавить: «вокруг еловые ветви».
Пользователи могут применять новые возможности, чтобы развивать своё дело, например: создать логотип для бренда, этикетку продукта, иллюстрации для сайта и постов в социальных сетях, а компании — чтобы повысить эффективность рекламных и маркетинговых кампаний: использование нейрообъявлений в сочетании с собственными креативами может увеличить эффективность рекламной кампании на 10-15%; модель YandexART 2.0 доступна также по API.