Добавить в корзинуПозвонить
Найти в Дзене

«Алиса» поможет незрячим «рассмотреть» изображения в интернете

Понимает, что нарисовано Нейросеть «Алиса» вышла на новый уровень: она анализирует, что именно изображено на картинках в интернете и может составлять их описания. ИИ-помощник сообщает пользователю, что представлено на рисунке или фото, а по его желанию может охарактеризовать предметы и явления более подробно. Так, она может познакомиться с фотографией платья на маркетплейсе, описать его цвет, крой и посадку. Фундаментом нового функционала стала мультимодальная модель, которая умеет анализировать тексты и картинки. При этом она работает с целым изображением, а не только распознает отдельные объекты. Особенно ценно то, что цифровое решение учитывает контекст и связи, существующие между элементами. Благодаря этому можно создать лаконичные и осмысленные описания, что позволяет незрячим людям получить достоверное представление об изображении. Принципы доступности в деле Устроена эта система просто: для получения характеристики предмета нужно выбрать опцию «Описать картинку» в контекстном ме

Понимает, что нарисовано

Нейросеть «Алиса» вышла на новый уровень: она анализирует, что именно изображено на картинках в интернете и может составлять их описания. ИИ-помощник сообщает пользователю, что представлено на рисунке или фото, а по его желанию может охарактеризовать предметы и явления более подробно. Так, она может познакомиться с фотографией платья на маркетплейсе, описать его цвет, крой и посадку.

Фундаментом нового функционала стала мультимодальная модель, которая умеет анализировать тексты и картинки. При этом она работает с целым изображением, а не только распознает отдельные объекты. Особенно ценно то, что цифровое решение учитывает контекст и связи, существующие между элементами. Благодаря этому можно создать лаконичные и осмысленные описания, что позволяет незрячим людям получить достоверное представление об изображении.

Принципы доступности в деле

Устроена эта система просто: для получения характеристики предмета нужно выбрать опцию «Описать картинку» в контекстном меню или на панели поверх картинки или же навести на изображение фокус программы экранного доступа.

В «Яндекс Браузере» для Windows, iOS и Android ИИ-помощник готов не только составить, но и озвучить описание. Функцией можно управлять в настройках браузера, в разделе «Специальные возможности». При условии включения программы экранного доступа «Алиса» сделает описания только для тех картинок, на которые пользователь нацелит фокус.

Валерия Курмак - Директор по устойчивому развитию «Яндекса»«Мы делаем так, чтобы в текущих сервисах «Яндекса» заработали новые функции или появились дополнительные возможности, которые помогают людям с особенностями. А ещё участвуем в создании продуктов, которые решают конкретные задачи доступности — например, переводят речь в текст».

Как отмечают создатели цифрового решения, главное – придерживаться принципов доступности, чтобы интернет был комфортным и интересным местом для всех, в том числе людей с ограниченными возможностями здоровья. Так, «Яндекс Браузер» обеспечен и другими инструментами для людей с особенностями зрения: режим чтения убирает лишнее с экрана, помогая сконцентрироваться на тексте, а с помощью «Умной камеры» незрячие и слабовидящие пользователи могут распознавать печатные тексты и предметы.

По подсчётам специалистов, каждый месяц «Яндекс Браузер» используется более чем на 90 миллионах устройств.

Новый импульс для развития удобных для всех интерфейсов

Цифровое решение российских разработчиков из «Яндекса» повышает удобство и доступность визуальной информации, что особенно значимо для слабовидящих пользователей или тех, кто пользуется голосовым интерфейсом.

Создание этого IT-продукта – эффектная демонстрация того, что информационные технологии в России развиваются стремительно, а компании представляют публике все больше гибридных разработок, сочетающих компьютерное зрение и языковые модели. В ближайшем будущем «Алиса» может нарастить новые функции: возможна ее интеграция с другими сервисами компании «Яндекс», а также технологическое совершенствование - например, распознавание конкретных объектов и их описаний может плавно расшириться до генерации метаданных изображения.

Русскоязычная разработка мультимодального ассистента может быть востребована в тех сферах деятельности на территории СНГ или стран Глобального Юга, где используются технологии «объяснение изображения» - в электронной коммерции, медиа. Для выхода на экспорт разработчик ПО может выпустить API-решение, которое может работать как посредник между сервисами, а также SDK для партнёрских сервисов —набор инструментов и кода, который позволяет взаимодействовать с партнёрскими платформами.