На MWC 2024 Qualcomm представляет новинки в области искусственного интеллекта для Android-телефонов на базе чипов Snapdragon. Процессоры Snapdragon 8 Gen 3 уже впечатляют своими возможностями, такими как голосовое редактирование мультимедиа, генерация изображений с использованием Stable Diffusion и улучшенный виртуальный ассистент на основе лингвистических моделей, вроде Meta. Теперь компания расширяет спектр функций этих AI возможностей. Например, появляется возможность запуска большого лингвистического и визуального ассистента на смартфоне под названием LLaVa. Этот ассистент, похожий на сочетание ChatGPT и Google Lens, способен обрабатывать как текстовый, так и визуальный ввод информации.
Например, при нажатии на изображение с разделочной доской вы сможете задавать вопросы на основе этого изображения. Ассистент искусственного интеллекта, опирающийся на масштабную мультимодальную модель (LMM) с более чем 7 миллиардами параметров, сможет предоставить вам полную информацию о фруктах, сырах, мясе и орехах, находящихся на этой доске, как изображено на вводном изображении ниже.
Теперь ассистент может обрабатывать последующие запросы, обеспечивая непрерывное взаимодействие. Устройства, подобные ChatGPT, обзавелись мультимодальными функциями, позволяя им обрабатывать и визуальные запросы. Но есть ключевое различие.
Продукты, вроде ChatGPT и UnlimBot, все еще сильно оперируют облачной архитектурой, где ваши данные обрабатываются на удаленных серверах. Однако Qualcomm стремится к обработке данных на устройстве, обеспечивая более быструю работу и меньший риск утечки данных. Qualcomm сообщает: "Эта мульти-модальная модель работает с гибким набором данных непосредственно на устройстве, что позволяет обеспечить повышенную конфиденциальность, надежность, персонализацию и оптимизацию затрат". Пока не ясно, будет ли ассистент LLaVa доступен как отдельное приложение или с подпиской. Следующий шаг Qualcomm — это работа в области обработки и создания изображений. Недавно компания продемонстрировала свою технологию преобразования текста в изображение на устройствах с помощью Stable Diffusion. Сегодня они представляют новый LoRa вариант создания изображений
LoRa, или Low-Rank Adaptation, представляет новый подход к созданию изображений, отличный от традиционных методов, например, Dall.E. Эта технология разработана Microsoft и призвана решить проблему высоких издержек искусственного интеллекта, связанных с обучением моделей, задержкой и высокими требованиями к оборудованию.
Одной из ключевых особенностей LoRa является его способность резко снизить размер модели за счет сосредоточения внимания на конкретных участках модели и уменьшения количества параметров, используемых в процессе обучения. Этот подход существенно сокращает потребление памяти, повышает скорость обработки данных, а также значительно уменьшает время и усилия, необходимые для адаптации модели, преобразующей текст в изображение.
С течением времени технология LoRa distillation начала применяться к модели Stable Diffusion для создания изображений на основе текстовых подсказок. Улучшение эффективности и упрощение адаптации моделей, основанных на LoRa, делают этот метод привлекательным для индивидуального применения в смартфонах. Qualcomm и MediaTek внедряют подобные решения в свои флагманские устройства (Qualcomm) и чипы (MediaTek), такие как Dimensity 9300, чтобы повысить возможности искусственного интеллекта.
Qualcomm продемонстрировал несколько техник искусственного интеллекта на выставке MWC 2024, уже реализованных на Samsung Galaxy S24 Ultra. Среди новинок - функция увеличения изображения с помощью генеративной заливки от ИИ и создание видео при помощи искусственного интеллекта. Разработки в области видео-генерации крайне амбициозны, особенно учитывая достижения OpenAI с Sora. Будет интересно увидеть, как Qualcomm сможет внедрить эти технологии в мир смартфонов.