Добавить в корзинуПозвонить
Найти в Дзене
4pda.to

Apple научила ИИ «видеть» действия людей даже без камер

Компания Apple опубликовала результаты исследования, посвящённого возможностям современных ИИ-моделей. Как оказалось, некоторым нейросетям даже не требуется камера, чтобы получить подробное представление о том, что делает человек. Исследование под названием «Использование LLM для последующего объединения мультимодальных данных датчиков для распознавания активности», описывает необычный метод взаимодействия ИИ с различными датчиками. По итогам тестирования выяснилось, что нейросети хорошо справляются с распознаванием активности пользователя, анализируя данные о его звуках и движениях — даже без предварительного обучения. В ходе исследования LLM получала не цельную аудиозапись. Ей «скармливали» короткие текстовые описания, сгенерированные другими моделями, а также трекинг движений, собранный с акселерометра и гироскопа. В рамках исследования специалисты использовали данные из набора Ego4D, содержащего тысячи часов реальных сцен и ситуаций — от домашних дел до активного отдыха на природе.
   Apple научила ИИ «видеть» действия людей даже без камер
Apple научила ИИ «видеть» действия людей даже без камер

Компания Apple опубликовала результаты исследования, посвящённого возможностям современных ИИ-моделей. Как оказалось, некоторым нейросетям даже не требуется камера, чтобы получить подробное представление о том, что делает человек.

-2

Исследование под названием «Использование LLM для последующего объединения мультимодальных данных датчиков для распознавания активности», описывает необычный метод взаимодействия ИИ с различными датчиками.

По итогам тестирования выяснилось, что нейросети хорошо справляются с распознаванием активности пользователя, анализируя данные о его звуках и движениях — даже без предварительного обучения.

-3

В ходе исследования LLM получала не цельную аудиозапись. Ей «скармливали» короткие текстовые описания, сгенерированные другими моделями, а также трекинг движений, собранный с акселерометра и гироскопа.

В рамках исследования специалисты использовали данные из набора Ego4D, содержащего тысячи часов реальных сцен и ситуаций — от домашних дел до активного отдыха на природе.

Мы создали набор данных о повседневных активностях пользователя. Он включал 20-секундные фрагменты из двенадцати видов деятельности: уборка пылесосом, приготовление пищи, стирка, приём пищи, игра в баскетбол, футбол, игра с домашними животными, чтение книги, работа за ПК, мытьё посуды, просмотр телевизора, тренировки/подъём тяжестей. Так был охвачен широкий спектр домашних и фитнес-задач с учётом их распространённости в более широком наборе данных.

разработчики Apple

Исследователи пропустили аудиодорожки и данные о движении через меньшие модели, генерирующие текстовые субтитры и прогнозы, а затем передали полученные данные нейросетям Gemini-2.5-pro и Qwen-32B.

Эффективность ИИ-моделей сравнили в двух разных сценариях: «закрытом» (ИИ нужно было выбрать одно действие из 12 предложенных) и «открытом» (без списка вариантов). Результаты конкурентов оказались сопоставимыми, притом весьма точными (до 58% верных ответов).

-4

Согласно выводам исследователей, объединение нескольких моделей может помочь в детальном анализе действий пользователя даже без прямого визуального наблюдения. По их словам, в дальнейшем ИИ-модели могут способствовать созданию более умных систем мониторинга на смартфонах и носимой электронике.