88,2 тыс подписчиков

Apple научила ИИ «видеть» действия людей даже без камер

24 ноября 202524 ноя 2025

1 мин

Компания Apple опубликовала результаты исследования, посвящённого возможностям современных ИИ-моделей. Как оказалось, некоторым нейросетям даже не требуется камера, чтобы получить подробное представление о том, что делает человек. Исследование под названием «Использование LLM для последующего объединения мультимодальных данных датчиков для распознавания активности», описывает необычный метод взаимодействия ИИ с различными датчиками. По итогам тестирования выяснилось, что нейросети хорошо справляются с распознаванием активности пользователя, анализируя данные о его звуках и движениях — даже без предварительного обучения. В ходе исследования LLM получала не цельную аудиозапись. Ей «скармливали» короткие текстовые описания, сгенерированные другими моделями, а также трекинг движений, собранный с акселерометра и гироскопа. В рамках исследования специалисты использовали данные из набора Ego4D, содержащего тысячи часов реальных сцен и ситуаций — от домашних дел до активного отдыха на природе.

Исследование под названием «Использование LLM для последующего объединения мультимодальных данных датчиков для распознавания активности», описывает необычный метод взаимодействия ИИ с различными датчиками.

По итогам тестирования выяснилось, что нейросети хорошо справляются с распознаванием активности пользователя, анализируя данные о его звуках и движениях — даже без предварительного обучения.

В ходе исследования LLM получала не цельную аудиозапись. Ей «скармливали» короткие текстовые описания, сгенерированные другими моделями, а также трекинг движений, собранный с акселерометра и гироскопа.

В рамках исследования специалисты использовали данные из набора Ego4D, содержащего тысячи часов реальных сцен и ситуаций — от домашних дел до активного отдыха на природе.

Мы создали набор данных о повседневных активностях пользователя. Он включал 20-секундные фрагменты из двенадцати видов деятельности: уборка пылесосом, приготовление пищи, стирка, приём пищи, игра в баскетбол, футбол, игра с домашними животными, чтение книги, работа за ПК, мытьё посуды, просмотр телевизора, тренировки/подъём тяжестей. Так был охвачен широкий спектр домашних и фитнес-задач с учётом их распространённости в более широком наборе данных.

разработчики Apple

Исследователи пропустили аудиодорожки и данные о движении через меньшие модели, генерирующие текстовые субтитры и прогнозы, а затем передали полученные данные нейросетям Gemini-2.5-pro и Qwen-32B.

Эффективность ИИ-моделей сравнили в двух разных сценариях: «закрытом» (ИИ нужно было выбрать одно действие из 12 предложенных) и «открытом» (без списка вариантов). Результаты конкурентов оказались сопоставимыми, притом весьма точными (до 58% верных ответов).

Согласно выводам исследователей, объединение нескольких моделей может помочь в детальном анализе действий пользователя даже без прямого визуального наблюдения. По их словам, в дальнейшем ИИ-модели могут способствовать созданию более умных систем мониторинга на смартфонах и носимой электронике.

IT (информационные технологии)

5,67 млн интересуются