Компания Apple опубликовала результаты исследования, посвящённого возможностям современных ИИ-моделей. Как оказалось, некоторым нейросетям даже не требуется камера, чтобы получить подробное представление о том, что делает человек. Исследование под названием «Использование LLM для последующего объединения мультимодальных данных датчиков для распознавания активности», описывает необычный метод взаимодействия ИИ с различными датчиками. По итогам тестирования выяснилось, что нейросети хорошо справляются с распознаванием активности пользователя, анализируя данные о его звуках и движениях — даже без предварительного обучения. В ходе исследования LLM получала не цельную аудиозапись. Ей «скармливали» короткие текстовые описания, сгенерированные другими моделями, а также трекинг движений, собранный с акселерометра и гироскопа. В рамках исследования специалисты использовали данные из набора Ego4D, содержащего тысячи часов реальных сцен и ситуаций — от домашних дел до активного отдыха на природе.