Найти тему
FABULAai

Новые модели для анализа человеческого движения и формы: знакомьтесь с Sapiens

Недавно вышла Sapiens — серия инновационных моделей машинного обучения, разработанных для решения ключевых задач анализа человеческого тела. Эти модели могут выполнять задачи такие, как 2D-оценка позы, сегментация частей тела, оценка глубины и предсказание нормалей поверхности.

Авторы сосредоточились на задачах, связанных с людьми, что делает их работу особенно актуальной. В результате получился набор моделей, которые эффективно решают четыре ключевые задачи: оценку 2D-позы, сегментацию частей тела, оценку глубины и предсказание нормалей. В чем фишка? Они сделали акцент на улучшении качества по сравнению с существующими решениями и выложили всё это в открытый доступ.

Проект включает в себя впечатляющее количество данных. Авторы собрали миллиард изображений людей, из которых оставили 300 миллионов после фильтрации мусора. Интересно, что 17% из этих изображений показывают одного человека, а 56% — более четырех человек на кадре. Это важно для генерации данных в будущем.

Для оценки глубины использовали 600 высококачественных 3D-сканов людей, создали полмиллиона ракурсов и поз в 4K и выбрали случайный фон из 100 HDRI карт окружения. Для предсказания нормалей использовали аналогичный подход.

Обучение происходило на кластере из 1024 графических процессоров A100 и заняло 18 дней. Модели варьируются по размеру от 0.3 до 2 миллиардов параметров, что обеспечивает гибкость в применении и высокое качество результатов.

Главные особенности Sapiens заключаются в их высокой адаптивности и точности. Модели поддерживают разрешение до 1K и могут быть легко настроены под конкретные задачи благодаря тонкому обучению на базе более 300 миллионов изображений людей. Это обеспечивает отличную способность к обобщению данных, даже когда размеченных данных недостаточно или они полностью синтетические.

Если вы интересуетесь передовыми технологиями в области машинного обучения и компьютерного зрения, Sapiens обещает быть значительным шагом вперед в этих областях. Подробности о моделях можно найти в репозиториях на GitHub и на платформе arXiv, а также ждут публикации дополнительных результатов в ближайшее время.

______________________________________

Всех, кто интересуется последними новинками из мира AI призываем подписываться на наш канал. А тех, кто уже сейчас хочет попробовать себя в роли нейрокреатора, приглашаем на наш сайт.