1891 подписчик

Бывшие сотрудники Google создают инфраструктуру, которая поможет компаниям анализировать их видеоданные с помощью искусственного интеллекта.

9 февраля9 фев

4 мин

Основанная бывшими руководителями Google Japan, компания InfiniMind создает корпоративный ИИ для преобразования огромных неиспользуемых видеоархивов в доступные для поиска и анализа бизнес-данные. — techcrunch.com Компании генерируют видеоконтент в невиданных ранее объемах. От многолетних телевизионных архивов до тысяч камер наблюдения и бесчисленных часов производственных записей — большая часть этого материала остается неиспользованной на серверах, не просмотренной и не проанализированной. Это так называемые «темные данные»: огромный, неиспользуемый ресурс, который компании собирают автоматически, но практически никогда не используют осмысленно. Чтобы решить эту проблему, Аза Кай (генеральный директор) и Хираку Янагита (операционный директор), два бывших сотрудника Google, проработавших вместе около десяти лет в Google Japan, решили создать собственное решение. Дуэт основал InfiniMind — токийский стартап, разрабатывающий инфраструктуру, которая преобразует петабайты непросмотренного

Компании генерируют видеоконтент в невиданных ранее объемах. От многолетних телевизионных архивов до тысяч камер наблюдения и бесчисленных часов производственных записей — большая часть этого материала остается неиспользованной на серверах, не просмотренной и не проанализированной. Это так называемые «темные данные»: огромный, неиспользуемый ресурс, который компании собирают автоматически, но практически никогда не используют осмысленно.

Чтобы решить эту проблему, Аза Кай (генеральный директор) и Хираку Янагита (операционный директор), два бывших сотрудника Google, проработавших вместе около десяти лет в Google Japan, решили создать собственное решение. Дуэт основал InfiniMind — токийский стартап, разрабатывающий инфраструктуру, которая преобразует петабайты непросмотренного видео и аудио в структурированные, доступные для запросов бизнес-данные.

«Мой соучредитель, который провел десять лет, руководя решениями в области брендинга и данных в Google Japan, и я предвидели этот переломный момент еще во время работы в Google», — сказал Кай. К 2024 году технология достигла зрелости, а рыночный спрос стал достаточно очевидным, чтобы соучредители почувствовали необходимость создать компанию самостоятельно, добавил он.

Кай, ранее работавший в Google Japan в отделах облачных вычислений, машинного обучения, рекламных систем и моделей рекомендаций видео, а затем руководивший командами по анализу данных, пояснил, что существующие решения заставляют идти на компромисс. Ранние подходы могли маркировать объекты в отдельных кадрах, но не могли отслеживать повествование, понимать причинно-следственные связи или отвечать на сложные вопросы о видеоконтенте. Для клиентов с многолетними телевизионными архивами и петабайтами видеоматериалов даже базовые вопросы об их контенте часто оставались без ответа.

Настоящим прорывом стал прогресс в области визуально-языковых моделей между 2021 и 2023 годами. Именно тогда видео ИИ начал выходить за рамки простого тегирования объектов, отметил Кай. Снижение стоимости GPU и ежегодный прирост производительности примерно на 15–20% за последнее десятилетие помогли, но главной проблемой была функциональность: до недавнего времени модели просто не могли справиться с задачей, рассказал он TechCrunch.

InfiniMind недавно привлекла 5,8 миллиона долларов начального финансирования под руководством UTEC при участии CX2, Headline Asia, Chiba Dojo и исследователя в области ИИ из a16z Scout. Компания переносит свою штаб-квартиру в США, сохраняя при этом офис в Японии. Япония предоставила идеальную испытательную площадку: сильное аппаратное обеспечение, талантливых инженеров и поддерживающую стартап-экосистему, что позволило команде доработать свою технологию с требовательными клиентами перед выходом на мировой рынок.

Первый продукт компании, TV Pulse, был запущен в Японии в апреле 2025 года. Платформа на базе ИИ анализирует телевизионный контент в режиме реального времени, помогая медиа- и розничным компаниям «отслеживать показы продуктов, присутствие бренда, настроения клиентов и PR-эффект», согласно данным стартапа. После пилотных программ с крупными вещательными компаниями и агентствами у него уже есть платящие клиенты, включая оптовых продавцов и медиакомпании.

Теперь InfiniMind готова к выходу на международный рынок. Флагманский продукт компании, DeepFrame — платформа для интеллектуального анализа длинных видео, способная обрабатывать 200 часов видеоматериала для точного определения конкретных сцен, докладчиков или событий, — запланирован к бета-релизу в марте, а полный запуск состоится в апреле 2026 года, сообщил Кай.

Рынок видеоаналитики сильно фрагментирован. Компании, такие как TwelveLabs, предоставляют универсальные API для понимания видео для широкого круга пользователей, включая обычных потребителей, продвинутых пользователей и предприятия, сказал Кай, в то время как InfiniMind специализируется исключительно на корпоративных сценариях использования, включая мониторинг, безопасность, охрану и анализ видеоконтента для получения более глубоких инсайтов.

«Наше решение не требует написания кода; клиенты предоставляют свои данные, а наша система обрабатывает их, предоставляя действенные инсайты», — сказал Кай. «Мы также интегрируем понимание аудио, звука и речи, а не только визуальной информации. Наша система может обрабатывать видео неограниченной длины, а экономическая эффективность является важным отличием. Большинство существующих решений отдают приоритет точности или конкретным сценариям использования, но не решают проблемы стоимости».

Начальное финансирование поможет команде продолжить разработку модели DeepFrame, расширить инженерную инфраструктуру, нанять больше инженеров и привлечь дополнительных клиентов в Японии и США.

«Это захватывающая область, один из путей к AGI», — сказал Кай. «Понимание общего видеоанализа — это понимание реальности. Промышленные приложения важны, но наша конечная цель — раздвинуть границы технологий, чтобы лучше понимать реальность и помогать людям принимать более обоснованные решения».

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Автор – Kate Park

Оригинал статьи

Google

89,1 тыс интересуются