127 подписчиков

Perceptron Mk1: видеоанализ ИИ дешевле GPT-5 на 90%

3 дня назад3 дня назад

3 мин

Компания Perceptron выпустила модель Mk1 по цене $0,15 за миллион токенов — при том что флагманские решения от OpenAI и Google стоят $2–3 за тот же объём. Разрыв — от 10 до 20 раз. При этом на ряде специализированных тестов новинка превосходит именитых конкурентов. Разберём, что это означает на практике — и стоит ли верить заявленным цифрам. Mk1 — не универсальная языковая модель с добавленным видеовходом. Это архитектура, созданная с нуля под конкретный класс задач: понимание физического мира через видео. Модель умеет: На разработку ушло 16 месяцев. Команду возглавляет бывший исследователь Meta FAIR и Microsoft. Perceptron опубликовала результаты на нескольких отраслевых тестах. RefSpatialBench — понимание реферирующих выражений в пространстве (например, «объект слева от синего куба»): - Mk1: 72,4 балла - GPT-5m: 9,0 балла - Claude Sonnet 4.5: 2,2 балла Это не статистическая погрешность — разрыв восьмикратный. VSI-Bench — темпоральное рассуждение в видео: - Mk1: 88,5 — лучший результа

Оглавление

ИИ для анализа видео стал в 10 раз дешевле — и это меняет многое
Что умеет Perceptron Mk1
Цифры: что говорят бенчмарки

ИИ для анализа видео стал в 10 раз дешевле — и это меняет многое

Разберём, что это означает на практике — и стоит ли верить заявленным цифрам.

Что умеет Perceptron Mk1

Mk1 — не универсальная языковая модель с добавленным видеовходом. Это архитектура, созданная с нуля под конкретный класс задач: понимание физического мира через видео.

Модель умеет:

Понимать пространственные отношения — где находятся объекты относительно друг друга, как они двигаются
Отслеживать динамику во времени — что происходит между первым и последним кадром, а не только на отдельных стоп-кадрах
Рассуждать о причинно-следственных связях — не просто фиксировать событие, а понимать, что к нему привело
Работать с прямым эфиром — не только с загруженными файлами

На разработку ушло 16 месяцев. Команду возглавляет бывший исследователь Meta FAIR и Microsoft.

Цифры: что говорят бенчмарки

Perceptron опубликовала результаты на нескольких отраслевых тестах.

RefSpatialBench — понимание реферирующих выражений в пространстве (например, «объект слева от синего куба»): - Mk1: 72,4 балла - GPT-5m: 9,0 балла - Claude Sonnet 4.5: 2,2 балла

Это не статистическая погрешность — разрыв восьмикратный.

VSI-Bench — темпоральное рассуждение в видео: - Mk1: 88,5 — лучший результат среди всех сравниваемых моделей EmbSpatialBench — пространственное мышление в сценах: - Mk1: 85,1 - Google Robotics-ER 1.5: 78,4 - Alibaba Q3.5-27B: ~84,5

Важная оговорка: все эти цифры опубликованы самим Perceptron. Независимых воспроизведений пока нет. Это стандартная практика для стартапных запусков, но слепо доверять им не стоит — нужно собственное тестирование на реальных данных.

Для каких задач это актуально

Производство. Автоматический контроль качества на конвейере без ручного просмотра записей. Модель отслеживает положение объектов и отклонения от нормы в реальном времени. Контент и маркетинг. Автоматическая нарезка часовых вебинаров или интервью на 30–60-секундные фрагменты для Reels и Shorts. Модель понимает, где заканчивается законченная мысль и есть ли в кадре эмоциональный акцент. Безопасность и охрана объектов. Детекция нештатных ситуаций, контроль соблюдения регламентов (каска, жилет, нахождение в запретной зоне) без участия человека в круглосуточном просмотре. Ритейл. Анализ трафика в торговом зале: у каких стеллажей задерживаются дольше, как меняется поведение в разное время суток. Это раньше требовало дорогих специализированных систем. HR и исследования. Анализ записей интервью или фокус-групп на невербальные паттерны. Здесь важно учитывать требования законодательства о персональных данных в конкретной стране.

Как оценить модель перед внедрением

Perceptron предоставляет публичный демо-доступ. Если рассматриваете внедрение — рекомендуем такую последовательность:

Сформулируй одну конкретную задачу — не «анализ видео», а «детекция отсутствия каски на строительной площадке» или «выделение ключевых цитат из интервью»
Подготовь тестовую выборку — 15–20 видеофрагментов с известным правильным ответом
Сравни с текущим решением — если используешь другую модель, прогони те же фрагменты параллельно
Посчитай реальную стоимость — при объёме от 50 часов видео в месяц разрыв в цене становится значимым аргументом
Проверь стабильность — повтори один и тот же запрос несколько раз, оцени насколько варьируются ответы

Что это означает для рынка

Mk1 — первый заметный аргумент в пользу того, что специализированные модели могут обыгрывать универсальные флагманы на конкретных задачах при кратно меньшей стоимости. Это паттерн, который уже проявился в текстовых задачах: узкоспециализированные модели всё чаще превосходят «больших» игроков там, где задача хорошо определена.

Если заявленные показатели Mk1 подтвердятся в реальных условиях — видеоаналитика перестанет быть привилегией крупных компаний с серьёзными ИИ-бюджетами. Порог входа снижается в 10 раз, и это открывает класс применений, который раньше просто не укладывался в экономику среднего бизнеса.

Такие разборы выходят каждый день. Telegram-канал @contentrunai - инструменты, кейсы и автоматизация. Полная база знаний - на platform.contentrun.ai.