112 подписчиков

Роботы теперь видят мир почти как люди. И это стоит копейки

ВчераВчера

3 мин

Вы когда-нибудь задумывались, почему роботы до сих пор такие тупые? Ну серьёзно. Они могут обыграть человека в шахматы, написать стихи и даже сдать ЕГЭ. Но попросите робота принести вам кружку с кухни, и он с вероятностью 50 процентов врежется в стену. Потому что языковые модели не понимают физический мир. Они оперируют словами, а не пространством и временем. Американский стартап Perceptron AI решил эту проблему. Бывшие учёные из исследовательского подразделения Марка Цукерберга (того самого FAIR) сделали модель Mk1. Она не просто болтает - она видит мир почти как человек. И продают они её по ценам, от которых у OpenAI глаз дёргается. Что такое «воплощённый ризонинг» и с чем его едят Страшное словосочетание «embodied reasoning» на самом деле означает простую вещь. ИИ понимает, что предметы существуют в пространстве и времени. Он знает, что если мяч закатился под диван, он не исчез - он там. Он понимает, что кружка стоит на столе, а не плавает в воздухе. Звучит как база для человека. Дл

Потому что языковые модели не понимают физический мир. Они оперируют словами, а не пространством и временем.

Американский стартап Perceptron AI решил эту проблему. Бывшие учёные из исследовательского подразделения Марка Цукерберга (того самого FAIR) сделали модель Mk1. Она не просто болтает - она видит мир почти как человек.

И продают они её по ценам, от которых у OpenAI глаз дёргается.

Что такое «воплощённый ризонинг» и с чем его едят

Страшное словосочетание «embodied reasoning» на самом деле означает простую вещь. ИИ понимает, что предметы существуют в пространстве и времени. Он знает, что если мяч закатился под диван, он не исчез - он там. Он понимает, что кружка стоит на столе, а не плавает в воздухе.

Звучит как база для человека. Для нейросети - это вызов.

Большинство моделей обучаются на статичных картинках. Они видят кота на фото и говорят «это кот». Но они не знают, что кот может уйти, если его позвать. Они не понимают связей между объектами в реальном мире.

Mk1 это умеет. Модель обрабатывает видео, а не просто картинки. Она видит движение, запоминает объекты, даже если они частично перекрыты другими предметами. Это называется «сохранение внимания» - и для ИИ это нетривиальная задача.

Представьте, что вы смотрите на человека, который прячется за колонной. Вы же понимаете, что он всё ещё там, просто его не видно. Обычный ИИ это теряет. Mk1 - нет.

Где это можно применить уже сейчас

Разработчики называют три сценария. И каждый из них - готовый бизнес.

Первый - умное видеонаблюдение. Представьте склад, где камеры не просто пишут картинку, а сами считают коробки, замечают, когда товар закончился, и сигнализируют, если кто-то полез туда, куда не надо. Без людей, которые сидят и тупят в мониторы.

Второй - робототехника. Чтобы научить робота ориентироваться в цехе, ему нужно разметить тысячи примеров. Раньше это делали люди - нудно и дорого. Mk1 делает это сама. Генерирует точки, рамки, полигоны для навигации. По сути, робот учит сам себя.

Третий - анализ документов. Не просто распознать текст, а понять сложные схемы, таблицы, чертежи. И выдать результат в удобном формате — HTML, JSON или Markdown. Инженеры и логисты оценят.

Цифры, от которых грустно конкурентам

Perceptron AI не постеснялась и сравнила свою модель с гигантами. На бенчмарке пространственного мышления EmbSpatialBench их Mk1 набрала 85,1 балла. А Robotics-ER 1.5 от Google - 78,4. Обогнали.

Но главное даже не это. Главное - цена.

Входные токены - 15 центов за миллион. Выходные - 1,5 доллара за миллион. Контекстное окно - 32 тысячи токенов.

Для понимания: это в разы дешевле, чем у OpenAI и Anthropic. При сопоставимых, а по некоторым параметрам и лучших, возможностях.

Стартап буквально говорит рынку: «Ребята, мы делаем то же самое, но за копейки».

Что это значит для обычного человека

Прямо сейчас - не очень много. Вы не купите Mk1 в смартфон.

Но через пару лет камеры в магазинах начнут сами считать, сколько людей зашло, что они брали с полок, не нужна ли помощь. Роботы-доставщики перестанут путать адреса. А заводские манипуляторы научатся хватать детали даже в куче мусора.

И всё это будет стоить не космических денег, а вполне себе адекватно.

Perceptron AI сделала ставку на то, что будущее ИИ - не в болтовне, а в действии. В понимании физического мира. В умении видеть и двигаться.

И если они не провалятся с качеством, у гигантов появляется очень неприятный конкурент. Маленький, зубастый и очень дешёвый.

А вы как думаете - пересядут ли компании с ChatGPT и Claude на непонятный стартап только ради экономии? Или бренд и доверие всё ещё правят балом? Пишите в комментариях.

Если было интересно - ставьте лайк и подписывайтесь. Тут без рекламы, но с фактами.