Представьте, что ваш старый фотоаппарат вдруг научился не просто снимать, а понимать: вот тут ребенок выбегает на дорогу, вот тут деталь на конвейере чуть отличается от нормы, вот тут незнакомец замер у чужой двери слишком надолго. Причем думает он об этом не где-то далеко на сервере, а прямо внутри себя - мгновенно, без задержки, без интернета. Это не фантастика. Это то, что происходит с компьютерным зрением прямо сейчас. В основе этого прорыва лежат два больших открытия. Первое - Vision Transformers, или ViT. Это новый тип нейросетей, который смотрит на картинку не кусок за куском, как делали старые системы, а сразу целиком, улавливая связи между далекими деталями. Точность распознавания лиц и поиска аномалий достигает 98 процентов - это выше, чем у предыдущего поколения архитектур на 12 процентов. При этом обработка ускорилась в три раза, а энергии тратится вдвое меньше. Второе открытие - нейроморфные сенсоры. Они работают как человеческий глаз: не записывают весь кадр целиком, а ре