Привет, энтузиасты технологий! На связи автор канала «YAinvest AI». Давайте проведем мысленный эксперимент. Покажите любой современной популярной нейросети фотографию и спросите: «Что на картинке?». Она блестяще опишет сцену. Но если вы спросите: «Где конкретно находится левая задняя лапа панды?», ИИ начнет «плыть» и выдавать абстрактные ответы. До сегодняшнего дня это было фундаментальной проблемой всего искусственного интеллекта: модели либо хорошо понимали текст, но не ориентировались в пространстве (как CLIP), либо отлично видели границы объектов, но в упор не понимали текстовых команд (как DINO). Но исследователи из Google DeepMind решили эту проблему, выкатив в открытый доступ модель TIPSv2 (Text-Image Pretraining with Spatial awareness). И самое приятное — вам не нужен суперкомпьютер, чтобы запустить эту магию у себя дома. Давайте заглянем под капот и разберемся, как это работает. 🧠 Студент превзошел учителя: Как ИИ заставили «читать» картинку Разрабатывая новую архитектуру, ин
Нейросеть, которая видит всё: Как Google уместил ИИ-зрение в 1 ГБ и заставил его работать даже без видеокарты
26 апреля26 апр
3 мин