Найти в Дзене

Почему ИИ не может освоить навык первоклассника

Несмотря на способность решать сложные задачи — от анализа медицинских снимков до управления беспилотниками, — мультимодальные ИИ демонстрируют удивительный провал. Они не могут справиться с элементарным заданием, посильным любому ребенку: определить время по стрелочным часам. И это не единичные ошибки, а систематический провал всех протестированных моделей. Чтобы досконально изучить эту проблему, международная команда ученых из Мадридского, Миланского и Вальядолидского политехнических университетов пошла на радикальные меры. Они создали огромный датасет, содержащий более 43 000 синтетических изображений аналоговых часов, чтобы исключить влияние побочных факторов и обеспечить чистоту эксперимента. Четыре разные мультимодальные модели были поставлены перед единственной задачей — правильно назвать время, показанное на каждом циферблате. Результаты оказались более чем неутешительными: изначально все модели показали практически нулевую результативность. Исследователи попытались «подтянут
Оглавление

Несмотря на способность решать сложные задачи — от анализа медицинских снимков до управления беспилотниками, — мультимодальные ИИ демонстрируют удивительный провал. Они не могут справиться с элементарным заданием, посильным любому ребенку: определить время по стрелочным часам. И это не единичные ошибки, а систематический провал всех протестированных моделей.

Масштабный эксперимент: 43 000 циферблатов и нулевой результат

Чтобы досконально изучить эту проблему, международная команда ученых из Мадридского, Миланского и Вальядолидского политехнических университетов пошла на радикальные меры. Они создали огромный датасет, содержащий более 43 000 синтетических изображений аналоговых часов, чтобы исключить влияние побочных факторов и обеспечить чистоту эксперимента. Четыре разные мультимодальные модели были поставлены перед единственной задачей — правильно назвать время, показанное на каждом циферблате.

Результаты оказались более чем неутешительными: изначально все модели показали практически нулевую результативность. Исследователи попытались «подтянуть» их знания, проведя дообучение на дополнительных 5000 изображениях. Точность ненадолго возросла, но этот успех оказался иллюзорным — он работал только на данных, похожих на обучающую выборку. Как только моделям предъявили совершенно новую, незнакомую коллекцию изображений часов, их точность немедленно и резко снизилась. Это наглядная демонстрация классической проблемы ИИ: модели становятся виртуозами в работе с привычными данными, но буксуют, сталкиваясь с новыми, пусть и незначительно измененными, сценариями. Им критически не хватает человеческой способности к обобщению и переносу знаний.

Испытание сюрреализмом: тест в духе Сальвадора Дали

Не удовлетворирившись констатацией провала, учёные решили копнуть глубже и понять корни проблемы. Они разработали серию остроумных экспериментов с искаженными циферблатами — подобными тем, что изображены на знаменитой картине Сальвадора Дали «Постоянство памяти». Другая серия тестов включала часы с модифицированными стрелками: например, со стрелками, расположенными на концах, или имеющими нестандартную, непривычную форму.

-2

Человеческий мозг с легкостью абстрагируется от формы и читает время даже на таких деформированных циферблатах. Модели ИИ — нет. Они демонстрировали фундаментальные трудности с определением пространственной ориентации и длины стрелок. Однако наибольшие сложности у них вызвало распознавание самих стрелок нестандартного вида — тех, примеров которых не было в их тренировочных данных. Это указывает на то, что модель запоминает шаблоны, а не понимает концепцию.

Эффект домино: почему простая задача оказывается сложной

Исследование показало, что определение времени по аналоговым часам — это на деле многоступенчатый когнитивный процесс. Сначала необходимо корректно идентифицировать объекты как часовые стрелки, затем точно определить их направление и угол относительно меток на циферблате, и только после этого, совместив эти данные, вычислить итоговое время. Для ИИ это каскад взаимосвязанных подзадач. Если модель ошибается на самом первом этапе (например, не распознает стрелку), эта ошибка запускает лавину последующих неверных вычислений, делая конечный ответ бессмысленным. Модели ИИ, несмотря на свою мощь, не справляются с необходимостью одновременно и гибко обрабатывать все эти изменяющиеся факторы.

Практическая значимость: почему «незначительный» провал тревожит ученых

На первый взгляд, неспособность ИИ определить время может показаться забавным курьезом, не имеющим практического значения. Однако исследователи настаивают: в реальных, критически важных задачах подобные «мелкие» провалы в визуальном анализе могут иметь катастрофические последствия. Представьте систему автопилота, которая неверно интерпретирует показания аналогового датчика, или медицинский ИИ, который неправильно «прочтет» форму или ориентацию объекта на снимке. Уязвимость в одном, казалось бы, простом аспекте, свидетельствует о фундаментальных проблемах с обобщением знаний, что ставит под вопрос надежность всей системы.

Это означает, что останавливаться на достигнутом в развитии ИИ нельзя. Необходимо внедрять обширное и максимально разнородное тестирование, включающее в себя самые неожиданные и редкие сценарии. Только так можно гарантировать, что модели будут оставаться устойчивыми и надёжными в непредсказуемых условиях реального мира.

Смогут ли модели искусственного интеллекта когда-нибудь преодолеть этот барьер и научиться так же легко, как человек, читать время с любых часов? Как иронично заключили сами авторы исследования, ответ на этот вопрос знает только время.

Следите за IT‑миром вместе с нами! Ваш Cloud4Y. Читайте нас здесь или в Telegram‑канале!