Найти в Дзене
Social Mebia Systems

Новый фатальный изъян LLM: искусственный интеллект не умеет читать часы и календарь

AI — гений в сочинениях, но не может сказать, который час Современные большие языковые и мультимодальные модели (LLM/MLLM) поражают воображение: они пишут статьи, сдают экзамены, рисуют картины. Но, как показало свежее исследование, даже простейшие задачи, вроде "прочитать время по стрелочным часам" или "определить день недели по дате", оказываются для них почти непреодолимыми. Исследование: AI не умеет читать часы и календарь Группа исследователей из Эдинбургского университета и других организаций провела систематическую проверку: насколько хорошо современные мультимодальные LLM справляются с задачами распознавания времени и дат. Для этого они создали два специализированных тестовых набора: ClockQA (чтение времени по разным видам часов) и CalendarQA (работа с календарями за 10 лет, включая вопросы разной сложности). Результаты оказались шокирующими: средняя точность AI при чтении времени по часам составила всего 38,7%, а при определении даты по календарю — лишь 26,3%. Даже лучшие моде

AI — гений в сочинениях, но не может сказать, который час

Современные большие языковые и мультимодальные модели (LLM/MLLM) поражают воображение: они пишут статьи, сдают экзамены, рисуют картины. Но, как показало свежее исследование, даже простейшие задачи, вроде "прочитать время по стрелочным часам" или "определить день недели по дате", оказываются для них почти непреодолимыми.

Исследование: AI не умеет читать часы и календарь

Группа исследователей из Эдинбургского университета и других организаций провела систематическую проверку: насколько хорошо современные мультимодальные LLM справляются с задачами распознавания времени и дат. Для этого они создали два специализированных тестовых набора: ClockQA (чтение времени по разным видам часов) и CalendarQA (работа с календарями за 10 лет, включая вопросы разной сложности).

Результаты оказались шокирующими: средняя точность AI при чтении времени по часам составила всего 38,7%, а при определении даты по календарю — лишь 26,3%. Даже лучшие модели, такие как Gemini-2.0 и GPT-o1, не смогли преодолеть планку в 50% точности на большинстве задач.

Почему AI так ошибается?

Для человека задачи вроде "который час на этих часах?" или "какой сегодня день недели?" элементарны. Но для LLM это — сложная комбинация пространственного восприятия, визуального анализа и логического вывода. Модели часто путают стрелки, не различают римские цифры, ошибаются при необычном дизайне циферблата или даже склонны выдавать "дефолтное" время вне зависимости от изображения.

В задачах с календарём ситуация чуть лучше, особенно если вопрос касается известных праздников (например, "какой день недели — 1 января?"), что, вероятно, связано с наличием таких примеров в обучающих данных. Но при более сложных вопросах ("153-й день года — это какой день недели?") точность резко падает, особенно у открытых и малых моделей.

Глубинные причины: отсутствие абстрактного и пространственного мышления

Исследование показало, что LLM не обладают настоящим пространственным мышлением и не умеют выполнять пошаговые вычисления, как традиционные алгоритмы. Их ответы — это результат поиска похожих паттернов в обучающих данных, а не логического вывода. Поэтому, если в обучении не было похожих примеров, модель "теряется".

Авторы отмечают, что даже если LLM "знает", что такое високосный год, это не значит, что она сможет правильно рассчитать дату или день недели для конкретного года — особенно если задача требует визуального анализа календаря.

Почему это важно: риски и ограничения AI

Исследование подчёркивает: несмотря на впечатляющие успехи AI в сложных задачах, в простых, но требующих точного восприятия и логики, модели всё ещё уязвимы. Это особенно критично для приложений, где требуется точная работа со временем, датами, расписаниями — например, в медицине, логистике, финансах.

Авторы призывают не слепо доверять AI, а обязательно тестировать его на базовых задачах, внедрять резервные механизмы и сохранять человеческий контроль в критически важных сценариях.

Перспективы: что делать дальше?

Исследователи считают, что для преодоления этих ограничений нужно:

  • Включать в обучение больше специализированных примеров, связанных с пространственным и временным анализом;
  • Разрабатывать новые архитектуры, способные совмещать визуальное восприятие с логическим и арифметическим рассуждением;
  • Не забывать о необходимости человеческого контроля и проверки в реальных приложениях.

Вывод

AI впечатляет своими возможностями, но его "когнитивные дыры" в простых задачах — серьёзное напоминание: бездумное доверие к искусственному интеллекту может быть опаснее, чем его отсутствие. Важно помнить: даже самые продвинутые LLM пока не способны заменить человека там, где требуется точное восприятие и строгая логика.

Подробнее:
arxiv.org/abs/2502.05092
ed.ac.uk/news/most-ai-struggles-to-read-clocks-and-calendars
livescience.com/technology/artificial-intelligence/ai-models-cant-tell-time-or-read-a-calendar-study-reveals

Хотите создать уникальный и успешный продукт? СМС – ваш надежный партнер в мире инноваций! Закажи разработки ИИ-решений, LLM-чат-ботов, моделей генерации изображений и автоматизации бизнес-процессов у профессионалов.

ИИ сегодня — ваше конкурентное преимущество завтра!

Тел. +7 (985) 982-70-55

E-mail sms_systems@inbox.ru

Сайт https://www.smssystems.ru/razrabotka-ai/