Найти в Дзене
Social Mebia Systems

Шесть пальцев и один большой баг

Как «задача с рукой» вскрыла ахиллесову пяту современных ИИ Последние дни интернет массово «ломает» ИИ одной на вид детской задачкой — посчитай пальцы на картинке и подпиши их цифрами. Подвох в том, что на рисунке — не привычная пяти, а шестипалая рука. Результат получился сюрреалистичным: модели вроде Nano Banana Pro аккуратно расставляют цифры 1, 2, 3, 4, 5… а одну из шести фаланг просто игнорируют. GPT‑5.2, даже после прямого уточнения в промпте «на руке шесть пальцев», упрямо отвечает: «пять». Аргумент? «У людей пять пальцев, значит, на картинке их тоже пять». Пользователи начали сходить с ума, пытаясь «дожать» модели промпт-инженерией:
— «Сдвинь 4 налево, 5 — налево, на большой палец поставь 6».
ИИ всё равно ломает нумерацию и «теряет» какую‑то цифру.
Лишь когда ему говорят: «Это не рука, а произвольный объект» или меняют эмодзи на абстрактную фигурку, модель вдруг начинает считать правильно. Смешная игрушка неожиданно превратилась в серьёзный стресс‑тест для архитектуры трансфо

Как «задача с рукой» вскрыла ахиллесову пяту современных ИИ

Последние дни интернет массово «ломает» ИИ одной на вид детской задачкой — посчитай пальцы на картинке и подпиши их цифрами. Подвох в том, что на рисунке — не привычная пяти, а шестипалая рука.

Результат получился сюрреалистичным: модели вроде Nano Banana Pro аккуратно расставляют цифры 1, 2, 3, 4, 5… а одну из шести фаланг просто игнорируют. GPT‑5.2, даже после прямого уточнения в промпте «на руке шесть пальцев», упрямо отвечает: «пять». Аргумент? «У людей пять пальцев, значит, на картинке их тоже пять».

Пользователи начали сходить с ума, пытаясь «дожать» модели промпт-инженерией:
— «Сдвинь 4 налево, 5 — налево, на большой палец поставь 6».
ИИ всё равно ломает нумерацию и «теряет» какую‑то цифру.
Лишь когда ему говорят: «Это не рука, а произвольный объект» или меняют эмодзи на абстрактную фигурку, модель вдруг начинает считать правильно.

Смешная игрушка неожиданно превратилась в серьёзный стресс‑тест для архитектуры трансформеров и визуальных моделей.

Почему ИИ так упрямо «видит» только пять пальцев

Ключ к «задаче с рукой» — в том, как современные модели учатся и что именно они считывают из данных.

  1. Сверхсильный статистический приор
    В обучающих данных подавляющее большинство рук — пятипалые. Модель выучивает простое и очень устойчивое правило:

«Если это рука, на ней пять пальцев».
Когда ей показывают шестипалую руку, она не «удивляется» и не обновляет представление о мире. Она насильно втискивает аномалию в знакомый шаблон — как будто шестой палец это просто шум, тень или артефакт.

  1. Модели видят текстуры, а не объекты и количества
    Текущие визуальные ИИ в первую очередь оперируют паттернами: пятнами, контурами, фактурой.
    «Рука» для них — это не пять чётко отделённых, учитываемых сущностей, а набор признаков, которые в среднем соответствуют руке.
    Чёткое «один, два, три, четыре, пять, шесть» как дискретный счёт — задача другого типа, ближе к символике и чёткой структуре, а не к распознаванию «общего вида».
  2. Сломанная иерархия: текст побеждает картинку
    Как только в задаче речь явно заходит о «руке», в игру вступает языковая часть модели:
  • «Рука → человек → пять пальцев».
    Даже если визуальный модуль «видит» шесть пальцев, итоговый ответ формируется под давлением статистики языка: так «правильнее» с точки зрения накопленного текста.
    Стоит переименовать объект в «нерегулярную фигуру» — и жёсткий приор про пять пальцев исчезает, счёт внезапно становится верным.

Ахиллесова пята трансформеров

«Задача с рукой» бьёт по самому центру сегодняшней ИИ‑парадигмы — по трансформерной архитектуре и диффузионным генераторам.

1. Параллельность без состояния

Трансформер гениален в одном: он предсказывает следующий токен на основе всех остальных, обрабатывая их параллельно. Это идеально для языка — там важна глобальная связность.

Но у такого подхода есть цена:

  • нет явного состояния, которое последовательно «ведёт» мысль шаг за шагом;
  • нет встроенного механизма «увидел аномалию → переосмыслил план → скорректировал ответ».

В случае шестипалой руки модель действует так:

«Вижу руку → у людей пять пальцев → нужно пять цифр»

А вот цепочки «вижу шесть отростков → это противоречит моему ожиданию → надо посчитать заново» у неё просто нет как алгоритма.

2. Диффузионные модели и проклятие дискретной структуры

Генераторы изображений (диффузионные модели) учатся обратному переходу от шума к «правдоподобной картинке». Они великолепны в восстановлении распределения:
создать «что-то, очень похожее на руку» — легко.

Но:

  • количество пальцев — дискретная, жёсткая структура;
  • отношения между фалангами, суставами, длинами — строгая геометрия.

Диффузионная модель оперирует не объектами и их связями, а непрерывными признаками. В условиях, где 99,999% обучающих рук пятипалые, «шестой» просто растворяется в статистике: сеть буквально отфильтровывает его как шум.

Что нам показывает «задача с рукой» на самом деле

Эта история — не про смешные мемы, а про фундаментальное ограничение сегодняшних ИИ‑систем:

  • Мир сплющен в токены.
    Ни объектов, ни явных связей, ни стабильных сущностей — только последовательности признаков, статистика и вероятности.
  • Нет настоящего счёта и структурного понимания.
    Есть узнавание шаблонов, но нет встроенной концепции «сколько элементов в этой группе» как первоклассного объекта.
  • Сильные приоры делают модель слепой к аномалиям.
    Всё, что выбивается из распределения, либо игнорируется, либо агрессивно «исправляется» под ожидания.

Отсюда и парадокс: модели, которые блестяще пишут код, решают сложные задачи по математике и проходят профессиональные экзамены, спотыкаются на шестом пальце.

Куда двигаться дальше

Чтобы выйти за пределы нынешних ограничений, одних «больших данных» и «больших GPU» уже мало. Нужны:

  • гибридные архитектуры — сочетание диффузионных моделей с объектно‑центричными и геометрическими представлениями;
  • явные структурные слои — где для руки, лица, сцены задаются не только текстуры, но и жёсткие связи и ограничения;
  • обучение на аномалиях — не только на «нормальных» данных, но и на систематически созданных нарушениях привычных шаблонов.

И, возможно, самое важное — трезвое отношение людей к возможностям ИИ.
«Проблема шести пальцев» наглядно показывает: даже самые продвинутые модели пока не видят мир так, как мы. Они лишь статистически угадывают, что «похоже на правду» — и иногда с блеском промахиваются в самом буквальном смысле слова.

Хотите создать уникальный и успешный продукт? СМС – ваш надежный партнер в мире инноваций! Закажи разработки ИИ-решений, LLM-чат-ботов, моделей генерации изображений и автоматизации бизнес-процессов у профессионалов.

ИИ сегодня — ваше конкурентное преимущество завтра!

Тел. +7 (985) 982-70-55

E-mail sms_systems@inbox.ru

Сайт https://www.smssystems.ru/razrabotka-ai/