Как «задача с рукой» вскрыла ахиллесову пяту современных ИИ
Последние дни интернет массово «ломает» ИИ одной на вид детской задачкой — посчитай пальцы на картинке и подпиши их цифрами. Подвох в том, что на рисунке — не привычная пяти, а шестипалая рука.
Результат получился сюрреалистичным: модели вроде Nano Banana Pro аккуратно расставляют цифры 1, 2, 3, 4, 5… а одну из шести фаланг просто игнорируют. GPT‑5.2, даже после прямого уточнения в промпте «на руке шесть пальцев», упрямо отвечает: «пять». Аргумент? «У людей пять пальцев, значит, на картинке их тоже пять».
Пользователи начали сходить с ума, пытаясь «дожать» модели промпт-инженерией:
— «Сдвинь 4 налево, 5 — налево, на большой палец поставь 6».
ИИ всё равно ломает нумерацию и «теряет» какую‑то цифру.
Лишь когда ему говорят: «Это не рука, а произвольный объект» или меняют эмодзи на абстрактную фигурку, модель вдруг начинает считать правильно.
Смешная игрушка неожиданно превратилась в серьёзный стресс‑тест для архитектуры трансформеров и визуальных моделей.
Почему ИИ так упрямо «видит» только пять пальцев
Ключ к «задаче с рукой» — в том, как современные модели учатся и что именно они считывают из данных.
- Сверхсильный статистический приор
В обучающих данных подавляющее большинство рук — пятипалые. Модель выучивает простое и очень устойчивое правило:
«Если это рука, на ней пять пальцев».
Когда ей показывают шестипалую руку, она не «удивляется» и не обновляет представление о мире. Она насильно втискивает аномалию в знакомый шаблон — как будто шестой палец это просто шум, тень или артефакт.
- Модели видят текстуры, а не объекты и количества
Текущие визуальные ИИ в первую очередь оперируют паттернами: пятнами, контурами, фактурой.
«Рука» для них — это не пять чётко отделённых, учитываемых сущностей, а набор признаков, которые в среднем соответствуют руке.
Чёткое «один, два, три, четыре, пять, шесть» как дискретный счёт — задача другого типа, ближе к символике и чёткой структуре, а не к распознаванию «общего вида». - Сломанная иерархия: текст побеждает картинку
Как только в задаче речь явно заходит о «руке», в игру вступает языковая часть модели:
- «Рука → человек → пять пальцев».
Даже если визуальный модуль «видит» шесть пальцев, итоговый ответ формируется под давлением статистики языка: так «правильнее» с точки зрения накопленного текста.
Стоит переименовать объект в «нерегулярную фигуру» — и жёсткий приор про пять пальцев исчезает, счёт внезапно становится верным.
Ахиллесова пята трансформеров
«Задача с рукой» бьёт по самому центру сегодняшней ИИ‑парадигмы — по трансформерной архитектуре и диффузионным генераторам.
1. Параллельность без состояния
Трансформер гениален в одном: он предсказывает следующий токен на основе всех остальных, обрабатывая их параллельно. Это идеально для языка — там важна глобальная связность.
Но у такого подхода есть цена:
- нет явного состояния, которое последовательно «ведёт» мысль шаг за шагом;
- нет встроенного механизма «увидел аномалию → переосмыслил план → скорректировал ответ».
В случае шестипалой руки модель действует так:
«Вижу руку → у людей пять пальцев → нужно пять цифр»
А вот цепочки «вижу шесть отростков → это противоречит моему ожиданию → надо посчитать заново» у неё просто нет как алгоритма.
2. Диффузионные модели и проклятие дискретной структуры
Генераторы изображений (диффузионные модели) учатся обратному переходу от шума к «правдоподобной картинке». Они великолепны в восстановлении распределения:
создать «что-то, очень похожее на руку» — легко.
Но:
- количество пальцев — дискретная, жёсткая структура;
- отношения между фалангами, суставами, длинами — строгая геометрия.
Диффузионная модель оперирует не объектами и их связями, а непрерывными признаками. В условиях, где 99,999% обучающих рук пятипалые, «шестой» просто растворяется в статистике: сеть буквально отфильтровывает его как шум.
Что нам показывает «задача с рукой» на самом деле
Эта история — не про смешные мемы, а про фундаментальное ограничение сегодняшних ИИ‑систем:
- Мир сплющен в токены.
Ни объектов, ни явных связей, ни стабильных сущностей — только последовательности признаков, статистика и вероятности. - Нет настоящего счёта и структурного понимания.
Есть узнавание шаблонов, но нет встроенной концепции «сколько элементов в этой группе» как первоклассного объекта. - Сильные приоры делают модель слепой к аномалиям.
Всё, что выбивается из распределения, либо игнорируется, либо агрессивно «исправляется» под ожидания.
Отсюда и парадокс: модели, которые блестяще пишут код, решают сложные задачи по математике и проходят профессиональные экзамены, спотыкаются на шестом пальце.
Куда двигаться дальше
Чтобы выйти за пределы нынешних ограничений, одних «больших данных» и «больших GPU» уже мало. Нужны:
- гибридные архитектуры — сочетание диффузионных моделей с объектно‑центричными и геометрическими представлениями;
- явные структурные слои — где для руки, лица, сцены задаются не только текстуры, но и жёсткие связи и ограничения;
- обучение на аномалиях — не только на «нормальных» данных, но и на систематически созданных нарушениях привычных шаблонов.
И, возможно, самое важное — трезвое отношение людей к возможностям ИИ.
«Проблема шести пальцев» наглядно показывает: даже самые продвинутые модели пока не видят мир так, как мы. Они лишь статистически угадывают, что «похоже на правду» — и иногда с блеском промахиваются в самом буквальном смысле слова.
Хотите создать уникальный и успешный продукт? СМС – ваш надежный партнер в мире инноваций! Закажи разработки ИИ-решений, LLM-чат-ботов, моделей генерации изображений и автоматизации бизнес-процессов у профессионалов.
ИИ сегодня — ваше конкурентное преимущество завтра!
Тел. +7 (985) 982-70-55
E-mail sms_systems@inbox.ru
Сайт https://www.smssystems.ru/razrabotka-ai/