29 подписчиков

Почему нейросети рисуют руки с шестью пальцами? И как ИИ учится на наших косяках

6 июня6 июн

3 мин

Красивое лицо. Идеальный свет. Шея, плечи, волосы - загляденье. А потом взгляд падает на руки. Три пальца. Шесть пальцев. Палец, растущий из запястья. Или рука, которая скрутилась в узел. Нейросети уже умеют рисовать почти как люди. Но руки у них получаются… криповыми. Почему? Они тупые? Нет. Они просто не умеют считать. Давайте разбираться без программистского снобизма. Для вас и меня "рука" - это ладонь + 5 пальцев. Мы выучили это в три года. Для нейросети - всё иначе. Она не понимает цифр. Она вообще не понимает, что такое "количество". Нейросеть смотрит на миллионы картинок и запоминает: в том месте, где обычно бывает рука, есть какие-то изогнутые линии. Иногда их четыре, иногда шесть, иногда они слипаются. Она не может сказать: "Здесь должно быть пять, потому что это анатомическая норма". Она просто выдает статистически правдоподобную картинку. А на большинстве фотографий пальцы переплетены, сжаты в кулак, скрыты за спиной или размыты в движении. Что делает нейросеть? Она "додумыв

Оглавление

Вы наверняка видели эти странные картинки
Главная причина: ИИ не знает, что пальцев должно быть пять
Вау-факт №1. ИИ не умеет считать в принципе

Вы наверняка видели эти странные картинки

Красивое лицо. Идеальный свет. Шея, плечи, волосы - загляденье.

А потом взгляд падает на руки.

Три пальца. Шесть пальцев. Палец, растущий из запястья. Или рука, которая скрутилась в узел.

Нейросети уже умеют рисовать почти как люди. Но руки у них получаются… криповыми.

Почему? Они тупые? Нет. Они просто не умеют считать.

Давайте разбираться без программистского снобизма.

Главная причина: ИИ не знает, что пальцев должно быть пять

Для вас и меня "рука" - это ладонь + 5 пальцев. Мы выучили это в три года.

Для нейросети - всё иначе.

Она не понимает цифр. Она вообще не понимает, что такое "количество".

Нейросеть смотрит на миллионы картинок и запоминает: в том месте, где обычно бывает рука, есть какие-то изогнутые линии. Иногда их четыре, иногда шесть, иногда они слипаются.

Она не может сказать: "Здесь должно быть пять, потому что это анатомическая норма". Она просто выдает статистически правдоподобную картинку.

А на большинстве фотографий пальцы переплетены, сжаты в кулак, скрыты за спиной или размыты в движении.

Что делает нейросеть? Она "додумывает". И иногда додумывается до лишнего пальца.

Вау-факт №1. ИИ не умеет считать в принципе

Попросите нейросеть нарисовать "три яблока на столе". Она нарисует два, четыре или пять.

Почему? Потому что её учили на картинках, где надпись "три яблока" могла соответствовать любой куче яблок. Модель не видит разницы между "три" и "несколько".

Она вообще не понимает, что числа - это точные понятия.

Существуют специальные нейросети, которые пытаются научиться считать. Но обычные генераторы вроде Midjourney или DALL-E до сих пор путают два и три.

Пальцы на руках - та же история. Просто рук в выборке больше, чем столов с тремя яблоками, поэтому ошибки заметнее.

Вау-факт №2. Галлюцинации нейросетей - это не баги, а творчество

Есть знаменитый случай. Одна нейросеть упорно добавляла на любое изображение знаменитости маленького гнома в углу картинки.

Исследователи долго чесали голову. Потом нашли причину: в обучающей выборке было несколько фотографий, где на заднем плане случайно оказалась статуя гнома. Нейросеть решила: "Ага, гном - это важный признак знаменитости!" И стала добавлять его везде.

Такие ошибки называются "галлюцинациями".

Шестипалые руки -та же галлюцинация. В какой-то момент нейросеть "поняла", что дополнительный палец делает руку более заметной. И начала добавлять его, чтобы угодить алгоритму оценки качества.

Вау-факт №3. Чтобы исправить руки, люди вручную размечают тысячи изображений

Самая скучная работа на свете - размечать пальцы для нейросетей.

Человек сидит в программе и обводит каждый палец на каждой руке на каждой фотографии. Тысячи часов. Миллионы кликов.

Вот почему большие компании (Google, OpenAI, Midjourney) нанимают целые армии разметчиков в бедных странах. Или используют краудсорсинг - обычные люди за копейки размечают картинки в интернете.

Без этой работы нейросеть так и не поймёт, где начинается палец и где заканчивается.

И всё равно ошибается.

А теперь самое интересное: нейросети уже учат друг друга

Современный тренд - "синтетические данные". Одна нейросеть генерирует миллион картинок с руками. Вторая - проверяет и исправляет ошибки. Третья - учится на исправленных.

В теории это должно ускорить обучение.

На практике - ошибки могут накапливаться. Если первая нейросеть нарисовала шестипалую руку, а вторая её не заметила, то третья решит: "Ага, шесть пальцев - это норма".

Так рождаются "генетические заболевания" ИИ.

Главный вывод

Нейросети рисуют руки с шестью пальцами не потому, что они глупые.

Они просто не умеют считать. Не понимают анатомии. И видят мир не как мы - а как облако пикселей с вероятностями.

Им не стыдно добавить лишний палец, если это повышает "правдоподобность" по их кривым меркам.

Они как гениальные дети, которые могут нарисовать космический корабль, но не помнят, сколько у человека пальцев.

К 2027 году эту проблему почти решат. Но пока что - наслаждайтесь кривыми руками. Это последние годы, когда нейросети выдают такое откровенное дилетантство.

Вопрос к вам (честно):

А вам попадалась самая смешная ошибка нейросети? Шесть пальцев, глаза на лбу, ухо посреди щеки? Скидывайте в комментарии - устроим выставку "шедевров ИИ". Обязательно приложите картинку, если сохранили.

Подписывайтесь, чтобы не пропустить следующую статью: "Почему нейросети такие жадные до энергии и что общего у ИИ с майнингом биткоинов (спойлер: они оба греют планету)". А после - вернёмся к биологии: почему мы пукаем (да, будет и такая).