Найти тему

La vue humaine est plus polyvalente que la vue artificielle parce que nous voyons des formes...

Si un chat (qu'il soit blanc, noir, griffé ou taché) entrait dans notre maison, nous n'aurions pas beaucoup de mal à le détecter et à l'identifier lorsqu'il entre dans notre champ de vision, même s'il bouge ou se blottit derrière un coussin.

https://images.pexels.com/photos/818563/pexels-photo-818563.jpeg?auto=compress&cs=tinysrgb&dpr=2&h=750&w=1260
https://images.pexels.com/photos/818563/pexels-photo-818563.jpeg?auto=compress&cs=tinysrgb&dpr=2&h=750&w=1260

Cependant, si nous n'étions pas à la maison et que notre système de sécurité équipé, par exemple, d'un réseau neuronal profond qui exécute des algorithmes de vision artificielle ne nous avertit pas, son efficacité pour identifier l'intrus serait - sauf dans certaines conditions très spécifiques - bien moindre.

Ce qui n'était pas très clair jusqu'à présent était la raison de cette différence. Aujourd'hui, une équipe de chercheurs allemands a découvert une explication inattendue à cela : alors que la vision humaine prête attention aux formes des objets, la vision artificielle par l'apprentissage profond se concentre sur les textures comme critère d'identification.

La fameuse illusion d'optique du canard et du lapin, comment l'intelligence artificielle l'interprète et quelles en sont les conséquences

Non, les humains et les machines ne " voient " pas la même chose.

Nous avons tendance à penser que l'intelligence artificielle n'est qu'un reflet synthétique de nos propres façons de traiter la réalité, mais la vérité est que lorsqu'un réseau neuronal exécute un algorithme d'apprentissage profond, le système devient une boîte noire : nous savons seulement que le système est dédié à la recherche de modèles dans les données, qu'il utilise ensuite pour décider de la meilleure façon de marquer une image qu'il n'a jamais vue auparavant.

Et le fait que les systèmes de vision industrielle aient été capables de voir des différences que nous n'apprécions pas (même après que l'IA nous ait dit qu'elles sont là) et que des changements inestimables apportés à une image puissent confondre une IA en changeant même l'identité de ce qu'elle voit, nous donne déjà un indice que les humains et les machines ne " voient " pas la même chose quand on regarde les mêmes objets.

Cependant, jusqu'à ce que le neuroscientifique Matthias Bethge et le psychophysicien Felix Wichmann commencent à étudier ce fait avec leur équipe de chercheurs de l'Université de Tübingen, nous n'étions pas très clairs sur la différence.

Les chercheurs se sont rendu compte que lorsqu'un réseau neuronal était formé avec des images dégradées par un certain type de " bruit ", il s'avérait supérieur aux humains en identifiant des objets dans des images soumises au même type de distorsion. Toutefois, toute petite altération de la même retour à l'homme le leadership.

Les motifs en photographie : comment les localiser et les utiliser pour obtenir de bonnes images

Des préjugés plus raisonnables qu'ils n'en ont l'air.

Les chercheurs se sont rendu compte que les formes des objets restaient également reconnaissables avant et après l'application de la distorsion, de sorte que l'explication pourrait résider dans la façon dont le réseau neuronal traite la texture de chaque objet.

https://i.pinimg.com/564x/a5/6a/27/a56a27fc2a18a9df30ab8bd51da982e5.jpg
https://i.pinimg.com/564x/a5/6a/27/a56a27fc2a18a9df30ab8bd51da982e5.jpg

La façon de vérifier si le problème était aussi simple qu'ingénieuse était de créer de fausses images qui incluaient des signaux contradictoires, comme des silhouettes de chat avec la texture de la peau d'un éléphant et des ours " faits " de boîtes de conserve en aluminium. Et une fois créés, on a demandé aux humains et aux réseaux neuronaux ce qu'ils voyaient. Les humains, comme ils l'avaient prévu, ont vu un chat et un ours. Les réseaux neuronaux réagissaient invariablement en reconnaissant les textures de chaque image.

Le parti pris humain en faveur de la forme est facile à expliquer : nous vivons dans un monde tridimensionnel, qui nous permet de voir des objets sous des angles multiples et dans des conditions très différentes, et où nous pouvons compléter notre information visuelle par d'autres sens, comme le toucher.

Mais, aussi étrange que puisse être cette préférence de l'IA pour les textures, elle a un sens : les textures offrent une plus grande quantité d'informations disponibles, contrairement aux quelques pixels indicatifs de la forme de l'objet.

A partir de cette découverte, l'équipe a parié sur la création d'un système de reconnaissance qui divise chaque image en plusieurs petits "patchs" (pour mettre fin à l'avantage de la texture comme source principale d'information) et analyse les preuves que chacun d'eux offre en utilisant plusieurs algorithmes différents, puis compile simplement toutes les informations sans prendre en compte les relations spatiales entre les fragments, les intégrant pour en extraire les caractéristiques à haut niveau.

La précision du système s'est révélée remarquable, présentant un biais plus " humain " et encore plus " antibruit ", le rendant plus efficace contre certaines attaques antagonistes.