Найти тему

Nous avons abusé des réseaux neuronaux pendant des années: maintenant nous savons comment les rendre jusqu'à 10 fois plus petits

Оглавление

La septième édition de la Conférence internationale sur les représentations de l'apprentissage (ICLR), l'un des événements scientifiques les plus importants au monde sur l'intelligence artificielle, s'est tenue cette semaine à la Nouvelle-Orléans. L'un des aspects marquants de cette édition a été l'un des travaux académiques qui y ont été récompensés.

Écrit par Michael Carbin et Jonathan Frankle, tous deux chercheurs au MIT, il établit un point de départ radical : pendant tout ce temps, nous avons utilisé des réseaux neuronaux beaucoup plus grands que nécessaire, dans certains cas entre 10 et 100 fois plus. Et c'est pourquoi sa formation a été beaucoup plus coûteuse que nécessaire, tant en termes de temps que de puissance de calcul.

Ce que Carbin et Frankle soutiennent, c'est qu'à l'intérieur de chaque réseau neuronal, il existe un sous-ensemble beaucoup plus petit qui peut être formé pour atteindre la même performance que celle que nous obtenons pour l'ensemble du réseau neuronal.

Mais comment fonctionne un réseau neuronal ?

Les réseaux neuronaux sont souvent représentés sous forme de couches empilées de nœuds de calcul connectés afin de calculer les modèles dans les données. Ces connexions, lorsque le réseau est initialisé, se voient attribuer au hasard des valeurs entre 0 et 1 qui représentent leur intensité.

Au cours de leur formation, ces liens sont renforcés ou affaiblis pour refléter " ce qui a été appris ", et à partir de ce moment, ils restent fixes pour pouvoir analyser de nouvelles informations basées sur ces " connaissances " accumulées.

C'est le fonctionnement (très simplifié) des réseaux de neurones. Or, le travail de ces chercheurs part de l'observation de deux de leurs propriétés :

1) Lorsque le réseau est initialisé avant le début du processus de formation, il y a toujours une certaine probabilité que des connexions aléatoires génèrent une configuration non formable. La probabilité que cela se produise diminue avec la taille du réseau (plus il y a de couches et de nœuds). On ne sait pas pourquoi cela se produit, mais nous savons que c'est la raison de la grande taille des réseaux de neurones qui ont été utilisés jusqu'à présent.
2) Une fois le processus de formation terminé, seule une petite partie de leurs connexions reste généralement forte, tandis que les autres sont si faibles qu'elles pourraient être éliminées sans affecter la performance globale du réseau. Ce dernier point n'a pas été découvert par Carbin et Frankle : il est d'usage depuis longtemps de réduire la taille des réseaux après le processus de formation afin de réduire le coût et le temps de leur exécution.

https://i.pinimg.com/564x/60/cc/24/60cc247f8ec114d49966844914257efb.jpg
https://i.pinimg.com/564x/60/cc/24/60cc247f8ec114d49966844914257efb.jpg

Entraîner un réseau neuronal, c'est comme jouer à la loterie

Mais personne ne pensait qu'il était possible de réduire la taille d'un réseau avant le processus de formation. Les auteurs de cette recherche ont décidé de remettre en question cette hypothèse et de découvrir comment ils pourraient conserver le sous-ensemble utile du réseau sans dépenser des ressources pour essayer de former toutes les autres parties faibles du réseau. Et à partir de là, ils ont fini par élaborer la " Dixième hypothèse de la loterie ".

Cela revient à dire que l'initialisation aléatoire des connexions d'un réseau neuronal est comme l'achat d'un gros sac de billets de loterie : peut-être, en son sein, est le dixième gagnant (la configuration initiale qui sera facile à former et permet un modèle réussi). Mais cela ne veut pas dire qu'en utilisant de grands réseaux neuronaux, nous augmentons leur puissance.

Les auteurs de l'étude affirment que si nous parvenons à trouver cette configuration gagnante initiale, nous devrions pouvoir la réutiliser encore et encore, plutôt que de "jouer à la loterie". Carbin et Frankle ont donc pu réduire le réseau de départ de 10 à 20 %, mais ils sont convaincus que le chiffre pourrait être beaucoup plus élevé.

Jason Yoskinski, chercheur Uber AI et co-auteur d'un article qui se penche sur les approches de Frankle et Carbin, dit que:

"Si les chercheurs pouvaient trouver un moyen d'identifier les " configurations gagnantes " dès le départ, la taille des réseaux neuronaux serait réduite d'un facteur 10, voire 100, et un nouveau monde d'utilisations potentielles serait ouvert."

Selon Frankle, il est possible qu'à l'avenir, nous ayons des bases de données open source dans lesquelles les chercheurs rassemblent les différentes configurations'taillées' qu'ils ont trouvées, ainsi qu'une description de leurs points forts.

Cela permettrait d'accélérer et de démocratiser la recherche en intelligence artificielle, en la rendant accessible aux chercheurs indépendants qui n'ont pas accès à du matériel de grande taille. Et, indirectement, cela changerait aussi la nature même des applications d'intelligence artificielle, les rendant indépendantes du cloud et stimulant l'informatique de pointe.