Die siebte Ausgabe der ICLR (International Conference on Learning Representations), einer der weltweit führenden wissenschaftlichen Veranstaltungen zur künstlichen Intelligenz, fand diese Woche in New Orleans statt. Ein herausragender Aspekt dieser Ausgabe war eines der ausgezeichneten wissenschaftlichen Werke.
Geschrieben von Michael Carbin und Jonathan Frankle, beide MIT-Forscher, stellt es einen radikalen Ausgangspunkt dar: In all den Jahren haben wir viel größere neuronale Netze als nötig verwendet, in einigen Fällen zwischen dem 10- und 100-fachen. Und deshalb war sein Training sowohl in Bezug auf die Zeit als auch auf die Rechenleistung viel teurer als nötig.
Was Carbin und Frankle argumentieren, ist, dass es innerhalb jedes neuronalen Netzwerks eine viel kleinere Teilmenge gibt, die trainiert werden kann, um die gleiche Leistung zu erreichen, die wir für das gesamte neuronale Netzwerk erhalten.
Aber wie funktioniert ein neuronales Netzwerk?
Neuronale Netze werden oft als gestapelte Schichten von verbundenen Rechenknoten dargestellt, um Muster in den Daten zu berechnen. Diesen Verbindungen werden bei der Initialisierung des Netzwerks zufällig Werte zwischen 0 und 1 zugewiesen, die ihre Intensität darstellen.
Während ihres Trainings werden diese Verbindungen gestärkt oder geschwächt, um das "Gelernte" widerzuspiegeln, und von diesem Moment an bleiben sie fest, um neue Informationen auf der Grundlage dieses gesammelten "Wissens" analysieren zu können.
Dies ist die (sehr vereinfachte) Funktionsweise neuronaler Netze. Nun, die Arbeit dieser Forscher beginnt mit der Beobachtung von zwei Eigenschaften von ihnen:
- Wenn das Netzwerk vor Beginn des Trainingsprozesses initialisiert wird, besteht immer eine gewisse Wahrscheinlichkeit, dass zufällige Verbindungen eine nicht trainierbare Konfiguration erzeugen. Die Wahrscheinlichkeit, dass dies geschieht, nimmt ab, je größer das Netzwerk ist (je mehr Schichten und Knoten es hat). Es ist nicht klar, warum dies geschieht, aber wir wissen, dass es der Grund für die große Größe der bisher verwendeten neuronalen Netze ist.
- Nach Abschluss des Trainingsprozesses bleibt in der Regel nur ein kleiner Teil der Verbindungen stark, während der Rest so schwach ist, dass er eliminiert werden könnte, ohne die Gesamtleistung des Netzwerks zu beeinträchtigen. Letzteres ist für Carbin und Frankle keine Entdeckung: Es ist seit langem üblich, die Größe von Netzwerken nach dem Trainingsprozess zu reduzieren, um Kosten und Zeit für deren Ausführung zu sparen.
Das Training eines neuronalen Netzwerks ist wie das Spielen einer Lotterie
Aber niemand hielt es für möglich, die Größe eines Netzwerks vor dem Trainingsprozess zu reduzieren. Die Autoren dieser Forschung beschlossen, diese Annahme in Frage zu stellen und herauszufinden, wie sie die nützliche Teilmenge des Netzwerks beibehalten können, ohne Ressourcen auszugeben, die versuchen, alle anderen schwachen Teile des Netzwerks zu trainieren. Und wenn sie von dort aus recherchierten, entwickelten sie schließlich die "Zehnte Lotterie-Hypothese".
Dies kommt zu sagen, dass die zufällige Initialisierung der Verbindungen eines neuronalen Netzwerks wie der Kauf einer großen Tasche mit Lotterielosen ist: möglicherweise ist es der zehnte Gewinner (die erste Konfiguration, die einfach zu trainieren ist und ein erfolgreiches Modell ermöglicht). Das bedeutet aber nicht, dass wir durch den Einsatz großer neuronaler Netze deren Leistung erhöhen.
Die Autoren der Studie behaupten, dass wir, wenn es uns gelingt, diese anfängliche Gewinnkonfiguration zu finden, in der Lage sein sollten, sie immer wieder zu verwenden, anstatt "wieder Lotto zu spielen". So konnten Carbin und Frankle das Startnetz zwischen 10% und 20% reduzieren, sind aber überzeugt, dass die Zahl deutlich höher sein könnte.
Jason Yoskinski, Uber KI-Forscher und Mitautor eines Papiers, das sich mit Frankle's und Carbin's Ansätzen beschäftigt, erklärt, dass
"Wenn es den Forschern gelingen würde, von Anfang an "gewinnende Konfigurationen" zu identifizieren, würde die Größe neuronaler Netze um den Faktor 10, ja sogar 100 reduziert und eine neue Welt der Einsatzmöglichkeiten eröffnet.
Laut Frankle ist es möglich, dass wir in Zukunft Open-Source-Datenbanken haben werden, in denen Forscher die verschiedenen "beschnittenen" Konfigurationen, die sie gefunden haben, sammeln, zusammen mit einer Beschreibung, worin sie gut sind.
Dies würde die Forschung im Bereich der künstlichen Intelligenz beschleunigen und demokratisieren und sie unabhängigen Forschern ohne Zugang zu Großgeräten zugänglich machen. Und indirekt würde es auch die Art der KI-Anwendungen verändern, sie unabhängig von der Cloud machen und das Edge Computing verbessern.