Deep Learning – zwischen Hype und Ernüchterung
Seit einiger Zeit erlebt Maschinelles Lernen mit tiefen künstlichen neuronalen Netzen (Deep Learning) eine Boom-Phase. Zum einen sind in Folge des rasanten technischen Fortschritts heute auch sehr große und tiefe Netze schnell und effizient zu trainieren. Zum anderen hat sich herausgestellt, dass für viele Anwendungen, wie zum Beispiel Text- und Spracherkennung neuronale Netze ideal geeignet sind.
Schwankende Güte
In der Praxis kommt es jedoch durchaus vor, dass die Güte der Vorhersagen eines neuronalen Netzes stark schwankt. So kann es sein, dass in verschiedenen Trainingsläufen mit denselben Trainingsdaten und derselben Netzarchitektur sehr große Unterschiede in der Güte der Vorhersagen beobachtet werden. Der Grund dafür liegt häufig in der Initialisierung der Gewichte. Bevor das Training beginnen kann, werden sogenannte Startgewichte benötigt. Diese werden meist zufällig erzeugt und man hofft darauf, dass diese sich im Laufe des Trainings den besten oder zumindest guten Gewichten annähern. In erfreulich vielen Fällen funktioniert das auch schon ganz gut – jedoch nicht immer. Mitunter stellt es sich als sehr schwierig heraus, stabile Ergebnisse zu erhalten. Und manchmal liefern klassische Verfahren durchaus bessere Ergebnisse.
Freud und Leid mit Gradient Descent
Ein Blick auf das Verfahren hinter den Gewichtsanpassungen gibt einen Hinweis auf die mögliche Ursache. Die Gewichtsanpassungen verfolgen das Ziel, die Fehlerfunktion zu minimieren und dazu verwendet man standardmäßig die Gradient Descent Methode. Dabei ist die Fehlerfunktion eine Funktion der Gewichte. Beim sogenannten Deep Learning mit vielleicht 200 Hidden Layern und einigen zehntausend Units ist der Definitionsbereich hochdimensional – konkret ist die Dimension gleich der Anzahl der Gewichte bzw. Units. Diese Funktion kann durchaus sehr viele lokale Minima haben und die Gradient Descent Methode führt uns (hoffentlich) in genau eines dieser lokalen Minima. Dabei ist es nicht einfach, herauszufinden, wie stark unser gefundenes lokales Minimum von einem absoluten Minimum abweicht. In der Praxis ist das oft auch gar nicht notwendig, denn für gute Vorhersagen benötigen wir gar nicht das absolute Minimum, sondern „nur“ ein hinreichendes kleines lokales Minimum.
Ein Wanderer in den Alpen
Manchmal ist jedoch auch das schon ein Problem. Ein wenig besser vorstellbar wird das Ganze, wenn wir nur zwei Gewichte hätten, also eine Fehlerfunktion mit einem zweidimensionalen Definitionsbereich und den reellen Zahlen (eindimensional) als Zielbereich. Den Graphen dieser Funktion können wir uns dann als Gebirgslandschaft – vielleicht vergleichbar mit den Alpen vorstellen. Begleiten wir einen Wanderer, der an irgendeiner Stelle in den Alpen startet und auf der Suche nach Wasser ist. Das erwartetet er vielleicht an den hundert tiefsten Stellen im Gebirge. Mit der Gradient Descent Methode würde er einfach immer bergab gehen und in irgendeiner Senke enden (oder einem sogenannten Sattelpunkt, was aber auch okay wäre). Da es in den Alpen sehr viele Senken gibt, kann unser Wanderer Glück haben und Wasser finden. Oder er landet in einem lokalen Minimum, das sehr viel höher liegt, als jene mit dem Wasser. Sein Erfolg hängt dabei zentral von seinem Startpunkt ab und dieser wird determiniert durch die Wahl der Startgewichte.
Ein Blick aus dem Helikopter
Diese Analogie, wie auch die praktische Erfahrung zeigen, dass dieses Vorgehen hier eine deutliche Schwäche aufweist. Andererseits ist es das Beste, was wir heute haben. Das Problem unseres Wanderers besteht darin, dass er sich in der Ebene und damit in gewisser Weise „in der Dimension der Gewichte“ bewegt. Damit fehlen ihm wichtige Informationen über die Struktur der Landschaft in der er sich bewegt. Hätte er einen Helikopter oder einen Heißluftballon, könnte er versuchen, von oben (also aus einer höheren Perspektive) einen günstigen Startpunkt zu finden.
Kontextwissen
Etwas Ähnliches macht man in der Praxis: Hier versucht man das Kontextwissen, über das man verfügt, gewinnbringend einzusetzen. Konkret werden Lernverfahren nicht auf der „grünen Wiese“, sondern im Rahmen einer fachlichen Fragestellung eingesetzt. Hier versucht man alles, was man vorab schon weiß, für die Wahl der Startgewichte einzusetzen.
Oder ein paar Hundert Wanderer
Daneben besteht natürlich auch immer die Möglichkeit, das Training häufiger zu wiederholen, solange bis die erforderliche Güte erreicht wird. Das wäre dann damit vergleichbar, dass wir statt einen, ein paar Hundert Wanderer auf die Suche schicken. Wobei es für uns ausreicht, wenn nur einer von ihnen Wasser findet.