Maschinelles Lernen
Ein Blick hinter die Kulissen
 

Big Data ist der Megatrend der letzten Jahre. Eine Erfolgsstory jagt die andere, neue Projekte allenthalben und niemand, der es sich leisten könnte, nicht dabei zu sein. Über die Technologie, die diesen Hype erst ermöglicht, das maschinelle Lernen, ist überraschenderweise allgemein wenig bekannt. Wie wird aus Daten Wissen, und welche Methoden kommen hier zum Einsatz? Ein Blick hinter die Kulissen.

Spitz formuliert ist Big Data nichts anderes als das Symptom der Anwendung maschineller Lernverfahren, denn maschinelle Lernverfahren benötigen Daten, um daraus neues Wissen ableiten zu können. Große Mengen an Daten.

Bevor im Folgenden einige Verfahren des maschinellen Lernens vorgestellt werden, soll deshalb zunächst die grundlegende Frage geklärt werden, wie aus Daten überhaupt Wissen entstehen kann. Einen Überblick über den mehrstufigen Prozess der Wissensgewinnung gibt die Wissenspyramide.  » 1 

Ausgangspunkt sind Sequenzen von Symbolen, beispielsweise <1 , 1 2>. Welchen Nutzen haben sie? Nun, isoliert betrachtet zunächst annähernd keinen. Der erste Schritt des kognitiven Prozesses der Wissensgewinnung ist deshalb, die den Symbolen zugrunde liegende Syntax, d. h. ihre innere Ordnung, zu erkennen.

Im Beispiel scheinen die Symbole eine Zahl darzustellen. Durch Wahrnehmen der konkreten Syntax wird aus den Symbolen ein Datum. Welchen Nutzen hat nun die Zahl 1,12 ? Wieder wird die Antwort sein, dass das einzelne Datum keinen direkten Mehrwert bietet. Es sind also weitere Abstraktionsschritte nötig.

Die nächste Transition erschließt die Semantik, d. h. die Bedeutung des Datums. Um die Semantik des Datums zu verstehen, muss es interpretiert werden, beispielsweise indem sein Kontext betrachtet wird. Im fiktiven Beispiel möge der Zahl 1,12 noch das Kürzel EUR/USD vorangehen. Dann ‚wissen‘ wir, dass das vorliegende Datum als Wechselkurs zu interpretieren ist. Aus dem Datum ist eine Information geworden.

Aber auch die eine isolierte Information ist noch von nur begrenztem Nutzen. Ihre Pragmatik, ihre Nützlichkeit erschließt sich erst, wenn sie in Relation zu anderen Informationen gesetzt wird. Liegen die vorhergehenden Wechselkurse sonst beispielsweise im Bereich 1,20 bis 1,30, können wir aus der Gesamtbetrachtung auf einen aktuell günstigen Kurs schließen. Erst aus vielen einzelnen Informationen wird so Wissen. Dieses neu gewonnene Wissen kann gewinnbringend angewendet werden. Ein regelbasiertes System könnte beispielsweise auf Basis des aktuell günstigen Kurses und weiterer passender Rahmenbedingungen einen Kauf veranlassen.

In der täglichen Praxis ist die Syntax der eingehenden Symbole zumeist schon bekannt, da sie z. B. in JSON kodierter Form vorliegen. Der Wissensgewinnungsprozess startet dann bereits auf der Ebene der Daten. Das Ziel maschineller Lernverfahren ist also, aus Daten Informationen zu gewinnen und diese weiter zu Wissen zu veredeln. Sie kondensieren förmlich riesige Mengen an Rohdaten zu kompaktem, operativem Wissen in Form eines Modells.

Lernarten beim maschinellen Lernen

Das maschinelle Lernen ist ein Teilgebiet der Künstlichen Intelligenz und beschäftigt sich mit der Frage, wie Computersystemen eine Fähigkeit verliehen werden kann, die Menschen und Tieren auf natürliche Weise gegeben ist: aus Erfahrungen zu lernen.

Algorithmen des maschinellen Lernens beherrschen diese Kunst durch den Einsatz geeigneter statistischer Methoden. Sie können dann ebenfalls modellfrei direkt aus Daten „lernen“, also ohne – wie klassische Programme – an eine vorgegebene Gleichung als Modellrahmen für das zu modellierende Wissen gebunden zu sein. Das garantiert nicht nur maximale Flexibilität, sondern erlaubt es ihnen außerdem, ihre Leistungsfähigkeit sukzessive mit der Anzahl der zur Verfügung stehenden Datensätze zu verbessern.

Die Einsatzmöglichkeiten der Methoden des maschinellen Lernens sind vielfältig. Häufig kommen sie beim Data Mining zum Einsatz. Mit dem Aufkommen von Big Data wurden Algorithmen des maschinellen Lernens u. a. erfolgreich im Gebiet Computational Finance zum Credit Scoring und automatischen Handel eingesetzt. Im Bereich der Bildverarbeitung und Computer Vision nutzt man sie zur Gesichts-, Bewegungs- und Objekterkennung, in der Computational Biology zur Tumorerkennung, DNA-Sequenzierung und dem Wirkstoffdesign, in der Energieproduktion zur Preis- und Lastvorhersage, im Automobilbau, der Luftfahrt und dem produzierendem Gewerbe für Predictive Maintenance oder auch zum Natural Language Processing.

So vielfältig die Anwendungen im Einzelnen auch sind, im Kern basieren die Methoden des maschinellen Lernens auf nur drei Lernarten: überwachtem Lernen, unüberwachtem Lernen und bestärkendem Lernen.  » 2 

Beim überwachten Lernen erhält der Lernende bzw. der Algorithmus neben der jeweiligen Aufgabe zur Kontrolle auch die richtige (d. h. gewünschte) Lösung und damit die Möglichkeit, potenzielle Fehlleistungen quantitativ zu beurteilen und sein Modell geeignet zu adaptieren. Überwachte Lernverfahren ermöglichen es, Daten zu kategorisieren oder generalisieren. Zu ihren typischen Vertretern zählen die Klassifikation und die Regression.

Unüberwachte Lernverfahren hingegen arbeiten auf Basis nur der Eingabedaten, ohne die Soll-Ausgabe. Sie ermöglichen es, in einer Menge von Daten Häufungen oder Ausreißer zu entdecken. Ein prominenter Vertreter unüberwachter Lernverfahren ist das Clustering. Eine dritte Lernart, die hier jedoch nicht weiter betrachtet werden wird, ist das bestärkende Lernen. Durch das Geben qualifizierter Feedbacks am Ende von Aktionsketten ermöglicht es das Lernen komplexer Handlungsstrategien und Politiken.

Überwachtes Lernen

Ziel überwachter Lernverfahren ist die Entwicklung eines Modells, das basierend auf Evidenz Vorhersagen unter Unsicherheit erlaubt. Dazu wird eine gegebene Menge von Eingangsdaten nebst der zugehörigen gewünschten Reaktionen auf diese Daten (Soll-Ausgaben) genutzt, um ein Modell zu trainieren. Das trainierte Modell erlaubt es dann, sinnvolle Vorhersagen für das Ausgabeverhalten bei neuen Eingaben zu generieren.

Das Beispiel in der Abbildung  » 3  verdeutlicht dieses Konzept. Gegeben sei eine Menge an Trainingsdaten, die sowohl Eingangsdaten umfasst (Koordinaten der Punkte) als auch die gewünschten Soll-Ausgaben (Zuordnung zu den Klassen A bzw. B). Aus diesen Informationen wird ein Modell in Form einer einfachen Separationsgeraden abgeleitet, die einerseits die bekannten Daten gut beschreibt, anhand derer aber auch neue Punkte zuverlässig klassifiziert werden können.

Das vorgestellte Beispiel zählt zur Klasse der Klassifikationsverfahren. Generell sagen Klassifikationsverfahren diskrete Ausgaben voraus, etwa ob eine E-Mail Spam ist oder nicht oder ob ein eingescannter Buchstabe ein ‚A‘ ist. Klassifikationsmodelle klassifizieren Eingangsdaten in Kategorien. Drei gängige Klassifikationsverfahren sollen im Folgenden kurz vorgestellt werden.

Das einfachste denkbare Verfahren ist die Nächste-Nachbarn-Klassifikation. Die Zugehörigkeit zu einer Klasse wird einfach anhand der Klassenzugehörigkeiten der nächsten Nachbarn entschieden. Das Verfahren ist nicht besonders effizient, aber robust. Gegeben seien beispielsweise einige bekannte Tiere, die anhand ihrer Größe und ihres Gewichts in eine Karte eingetragen wurden. Um welche Art es sich bei einem unbekannten Tier handelt, wird dann anhand der Arten der am nächsten benachbarten Tiere entschieden.  » 4 

Einen anderen Ansatz verfolgen Entscheidungsbäume. Die Trainingsdaten werden hier in einer baumartigen Struktur gemäß der Ausprägung ihrer Attribute separiert. In jedem Knoten wird nach dem Attribut getrennt, das von allen zur Verfügung stehenden Attributen die reinste Separation erlaubt, d. h. möglichst sortenrein getrennte Kinderknoten erzielt.

Entscheidungsbäume sind White-Box-Modelle. Der durch sie kodierte Entscheidungsprozess kann nachvollzogen und interpretiert werden. Die Passagierliste der Titanic kann beispielsweise genutzt werden, um ein Modell zu lernen, das auf Basis der Attribute der Passagiere Auskunft über ihre Überlebenswahrscheinlichkeit gibt.  » 5 

Anders stellt sich die Situation bei einem weiteren sehr verbreiteten Klassifikationsverfahren dar, den Künstlichen neuronalen Netzen. In Anlehnung an Netze aus natürlichen Neuronen stehen hier künstliche Neuronen zur Verfügung, deren Verbindungsgewichte adaptiert werden können. Jedes einzelne Neuron stellt einen einfachen Schwellwertschalter dar, dessen Ausgang in Abhängigkeit der Aktivierung am Eingang feuert oder auch nicht. Ein einzelnes Neuron erlaubt es damit, eine wie in der Abbildung  » 3  gezeigte Separationsgerade zu modellieren.

Prinzipiell kann mit Künstlichen neuronalen Netzen sogar jede beliebige Funktion beliebig genau approximiert werden, indem die Separationsgeraden von einer Vielzahl von Neuronen aus ggf. mehreren Schichten überlagert werden. Zur Adaption der Separationsgeraden müssen die Gewichte mittels geeigneter Lernverfahren im Lauf viele Iterationen so angepasst werden, dass der Ausgabefehler des Gesamtnetzes minimal wird: Eingabe anlegen, Ist-Ausgabe des Netzes berechnen, Fehler als Differenz zur Soll-Ausgabe berechnen und dann die Verbindungsgewichte anteilig modifizieren.

Künstliche Neuronale Netze sind allerdings Black-Box-Modelle. Die durch die Verbindungsgewichte kodierten Modelle lassen sich nicht ohne weiteres interpretieren.  » 6

Die zweite große Gruppe von Verfahren aus dem Bereich des überwachten Lernens sind neben Klassifikationsverfahren die Regressionsverfahren. Sie sagen kontinuierliche Ausgaben voraus, beispielsweise Temperaturänderungen oder Kursentwicklungen. Eines der bekanntesten Verfahren ist die lineare Regression, die die Parameter eines vorgegebenen Modells – in diesem Fall die einer Geraden – so anpasst, dass die Gerade mit minimalem Gesamtfehler durch die Punktwolke der Testpunkte verläuft. Ist das Modell gelernt, kann für unbekannte neue Eingangswerte der vermutliche Ausgangswert prognostiziert werden.  » 7 

Unüberwachtes Lernen

Unüberwachte Lernverfahren finden versteckte Muster oder intrinsische Strukturen in Daten. Sie werden genutzt, um Schlussfolgerungen aus Datensätzen zu ziehen, die nur aus Eingangsdaten ohne zugehörige Ausgangsdaten bestehen. Eines der am häufigsten genutzten unüberwachten Lernverfahren ist das Clustering. Clustering ermöglicht eine explorative Datenanalyse, um versteckte Muster oder Häufungen in den Daten zu entdecken. Häufig wird hierfür der k-Means-Algorithmus verwendet. Mittels eines iterativen Verfahrens werden die Testpunkte nach und nach der vorgegebenen Anzahl von k-Zentren zugeordnet, in der Weise, dass die Summe der quadrierten Abweichungen von den Cluster-Zentren minimal ist.  » 8 

Wann sollte maschinelles Lernen genutzt werden?

Als grobe Empfehlung sollte Maschinelles Lernen dann in Betracht gezogen werden, wenn die Aufgabe komplex ist, das Problem ein großes Datenvolumen und viele Variablen umfasst, aber keine explizite Formel bekannt ist. Maschinelles Lernen könnte beispielsweise eine gute Option in folgenden Situationen sein:

  • handgeschriebene Regeln und Gleichungen werden zu komplex (z. B. Gesichtserkennung),
  • die Regeln ändern sich kontinuierlich (z. B. Fraud Detection),
  • die Natur der Daten ist variabel, und das Programm muss sich anpassen (z. B. Vorhersage von Einkaufstrends).

Herausforderungen

Der Umgang mit den Daten und das Finden eines geeigneten Modells erfordert einige Erfahrung. Eine Herausforderung ist die Heterogenität der Daten, die in allen Formen und Größen vorkommen.

Real-World-Datensätze können chaotisch, verrauscht, unvollständig und in einer Vielzahl von Formaten daherkommen. Gelegentlich müssen mehrere verschiedene Datentypen, wie maschinengenerierte Datenströme, Texte oder Bilder, kombiniert werden. Zudem erfordert die Datenvorverarbeitung möglicherweise spezielle Kenntnisse und Werkzeuge. Beispielsweise setzt die Auswahl von Eigenschaften zum Trainieren einer Objekterkennung spezielle Kenntnisse aus der Bildverarbeitung voraus. Generell erfordern unterschiedliche Datentypen unterschiedliche Herangehensweisen in der Vorverarbeitung.

Nicht zuletzt braucht es einfach Zeit, um das beste Modell für die Daten zu finden. Das richtige Modell auszuwählen, ist ein Balanceakt. Hochflexible Modelle neigen zur Überanpassung von Daten durch die Modellierung auch geringfügigster Variationen, die schlicht Rauschen sein könnten (Overfitting). Andererseits können sehr einfache Modelle unberechtigte Annahmen beinhalten (Overgeneralization). Generell gilt, dass immer Kompromisse zwischen Modellgeschwindigkeit, Genauigkeit und Komplexität eingegangen werden müssen.

Fazit

Maschinelles Lernen ermöglicht das automatisierte Entdecken bisher unbekannter Zusammenhänge und Muster in Daten. Dazu werden aus Daten Informationen gewonnen und diese weiter zu Wissen veredelt. Umfangreiche Mengen an Rohdaten kondensieren so zu kompaktem, operativem Wissen.

Im Kern geht es beim maschinellen Lernen also um Wissensgewinnung und die verschiedenen Aufgaben, die daraus erwachsen. Werden beispielsweise die Zustände eines Prozesses über einen längeren Zeitraum erfasst, können die gewonnenen Muster genutzt werden, um den Prozess zu optimieren und Wettbewerbsvorteile zu erzielen. Da die Methoden des maschinellen Lernens per se generisch sind, ist ihre Anwendung in einem sehr weiten Kontext möglich – vorausgesetzt eine entsprechende Datenbasis liegt bereits vor oder kann erfasst werden.

Kontakt  
Diesen Artikel ...  
Artikelinformationen 
Artikel veröffentlicht am:
19.06.2019
Erschienen in Ausgabe:
01 | 2019
Quelle(n):

Grafiken: Autor
Artikelbild: iStock.com/ktsimage

Autor/in 
Stefan Berlik


Prof. Dr. Stefan Berlik ist Studiengangsleiter Digitale Technologien an der Fachhoch­schule Bielefeld am Campus Gütersloh und vertritt das Lehrgebiet Big Data Analytics.
Weitere Artikel 
Über KINOTE 
Um einen Wandel der Finanzbranche erfolgreich zu meistern, müssen Kreditinstitute sowohl Chancen als auch Herausforderungen der Künstlichen Intelligenz (KI) erkennen.

Unter der neuen Marke KINOTE der Bank-Verlag GmbH finden Sie Meldungen, Studien und Fachartikel zum Themenkomplex KI.

Wir beantworten Ihre Fragen rund um KI. Wir berichten über Trends, neue Technologien, Forschungsergebnisse und daraus entstehende Möglichkeiten, die KI Ihrem Unternehmen bietet.
Webkiosk 

Das Magazin

Ausgabe 01 | 2019

Jetzt kostenlos lesen

 

 

 

Newsletter

die bank | Newsletter

Abonnieren Sie den kostenlosen redaktionellen Newsletter der Fachzeitschrift „die bank“.
Der Newsletter erscheint mindestens einmal im Monat und informiert Sie über aktuelle Beiträge und News.

 Anmeldung

 Newsletter-Archiv