close-icon
Melde dich für unseren Newsletter an, um mehr über dieses Thema zu erfahren
Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.

Interpretierbares Machine Learning

Wie Machine Learning Modelle interpretierbar werden

datarevenue-icon
by
DataRevenue
Markus Schmitt

Kritische Stimmen behaupten immer wieder, dass Machine Learning "Black Box" Modelle erzeugt: Systeme, die zwar wertvollen Output liefern, jedoch von Menschen nie vollständig durchschaut werden können.

Das stimmt allerdings so nicht. Sorgfältig erstellte Machine Learning Modelle können durchaus überprüfbar und verständlich sein. Nur daher können sie auch in stark reglementierten Branchen wie der Medizin und dem Finanzwesen eingesetzt werden.

Was ist ein interpretierbares Modell?

Wenn ein Mensch die Entscheidungen, die ein Machine Learning Modell trifft, problemlos nachvollziehen kann, dann handelt es sich um ein "interpretierbares Modell". Vereinfacht gesagt wollen wir verstehen können, warum eine bestimmte Entscheidung getroffen wurde. Sobald wir erkennen, wie ein Modell zu einer Entscheidung gekommen ist, ist das Modell interpretierbar.

Wir können beispielsweise ein Random Forest Machine Learning Modell trainieren, um vorherzusagen, ob ein bestimmter Passagier den Untergang der Titanic im Jahr 1912 überlebt hat. Das Modell lernt anhand von Informationen über den Passagier - z. B. Ticketklasse, Geschlecht oder Alter - vorherzusagen, ob er überlebt hat oder nicht.

Angenommen, unser Random-Forest-Modell bestimmt eine 93%-ige Überlebenschance für einen bestimmten Passagier. Können wir nachvollziehen, wie es zu diesem Ergebnis gekommen ist?

Ein Random-Forest-Modell kann teilweise aus Hunderten oder Tausenden von "Bäumen" bestehen. Das macht es fast unmöglich, alle Details des Modells zu verstehen.

Wir können jedoch eine einzelne Entscheidung interpretierbar machen, indem wir  einen Ansatz aus der Spieltheorie einsetzen: SHAP Diagramme zeigen, wie das Modell jedes Passagierattribut berücksichtigt und zu einer Vorhersage von 93 % (oder 0,93) gelangt. Im untenstehenden Shapely-Plot sind die wichtigsten Attribute dargestellt, die vom Modell berücksichtigt wurden.

  • Der Passagier reiste nicht in der dritten Klasse: Damit steigen seine Überlebenschancen erheblich;
  • Die Passagierin war weiblich: die Überlebenschancen steigen noch stärker;
  • Die Passagierin reiste nicht in der ersten Klasse: Ihre Überlebenschancen sinken leicht.
Geschlecht und Klasse sind die wichtigsten Merkmale bei der Prognose der Überlebenschancen dieser Passagierin.

Da der Titanic-Untergang real stattgefunden hat, wissen wir, dass das Modell wie erwartet funktioniert: Passagiere mit Tickets der 1. oder 2. Klasse wurden zuerst in die Rettungsboote gelassen; Frauen und Kinder verließen das Schiff vor den Männern.

Viele andere Machine Learning Modelle sind im Gegensatz dazu nicht so einfach interpretierbar. Da Machine Learning immer häufiger in Branchen wie Medizin und Finanzen eingesetzt wird, ist es jedoch sehr wichtig, zu verstehen, warum ein Modell eine bestimmte Entscheidung trifft.

Was bringen interpretierbare Machine Learning Modelle?

Interpretierbare Modelle helfen uns dabei viele Ziele von Machine Learning Projekten zu erreichen:

  • Fairness: Wenn wir sicherstellen, dass unsere Vorhersagen unvoreingenommen sind, verhindern wir Diskriminierung unterrepräsentierter Gruppen. 
  • Robustheit: Wir müssen sicher sein können, dass das Modell in jeder Umgebung funktioniert. Kleine Änderungen in den Attributen dürfen nicht zu großen oder unerwarteten Änderungen in den Prognosen führen.
  • Privatsphäre: Wenn wir nachvollziehen können, welche Informationen ein Modell verwendet, können wir vermeiden, dass es auf sensible Daten zugreift.
  • Kausalität: Wir müssen sicherstellen, dass das Modell nur kausale Zusammenhänge und keine falschen Korrelationen lernt.
  • Vertrauen: Wenn man versteht, wie ein Modell zu seinen Entscheidungen kommt, schenkt man ihm auch mehr Vertrauen.

Sind manche Algorithmen besser interpretierbar als andere?

Simplere Algorithmen wie Regressionen oder Entscheidungsbäume sind in der Regel leichter interpretierbar als komplexere Modelle, wie z. B. neuronale Netzwerke. Davon abgesehen gibt es noch zahlreiche andere Faktoren, die die Interpretierbarkeit eines Modells beeinflussen.

Bei sehr großen Datensätzen erweisen sich komplexere Algorithmen oft als genauer, so dass es zu einem Kompromiss zwischen Interpretierbarkeit und Genauigkeit kommen kann.

Ein Diagramm mit Interpretierbarkeit auf der y-Achse und Genauigkeit auf der x-Achse. Die lineare Regression ist oben links (sehr gut interpretierbar, nicht sehr genau) und die negative Korrelation läuft über Entscheidungsbäume, SVMs, Random Forests und neuronale Netzwerke.
Genauere Modelle sind oft schwerer zu interpretieren.

Lokal vs. global intepretierbare Modelle

Ein Modell kann außerdem in unterschiedlichem Ausmaß interpretierbar sein:

  • Globale Interpretierbarkeit heißt, zu verstehen, wie das gesamte Modell funktioniert;
  • Lokale Interpretierbarkeit bedeutet, zu verstehen, wie eine einzelne Entscheidung zustande gekommen ist.
Ein Modell ist global interpretierbar, wenn es so überschaubar ist, dass ein Mensch es vollständig verstehen kann. Es ist lokal interpretierbar, wenn man bei einer einzelnen Entscheidung nachvollziehen kann, wie das Modell zu dieser Entscheidung gekommen ist.

Ein Modell ist global interpretierbar, wenn wir jede einzelne Regel, die es berücksichtigt hat, nachvollziehen können. Ein Beispiel: Ein einfaches Modell, das Banken bei der Entscheidung über die Bewilligung von Immobilienkrediten hilft, könnte Folgendes berücksichtigen:

  • das monatliche Gehalt des Antragstellers,
  • die Höhe der Kaution und
  • die Kreditwürdigkeit des Antragstellers.

Ein Mensch könnte zwar ohne weiteres die gleichen Daten auswerten und zu den gleichen Schlussfolgerungen kommen; ein vollständig transparentes und global interpretierbares Modell erspart bei dieser Entscheidung jedoch viel Zeit.

Im Gegensatz dazu könnte ein weitaus komplizierteres Modell Tausende von Faktoren berücksichtigen, z. B. wo der Antragsteller lebt und wo er aufgewachsen ist, die Verschuldung seiner Familie oder sein tägliches Einkaufsverhalten. In diesem Fall könnte man bei einer fragwürdigen Entscheidung des Modells herausfinden, warum ein bestimmter Kreditantrag abgelehnt wurde. Da das Modell jedoch so komplex ist, wird man nicht komplett nachvollziehen können, wie es alle seine Entscheidungen trifft. Hierbei handelt es sich also um ein lokal interpretierbares Modell.

Interpretierbarkeit vs. Erklärbarkeit von Machine Learning Modellen

Die internationale ML-Community verwendet die Begriffe "Erklärbarkeit" und "Interpretierbarkeit" synonym und es herrscht kein wirklicher Konsens darüber, wie die beiden Begriffe zu definieren sind. 

Wir verstehen die Erklärbarkeit im Vergleich zur Interpretierbarkeit als niedrigere Messlatte, was das Verständnis von Modellen betrifft.

Ein Machine Learning Modell ist interpretierbar, wenn wir im Prinzip nachvollziehen können, wie es zu einer bestimmten Entscheidung gekommen ist.

Ein Modell ist erklärbar, wenn wir nachvollziehen können, wie ein bestimmter Punkt im Modell die Prognose eines komplexen Modells technisch beeinflusst.

Wenn jede Komponente eines Modells erklärbar ist und wir jede Erklärung gleichzeitig im Blick haben können, dann ist das Modell auch interpretierbar.

Ein gutes Beispiel hierfür ist das autonome Fahren. Einige der Faktoren, die für eine Entscheidung berücksichtigt werden, können wir leicht nachvollziehen. Die Abbildung unten zeigt, welche Objekte ein Objekterkennungssystem in einem Bild erkennt.

Eine verkehrsreiche Straße, beschriftet mit Bounding Boxes um Autos, Personen und Ampeln, einschließlich Konfidenzintervallen wie "LKW 60%".
Ein selbstfahrendes Auto identifiziert verschiedene Objekte mit unterschiedlichen Konfidenzintervallen.

Dieses Modell ist zumindest teilweise erklärbar, weil wir einige seiner Entscheidungen verstehen. Trotzdem ist es nicht unbedingt interpretierbar: Nur anhand dieser Erklärung können wir nicht nachvollziehen, warum sich das Auto entschieden hat, zu beschleunigen oder anzuhalten.

Modell-agnostische Interpretation 

Manche Machine Learning Algorithmen sind also leichter interpretierbar als andere. Es gibt glücklicherweise Techniken, die unabhängig vom verwendeten Algorithmus dabei helfen, ein Modell zu interpretieren.

Zu Beginn haben wir uns beispielsweise eine SHAP-Darstellung angesehen. Diese Technik eignet sich für unterschiedliche Modelle und interpretiert Entscheidungen, indem sie berücksichtigt, inwieweit die einzelnen Merkmale zu den Entscheidungen beitragen (lokale Interpretation).

Auf ähnliche Weise können wir auch andere Methoden verwenden, wie z. B.:

  • Partial Dependence Plots (PDP),
  • Accumulated Local Effects (ALE), und
  • Local Surrogate (LIME).

Diese Algorithmen helfen alle bei der Interpretation von Machine Learning-Modellen, aber es erfordert eine gewisses technisches Verständnis um sie zu anzuwenden.

"Bausteine" für bessere Interpretierbarkeit

Modelle wie Convolutional Neural Networks (CNNs) bestehen aus mehreren Schichten. Bei der Bilderkennung befasst sich in der Regel jede Schicht mit einem bestimmten Merkmal, wobei die höheren Schichten kompliziertere Merkmale erlernen. 

Die vom Netzwerk gelernten Konzepte kann man mit menschlichen Konzepten vergleichen: So können z. B. höhere Schichten komplexere Merkmale (z. B. "Nase") basierend auf einfacheren Merkmalen (z. B. "Linie") lernen, die von niedrigeren Schichten gelernt wurden.

Wir können jedes dieser Merkmale visualisieren, um zu verstehen, was das Netzwerk "sieht". Allerdings ist es immer noch schwierig zu vergleichen, wie ein Netzwerk im Vergleich zu einem Menschen ein Bild verarbeitet.

Zwei Bilder, die zeigen, wie ein Netzwerk ein Bild in Teile mit vielen unterschiedlichen Merkmalen zerlegt.
Bilderkennungs-CNNs erstellen konzeptionelle "Bausteine", anhand derer man verstehen kann, wie das Modell als Ganzes funktioniert (Quelle: Olah et al).

Merkmalshierarchie

Eine Reihe von Bildern, die Konturen, Muster, Einzelteile und ganze Objekte zeigen.
Verschiedene Schichten eines CNN erkennen einfachere oder komplexere Merkmale, von einfacher Konturenerkennung bis hin zur Erkennung vollständiger Objekte (Quelle: Molnar: Interpretable Machine Learning).

Um komplette Objekte zu interpretieren, muss ein CNN zunächst lernen, wie man sie erkennt. Dabei geht es hierarchisch vor und analysiert:

  • Kanten,
  • Texturen,
  • Muster und
  • Objekte.

Jede Schicht nutzt die gesammelten Informationen der unter ihr gelegenen Schicht. Die oberste Schicht nutzt also alles erlernte Wissen, um die endgültige Einordnung vorzunehmen.

Wir können zwar untersuchen, wie Netzwerke Informationen gruppieren, hierarchisch gliedern und dabei ähnlich wie Menschen vorgehen, es ist aber niemals vollständig miteinander vergleichbar. Die Analyse von einzelnen Bausteinen von Machine Learning Modellen zur Verbesserung der Modell-Interpretierbarkeit bleibt daher weiterhin ein eher unerschlossenes Forschungsgebiet.

Exemplarische Erklärungen

Zu Beginn haben wir unser Modell anhand seiner Merkmale mit einem SHAP-Plot untersucht. So konnten wir erkennen, dass das Modell die Merkmale “Alter” und “Geschlecht” für seine Klassifizierung mit einbezieht.

Modelle können jedoch auch interpretiert werden, indem man sich bestimmte Instanzen im Datensatz ansieht. So kann man sich beispielsweise auf einzelne Zeilen in einem Datensatz (beispielbasierte Interpretation) oder auf einzelne Spalten (merkmalsbasierte Interpretation) konzentrieren.

Das kann uns helfen noch besser zu verstehen wie sich das Modell in verschiedenen Situation verhält:

Kontrafaktische Erklärungen

Wir können die Funktionsweise eines Modells besser verstehen, wenn wir mit modifiziertem oder kontrafaktischem Input arbeiten. Kontrafaktisch bedeutet: Wir ändern die Attribute eines Beispieldatenpunktes bis die Prognose des Modells umschlägt.

In unserem Titanic-Beispiel könnten wir beispielsweise das Alter eines Passagiers so lange verändern, bis das Modell die Überlebenschance auf unter 50% prognostiziert.

Indem wir die Vorhersagen des Modells "kontrollieren" und verstehen, wie der Input den Output verändert, können wir leichter interpretieren, wie das Modell als Ganzes funktioniert - und so auch Schwachstellen des Modells aufdecken.

Debugging und Auditing interpretierbarer Modelle

Wir können Machine Learning-Modelle nur dann richtig debuggen, wenn wir sie auch interpretieren können. Wenn ein Modell eine falsche Vorhersage trifft, müssen wir herausfinden, wie und warum das passiert ist, damit wir das System korrigieren können.

Angenommen, wir haben ein Modell, das in Bildern entweder "Hunde" oder "Wölfe" erkennen soll. Es scheint anfangs gut zu funktionieren, klassifiziert dann aber mehrere Hunde fälschlicherweise als Wölfe.

Können wir das Modell interpretieren, dann merken wir schnell, dass der Schnee für den Fehler verantwortlich ist: das Modell hat gelernt, dass auf Bildern von Wölfen meist Schnee im Hintergrund zu sehen ist. Im Training mag das gut funktionieren, in der Praxis versagt das System jedoch, sobald wir dem Modell ein Bild von einem Hund im Schnee zeigen.

Braucht auch dein Unternehmen interpretierbares Machine Learning?

Wir haben viel Freude daran, Machine Learning-Lösungen zu entwickeln, die interpretiert und überprüft werden können. Melde dich bei uns, wenn du dich über interpretierbares Machine Learning austauschen möchtest.

Bekomme immer die neusten Artikel

Trag dich mit deiner E-Mail ein, um du bekommst jede Woche unseren neusten Artikel.

Ich danke Ihnen! Ihre Einreichung ist eingegangen!
Oops! Something went wrong while submitting the form.