Kritische Stimmen behaupten immer wieder, dass Machine Learning "Black Box" Modelle erzeugt: Systeme, die zwar wertvollen Output liefern, jedoch von Menschen nie vollständig durchschaut werden können.
Das stimmt allerdings so nicht. Sorgfältig erstellte Machine Learning Modelle können durchaus überprüfbar und verständlich sein. Nur daher können sie auch in stark reglementierten Branchen wie der Medizin und dem Finanzwesen eingesetzt werden.
Was ist ein interpretierbares Modell?
Wenn ein Mensch die Entscheidungen, die ein Machine Learning Modell trifft, problemlos nachvollziehen kann, dann handelt es sich um ein "interpretierbares Modell". Vereinfacht gesagt wollen wir verstehen können, warum eine bestimmte Entscheidung getroffen wurde. Sobald wir erkennen, wie ein Modell zu einer Entscheidung gekommen ist, ist das Modell interpretierbar.
Wir können beispielsweise ein Random Forest Machine Learning Modell trainieren, um vorherzusagen, ob ein bestimmter Passagier den Untergang der Titanic im Jahr 1912 überlebt hat. Das Modell lernt anhand von Informationen über den Passagier - z. B. Ticketklasse, Geschlecht oder Alter - vorherzusagen, ob er überlebt hat oder nicht.
Angenommen, unser Random-Forest-Modell bestimmt eine 93%-ige Überlebenschance für einen bestimmten Passagier. Können wir nachvollziehen, wie es zu diesem Ergebnis gekommen ist?
Ein Random-Forest-Modell kann teilweise aus Hunderten oder Tausenden von "Bäumen" bestehen. Das macht es fast unmöglich, alle Details des Modells zu verstehen.
Wir können jedoch eine einzelne Entscheidung interpretierbar machen, indem wir einen Ansatz aus der Spieltheorie einsetzen: SHAP Diagramme zeigen, wie das Modell jedes Passagierattribut berücksichtigt und zu einer Vorhersage von 93 % (oder 0,93) gelangt. Im untenstehenden Shapely-Plot sind die wichtigsten Attribute dargestellt, die vom Modell berücksichtigt wurden.
- Der Passagier reiste nicht in der dritten Klasse: Damit steigen seine Überlebenschancen erheblich;
- Die Passagierin war weiblich: die Überlebenschancen steigen noch stärker;
- Die Passagierin reiste nicht in der ersten Klasse: Ihre Überlebenschancen sinken leicht.
Da der Titanic-Untergang real stattgefunden hat, wissen wir, dass das Modell wie erwartet funktioniert: Passagiere mit Tickets der 1. oder 2. Klasse wurden zuerst in die Rettungsboote gelassen; Frauen und Kinder verließen das Schiff vor den Männern.
Viele andere Machine Learning Modelle sind im Gegensatz dazu nicht so einfach interpretierbar. Da Machine Learning immer häufiger in Branchen wie Medizin und Finanzen eingesetzt wird, ist es jedoch sehr wichtig, zu verstehen, warum ein Modell eine bestimmte Entscheidung trifft.
Was bringen interpretierbare Machine Learning Modelle?
Interpretierbare Modelle helfen uns dabei viele Ziele von Machine Learning Projekten zu erreichen:
- Fairness: Wenn wir sicherstellen, dass unsere Vorhersagen unvoreingenommen sind, verhindern wir Diskriminierung unterrepräsentierter Gruppen.
- Robustheit: Wir müssen sicher sein können, dass das Modell in jeder Umgebung funktioniert. Kleine Änderungen in den Attributen dürfen nicht zu großen oder unerwarteten Änderungen in den Prognosen führen.
- Privatsphäre: Wenn wir nachvollziehen können, welche Informationen ein Modell verwendet, können wir vermeiden, dass es auf sensible Daten zugreift.
- Kausalität: Wir müssen sicherstellen, dass das Modell nur kausale Zusammenhänge und keine falschen Korrelationen lernt.
- Vertrauen: Wenn man versteht, wie ein Modell zu seinen Entscheidungen kommt, schenkt man ihm auch mehr Vertrauen.
Sind manche Algorithmen besser interpretierbar als andere?
Simplere Algorithmen wie Regressionen oder Entscheidungsbäume sind in der Regel leichter interpretierbar als komplexere Modelle, wie z. B. neuronale Netzwerke. Davon abgesehen gibt es noch zahlreiche andere Faktoren, die die Interpretierbarkeit eines Modells beeinflussen.
Bei sehr großen Datensätzen erweisen sich komplexere Algorithmen oft als genauer, so dass es zu einem Kompromiss zwischen Interpretierbarkeit und Genauigkeit kommen kann.
Lokal vs. global intepretierbare Modelle
Ein Modell kann außerdem in unterschiedlichem Ausmaß interpretierbar sein:
- Globale Interpretierbarkeit heißt, zu verstehen, wie das gesamte Modell funktioniert;
- Lokale Interpretierbarkeit bedeutet, zu verstehen, wie eine einzelne Entscheidung zustande gekommen ist.
Ein Modell ist global interpretierbar, wenn wir jede einzelne Regel, die es berücksichtigt hat, nachvollziehen können. Ein Beispiel: Ein einfaches Modell, das Banken bei der Entscheidung über die Bewilligung von Immobilienkrediten hilft, könnte Folgendes berücksichtigen:
- das monatliche Gehalt des Antragstellers,
- die Höhe der Kaution und
- die Kreditwürdigkeit des Antragstellers.
Ein Mensch könnte zwar ohne weiteres die gleichen Daten auswerten und zu den gleichen Schlussfolgerungen kommen; ein vollständig transparentes und global interpretierbares Modell erspart bei dieser Entscheidung jedoch viel Zeit.
Im Gegensatz dazu könnte ein weitaus komplizierteres Modell Tausende von Faktoren berücksichtigen, z. B. wo der Antragsteller lebt und wo er aufgewachsen ist, die Verschuldung seiner Familie oder sein tägliches Einkaufsverhalten. In diesem Fall könnte man bei einer fragwürdigen Entscheidung des Modells herausfinden, warum ein bestimmter Kreditantrag abgelehnt wurde. Da das Modell jedoch so komplex ist, wird man nicht komplett nachvollziehen können, wie es alle seine Entscheidungen trifft. Hierbei handelt es sich also um ein lokal interpretierbares Modell.
Interpretierbarkeit vs. Erklärbarkeit von Machine Learning Modellen
Die internationale ML-Community verwendet die Begriffe "Erklärbarkeit" und "Interpretierbarkeit" synonym und es herrscht kein wirklicher Konsens darüber, wie die beiden Begriffe zu definieren sind.
Wir verstehen die Erklärbarkeit im Vergleich zur Interpretierbarkeit als niedrigere Messlatte, was das Verständnis von Modellen betrifft.
Ein Machine Learning Modell ist interpretierbar, wenn wir im Prinzip nachvollziehen können, wie es zu einer bestimmten Entscheidung gekommen ist.
Ein Modell ist erklärbar, wenn wir nachvollziehen können, wie ein bestimmter Punkt im Modell die Prognose eines komplexen Modells technisch beeinflusst.
Wenn jede Komponente eines Modells erklärbar ist und wir jede Erklärung gleichzeitig im Blick haben können, dann ist das Modell auch interpretierbar.
Ein gutes Beispiel hierfür ist das autonome Fahren. Einige der Faktoren, die für eine Entscheidung berücksichtigt werden, können wir leicht nachvollziehen. Die Abbildung unten zeigt, welche Objekte ein Objekterkennungssystem in einem Bild erkennt.
Dieses Modell ist zumindest teilweise erklärbar, weil wir einige seiner Entscheidungen verstehen. Trotzdem ist es nicht unbedingt interpretierbar: Nur anhand dieser Erklärung können wir nicht nachvollziehen, warum sich das Auto entschieden hat, zu beschleunigen oder anzuhalten.
Modell-agnostische Interpretation
Manche Machine Learning Algorithmen sind also leichter interpretierbar als andere. Es gibt glücklicherweise Techniken, die unabhängig vom verwendeten Algorithmus dabei helfen, ein Modell zu interpretieren.
Zu Beginn haben wir uns beispielsweise eine SHAP-Darstellung angesehen. Diese Technik eignet sich für unterschiedliche Modelle und interpretiert Entscheidungen, indem sie berücksichtigt, inwieweit die einzelnen Merkmale zu den Entscheidungen beitragen (lokale Interpretation).
Auf ähnliche Weise können wir auch andere Methoden verwenden, wie z. B.:
- Partial Dependence Plots (PDP),
- Accumulated Local Effects (ALE), und
- Local Surrogate (LIME).
Diese Algorithmen helfen alle bei der Interpretation von Machine Learning-Modellen, aber es erfordert eine gewisses technisches Verständnis um sie zu anzuwenden.
"Bausteine" für bessere Interpretierbarkeit
Modelle wie Convolutional Neural Networks (CNNs) bestehen aus mehreren Schichten. Bei der Bilderkennung befasst sich in der Regel jede Schicht mit einem bestimmten Merkmal, wobei die höheren Schichten kompliziertere Merkmale erlernen.
Die vom Netzwerk gelernten Konzepte kann man mit menschlichen Konzepten vergleichen: So können z. B. höhere Schichten komplexere Merkmale (z. B. "Nase") basierend auf einfacheren Merkmalen (z. B. "Linie") lernen, die von niedrigeren Schichten gelernt wurden.
Wir können jedes dieser Merkmale visualisieren, um zu verstehen, was das Netzwerk "sieht". Allerdings ist es immer noch schwierig zu vergleichen, wie ein Netzwerk im Vergleich zu einem Menschen ein Bild verarbeitet.
Merkmalshierarchie
Um komplette Objekte zu interpretieren, muss ein CNN zunächst lernen, wie man sie erkennt. Dabei geht es hierarchisch vor und analysiert:
- Kanten,
- Texturen,
- Muster und
- Objekte.
Jede Schicht nutzt die gesammelten Informationen der unter ihr gelegenen Schicht. Die oberste Schicht nutzt also alles erlernte Wissen, um die endgültige Einordnung vorzunehmen.
Wir können zwar untersuchen, wie Netzwerke Informationen gruppieren, hierarchisch gliedern und dabei ähnlich wie Menschen vorgehen, es ist aber niemals vollständig miteinander vergleichbar. Die Analyse von einzelnen Bausteinen von Machine Learning Modellen zur Verbesserung der Modell-Interpretierbarkeit bleibt daher weiterhin ein eher unerschlossenes Forschungsgebiet.
Exemplarische Erklärungen
Zu Beginn haben wir unser Modell anhand seiner Merkmale mit einem SHAP-Plot untersucht. So konnten wir erkennen, dass das Modell die Merkmale “Alter” und “Geschlecht” für seine Klassifizierung mit einbezieht.
Modelle können jedoch auch interpretiert werden, indem man sich bestimmte Instanzen im Datensatz ansieht. So kann man sich beispielsweise auf einzelne Zeilen in einem Datensatz (beispielbasierte Interpretation) oder auf einzelne Spalten (merkmalsbasierte Interpretation) konzentrieren.
Das kann uns helfen noch besser zu verstehen wie sich das Modell in verschiedenen Situation verhält:
Kontrafaktische Erklärungen
Wir können die Funktionsweise eines Modells besser verstehen, wenn wir mit modifiziertem oder kontrafaktischem Input arbeiten. Kontrafaktisch bedeutet: Wir ändern die Attribute eines Beispieldatenpunktes bis die Prognose des Modells umschlägt.
In unserem Titanic-Beispiel könnten wir beispielsweise das Alter eines Passagiers so lange verändern, bis das Modell die Überlebenschance auf unter 50% prognostiziert.
Indem wir die Vorhersagen des Modells "kontrollieren" und verstehen, wie der Input den Output verändert, können wir leichter interpretieren, wie das Modell als Ganzes funktioniert - und so auch Schwachstellen des Modells aufdecken.
Debugging und Auditing interpretierbarer Modelle
Wir können Machine Learning-Modelle nur dann richtig debuggen, wenn wir sie auch interpretieren können. Wenn ein Modell eine falsche Vorhersage trifft, müssen wir herausfinden, wie und warum das passiert ist, damit wir das System korrigieren können.
Angenommen, wir haben ein Modell, das in Bildern entweder "Hunde" oder "Wölfe" erkennen soll. Es scheint anfangs gut zu funktionieren, klassifiziert dann aber mehrere Hunde fälschlicherweise als Wölfe.
Können wir das Modell interpretieren, dann merken wir schnell, dass der Schnee für den Fehler verantwortlich ist: das Modell hat gelernt, dass auf Bildern von Wölfen meist Schnee im Hintergrund zu sehen ist. Im Training mag das gut funktionieren, in der Praxis versagt das System jedoch, sobald wir dem Modell ein Bild von einem Hund im Schnee zeigen.
Braucht auch dein Unternehmen interpretierbares Machine Learning?
Wir haben viel Freude daran, Machine Learning-Lösungen zu entwickeln, die interpretiert und überprüft werden können. Melde dich bei uns, wenn du dich über interpretierbares Machine Learning austauschen möchtest.