close-icon
Mit MetaClean ermittelst du schlechte Peaks in deinen Daten.
Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.

Automatisierte Peak-Analysen mit MetaClean

Mit Machine Learning lassen sich minderwertige Peak-Integrationen erkennen. So werden langwierige manuelle Prüfungen überflüssig.

datarevenue-icon
by
DataRevenue
Markus Schmitt

Selbst bei den zuverlässigsten Metabolomik-Pipelines kommt es zwischen mehreren Messungen zu Abweichungen. Dadurch können fehlerhafte Peak-Integrationen entstehen, sodass jedes einzelne, potentiell relevante Peak noch einmal manuell überprüft werden muss.

Kelsey Chetnik, Lauren Petrick, und Gaurav Pandey haben ein neues Framework und R-Package namens MetaClean entwickelt. Es kombiniert elf Peak-Qualitätsmetriken und selektiert aus acht Machine Learning-Algorithmen, um falsch integrierte Peaks automatisch zu erkennen. 

Wir haben uns mit Petrick und Pandey über ihre aktuelle Veröffentlichung unterhalten. Sie haben uns erklärt, wie MetaClean funktioniert und wie du es für deine Daten nutzen kannst.  

Gängige Verfahren der Peak-Integrationen sind fehleranfällig

Ein Standard-Tool für die Identifizierung und Quantifizierung von Verbindungen in Metabolomik-Workflows ist die Flüssigchromatographie mit Massenspektrometrie-Kopplung (engl. Liquid chromatography coupled mass spectrometry, kurz LC-MS). Bei der LC-MS variieren Retentionszeit und Peakform identischer Verbindungen (Metaboliten) zwischen einzelnen Messungen oft leicht. Kleinere Schwankungen sind dabei zwar normal, können jedoch dazu führen, dass die falschen Peaks miteinander verbunden (integriert) werden.

In vielen Fällen stellen sich bis zu 30% der Peaks, die von Standard-Tools integriert wurden, nach einer manuellen Prüfung als fehlerhaft heraus. Mangelhafte Peaks können das Ergebnis von koeluierenden Analyten, einer fehlerhaften Ausrichtung oder Hintergrundrauschen sein. Das heißt, selbst wenn zwei Proben identisch sind, können sich ihre Peaks unterscheiden. Um Proben vergleichen zu können, müssen die Peaks verschiedener Proben jedoch präzise integriert werden.

Eine Serie von vier Peak-Integrationen. Die Integration oben links wurde korrekt durchgeführt. Bei der Integration oben rechts wurde ein schlecht geformter Peak integriert. Die Integration unten rechts integriert zwei Peaks, die nicht richtig ausgerichtet sind. Bei der Integration unten links wird nur die erste Hälfte des Peaks integriert.
Drei Beispiele möglicher Integrationsfehler, die häufig bei LC-MS vorkommen.

Eine Möglichkeit, die Peak-Integration zu überprüfen, besteht darin, die Peakform per Hand zu untersuchen. Das ist jedoch nicht nur äußerst zeitaufwändig, sondern bei einer Anzahl von tausenden Peaks pro Durchgang praktisch unmöglich. Eine manuelle Qualitätskontrolle wird daher oft nur für eine kleine Teilmenge der Daten und für die wichtigsten Peaks durchgeführt. Auf diese Weise können zwar falsch-positive Ergebnisse aus der Analyse entfernt werden, falsch-negative Ergebnisse werden jedoch nicht berücksichtigt, und auch schlecht integrierte Peaks werden nicht unbedingt erkannt.

Machine Learning kann die Peak-Evaluierung automatisieren

Es gibt Qualitätskennzahlen um die Peakqualität eines einzelnen Peaks zu quantifizieren. Für sich genommen reichen diese Kennzahlen jedoch nicht aus, um zwischen qualitativ schwachen und hochwertigen Integrationen zu unterscheiden. 

Machine Learning Modelle dagegen können komplexe Kombinationen von Metriken ermitteln, die diese Unterscheidung ermöglichen. Alles, was man dafür braucht, sind die Metriken (Merkmale) und Labels, die beschreiben, ob eine Peak-Integration von hoher oder niedriger Qualität ist (Zielvariable). 

Mit diesen Merkmalen und Zielvariablen kann man Modelle trainieren und bewerten, wie gut diese Modelle die Peak-Integration neuer Proben vorhersagen können. Sobald ein Modell sehr präzise Ergebnisse liefert, kann es problemlos auf jedes einzelne Peak in einem Datensatz (mit Tausenden von Peaks) angewendet werden. Im Anschluss werden minderwertige Peaks herausgefiltert, und dann kann die eigentliche Datenanalyse starten.

Die Merkmale von MetaClean: Elf Metriken zur Peak-Qualität  

Chetnik, Petrick und Pandey haben untersucht, ob eine Kombination verschiedener Qualitätsmetriken besser geeignet ist, um die Peak-Qualität zu ermitteln. Um Machine Learning Modelle auf diesen Metriken zu trainieren und ihre Leistung anhand verschiedener Datensätze zu bewerten, entwickelte das Team MetaClean. 

Das Team verwendete dabei vier Metriken aus Zhang et al. (M4 Metriken), sieben Metriken aus Eshghi et al. (M7 Metriken), sowie das kombinierte M11-Set, das alle Metriken umfasst. Diese Metriken quantifizieren Peakform und Übereinstimmung der Retentionszeiten zwischen den Proben.

MetaClean-Trainingsdaten: 500 manuell überprüfte Peaks

Das Team klassifizierte manuell 500 aufbereitete Peaks aus 89 Blutplasmaproben: fast 40 % fielen bei der manuellen Sichtkontrolle durch. Sie haben sichergestellt, dass unterschiedliche Peakformen in den Trainingsdaten enthalten sind, sodass das Modell an einem repräsentativen Peak-Set trainiert werden kann. 

Das MetaClean-Modell: Der beste von acht ML-Klassifizierungsalgorithmen 

Der nächste Schritt bestand darin, den Machine Learning-Algorithmus zu finden, der die Peak-Qualität am besten klassifiziert. MetaClean bewertet acht der am häufigsten verwendeten Algorithmen, jeweils gepaart mit den Metriken M4, M7 und M11, um 24 verschiedene Modelle für die Peak-Qualität zu trainieren. Die Leistung jedes Modells wird mit einer fünffachen Kreuzvalidierung bewertet, die zehnmal wiederholt wird. Anschließend werden die Ergebnisse gemittelt. Dazu wertet MetaClean folgende Algorithmen aus: 

  • Entscheidungsbaum;
  • Logistische Regression;
  • Naive Bayes;
  • Neuronales Netzwerk;
  • SVM mit linearem Kernel;
  • AdaBoost;
  • Model Averaged Neural Network;
  • Random Forest.
Ein Prozessdiagramm, das veranschaulicht, dass jeder Peak-Metriken-Satz mit allen acht Machine Learning-Algorithmen unter Verwendung einer fünffachen Kreuzvalidierung bewertet wird. Dieser Vorgang wird zehnmal wiederholt, um zuverlässige Ergebnisse zu erzielen. 
MetaClean bewertet 24 verschiedene potenzielle Peak-Klassifikatoren, die aus einer Kombination von drei Peak-Qualitäts-Metriken und acht Machine Learning-Algorithmen mit fünffacher Kreuzvalidierung erstellt wurden. 

Nach dem Vergleich der einzelnen Modelle stellte das Team fest, dass der AdaBoost-Algorithmus mit dem M11-Metrikset am besten abschnitt. Sie nannten dieses Modell "Global Peak-Quality Classifier" und erreichten bei der Klassifizierung des Test-Datensatzes eine Genauigkeit von fast 85%

Es reicht jedoch nicht aus, das Modell nur in einem Batch von Proben zu testen. Das allein liefert noch kein genaues Bild davon, wie gut das Modell in einer realen Situation abschneidet. Ein effektives Modell muss auch Batch- und plattformübergreifend gut funktionieren:

  • Batchübergreifend: Betrifft Proben, die aus einer anderen Charge stammen, und auf dem gleichen Messinstrument mit den gleichen Einstellungen gemessen wurden.
  • Plattformübergreifend: Betrifft Proben, die auf verschiedenen Messinstrumenten mit unterschiedlichen Einstellungen gemessen wurden.

Das Team wertete daraufhin 500 Peaks aus vier weiteren Datensätzen aus. Sie bewerteten den Global Peak-Quality Classifier anhand:

  • eines anderen Datensatzes von demselben Messinstrument, um die Leistung auf derselben Plattform zu testen;
  • drei Datensätze von verschiedenen Plattformen, um die plattformübergreifende Leistung zu testen.

MetaClean schneidet bei der Analyse von Daten aus derselben Plattform sehr gut ab

Der Global Peak Quality Classifier untersuchte einen anderen Datensatz desselben Messinstruments (Test 1). Der Klassifikator kategorisierte die Peaks in fast 81 % der Fälle richtig, obwohl dieser Datensatz von einem anderen Probentyp stammte. 

MetaClean schneidet bei plattformübergreifenden Analysen ausreichend gut ab

Anschließend wurde der Global Peak Quality Classifier auf vier Datensätze angewendet, die jeweils unterschiedliche MS-Instrumente, LC-Säulen und/oder Ionisierungsmodi verwenden:

Trotz dieser Plattform- und Matrixschwankungen konnte der Klassifikator zwischen 65 und 80 % der Peaks korrekt kategorisieren. Die geringere Genauigkeit bei diesen Datensätzen macht jedoch deutlich, dass plattformübergreifende Analysen nach wie vor eine größere Herausforderung darstellen.

Das Balkendiagramm zeigt, dass der MetaClean Global Peak Quality Classifier eine Genauigkeit von 85% gegenüber dem Entwicklungsdatensatz, 81% gegenüber einem Datensatz mit anderer Probenmatrix (Test 1), 65 % gegenüber einem Datensatz mit einem anderen Ionisierungsmodus (Test 2), 75 % gegenüber Daten von einem anderen Messinstrument im positiven Modus (Test 3) und 79 % gegenüber Daten von einem anderen Messinstrument im negativen Modus (Test 4) erreichte. 
Der Global Peak Quality Classifier erreichte eine Genauigkeit von über 65 % bei allen Testsätzen, einschließlich derer von verschiedenen Plattformen und/oder Testmatrizen. 

MetaClean plattformspezifisch trainieren

Um ihre Modelle von neuem zu trainieren und zu evaluieren, verwendete das Team zwei Datensätze (Test 3 und Test 4) aus einem anderen Labor. Sie trainierten zwei neue Modelle mit den Positiv- und Negativdaten derselben Plattform und verglichen sie jeweils miteinander. Die Vergleiche zeigten, dass jedes Modell auch beim Einsatz für den jeweils anderen Datensatz treffsichere Ergebnisse liefern konnte. Jedes Modell kann plattformspezifisch optimiert und auch auf verschiedene Ionisierungsmodi angewendet werden. 

Ein Balkendiagramm, das zeigt, dass das Modell für den positiven Modus eine Genauigkeit von 85 % beim Testdatensatz im negativen Modus erreicht hat. Das Modell für den negativen Modus erreichte eine Genauigkeit von 81 % beim Testdatensatz im positiven Modus.
Das Modell, das anhand der Daten im positiven Modus trainiert wurde, schnitt auch für Daten im negativen Modus sehr gut ab (und vice versa), selbst wenn es plattformspezifisch trainiert wurde. 

Vergleich von MetaClean mit RSD-Filtration

In komplexen Datensätzen kann es - z.B. aufgrund von Hintergrundrauschen - immer wieder zu zufallsbedingten Analysefehlern kommen. Dadurch entstehen Peaks, die sehr unterschiedlich aussehen, und nicht konsistent integriert werden können. 

Diese Fehler lassen sich anhand einer Methode namens RSD (Relative Standard Deviation)-Filtration ermitteln, bei der Proben gepoolt und anschließend mehrmals analysiert werden. Seltene, nur zufällig entstandene Peaks werden dabei aussortiert und häufig auftretende Peaks auf ihre Konsistenz geprüft. Liegt die Standardabweichung der Peakfläche außerhalb eines festgelegten Grenzwertes, werden sie ebenfalls aussortiert. 

Da MetaClean und die RSD-Filtration unabhängig voneinander arbeiten, erfüllt der Einsatz der RSD-Filtration gleich zweierlei Nutzen:

  • Vergleich der Leistung von MetaClean mit einer etablierten Methode;
  • Verbesserte Performance von MetaClean durch die Kombination mit RSD-Filtration.

Das Team konnte feststellen, dass MetaClean in allen Testläufen besser abschneidet und die Qualität der Peaks durchweg präziser klassifiziert als die RSD-Filtration. 

Während RSD sehr gut darin ist, zufallsbedingte Analysefehler zu erkennen, liegt der Fokus von MetaClean auf der Beseitigung von Integrationsfehlern. Aufgrund dieser unterschiedlichen Schwerpunkte lassen sich die beiden Methoden hervorragend miteinander kombinieren.

Metaclean für deine Daten verwenden

Um deinen Workflow zu optimieren lohnt es sich also, ein MetaClean Modell auf deinen Daten zu trainieren. Mit nur geringem Zeitaufwand kannst du damit sämtliche Peaks deiner Analysen überprüfen und die Anzahl falscher Integrationen deutlich reduzieren.

Kelsey, Lauren und Gaurav haben ein kostenloses R-Package veröffentlicht, mit dem du deine Daten anhand der acht ML- und drei Qualitätsmetrik-Sets auswerten und direkt dein Modell trainieren kannst.

Wenn du noch mehr über Metaclean wissen möchtest, empfehlen wir dir außerdem, einen Blick in vom Team veröffentlichten wissenschaftlichen Fachartikel zu werfen.

Bekomme immer die neusten Artikel

Trag dich mit deiner E-Mail ein, um du bekommst jede Woche unseren neusten Artikel.

Ich danke Ihnen! Ihre Einreichung ist eingegangen!
Oops! Something went wrong while submitting the form.