Die Berechnung der Ähnlichkeit zwischen zwei MS/MS-Massenspektren ist ein wesentlicher Bestandteil in jedem Untargeted Metabolomics-Workflow. Seit langem ist jedoch bekannt, dass die Kosinus-Ähnlichkeit - die am häufigsten eingesetzte Ähnlichkeitsmessung - gravierende Schwächen aufweist.
Justin van der Hooft und sein Team haben daher einen neuen Ansatz zur Berechnung der spektralen Ähnlichkeit entwickelt: Spec2Vec.
Dieser neue Ansatz ist ein großer Fortschritt für die Analyse von Untargeted-Metabolomics-Datensätzen, die bei der Identifizierung von Biomarkern oder in der Naturstoffforschung eingesetzt werden.
In diesem Artikel erläutern wir, wie Spec2Vec funktioniert und warum es eine bessere Alternative zur Kosinusähnlichkeit ist.
Warum massenspektrale Ähnlichkeitsmetriken wichtig sind
Ein einzelner Datenpunkt in einem Untargeted Metabolomics-Datensatz ist zunächst nicht mehr als eine gemessene Größe. Anhand diesen einen Datenpunktes wissen wir nicht, um welches Molekül es sich handeln könnte und können daher auch nichts über seine Bedeutung sagen: Handelt es sich um ein unbekanntes Molekül? Was ist seine metabolomische Funktion?
Sobald man diese Größe jedoch mit einer Datenbank abgleicht, wie z.B. der Human Metabolome Database (HMDB), können wichtige Informationen hinzugefügt (annotiert) werden. Um die Messung mit den Einträgen in der Datenbank abgleichen zu können, braucht man eine Ähnlichkeitsmetrik.
Ähnlichkeitsmetriken werden in der Massenspektrometrie hauptsächlich so verwendet:
- Spectral library matching: Abgleich einer Messung mit einer Spektralbibliothek (z.B. HMDB).
- Analoge Suche: Suche nach den Top-Treffern in einer großen Strukturbibliothek, um nach strukturell verwandten Molekülen zu suchen.
- Massenspektrale Netzwerke: Clustering verwandter Verbindungen in einem massenspektralen Netzwerk.
Jeder Fehler in diesen Abgleichen kann direkt sehr kostspielig werden: Wird eine Übereinstimmung übersehen, geht man unter Umständen von einem vielversprechenden Wirkstoffkandidaten aus, obwohl es sich in Wirklichkeit um ein bekanntes Molekül handelt. Solche Fehler kosten viel Zeit und Geld, besonders wenn sie erst spät im Forschungsprozess entdeckt werden.
Je genauer eine Ähnlichkeitsmetrik ist, desto seltener passieren solche Fehler.
Nachteile der Kosinus-Ähnlichkeit
Die Kosinus-Ähnlichkeit misst, wie sehr ein Massenspektrum mit einem anderen Massenspektrum übereinstimmt. Wenn zwei Massenspektren nahezu vollständig überlappen, dann ist die Kosinus-Ähnlichkeit hoch - und ihre molekularen Strukturen sind sich sehr ähnlich.
Manchmal gibt es jedoch strukturell ähnliche Moleküle, deren Massenspektren sich nicht überschneiden - in diesen Fällen ist die Kosinus-Ähnlichkeit kaum aussagekräftig. Das kann so passieren:
- Große Moleküle, die an mehreren Stellen abgewandelt sind: Große Moleküle - wie sie oft in Pflanzen und Mikroorganismen vorkommen - weisen oft mehrere kleine Veränderungen in ihrer molekularen Struktur auf.
- Mehrere Fragmente sind verschoben: Wenn man ein Molekül fragmentiert, das mehrere Modifikationen aufweist, dann weisen nicht nur eines, sondern mehrere seiner Fragmente ebenfalls eine Modifikation auf. Dadurch verschieben sich im Massenspektrum mehrere Fragment-Peaks.
- Nur wenige Peaks überschneiden sich: Wenn viele Fragmente verschoben sind, dann überschneidet sich das gesamte Spektrum nicht mehr komplett mit dem Spektrum des unmodifizierten Moleküls.
- Geringe Kosinus-Ähnlichkeit: Gemessen an der Kosinus-Ähnlichkeit (Überlappung) scheinen die beiden Moleküle daher nicht miteinander verwandt zu sein, und man erhält einen niedrigen Kosinus-Wert.
- Falsche Schlussfolgerungen: Am Ende geht man also fälschlicherweise davon aus, dass es in den Bibliotheken keine Moleküle gibt, die der eigenen Messung ähnlich sind. Dadurch könnte man zu dem Schluss kommen, dass man ein neuartiges Molekül gefunden hat, obwohl es sich in Wirklichkeit nur um eine leichte Modifikation eines bereits bekannten Moleküls handelt.
Obwohl das ein bekanntes Problem ist, gab es vor Spec2Vec keine alternativen Massenspektral-Ähnlichkeitsmetriken zur Kosinus-Ähnlichkeit.
Spec2Vec: Unüberwachtes Lernen spektraler Ähnlichkeiten
Ausgangspunkt von Spec2Vec ist folgende Annahme: Wenn zwei Massenspektrale-Peaks über Tausende von Massenspektren hinweg gemeinsam auftreten, dann stammen sie höchstwahrscheinlich von der gleichen molekularen Substruktur.
Die beiden Peaks hängen also in einer bestimmten Weise zusammen. Wenn man nun eines dieser Peaks in einem Molekül und das andere Peak in einem anderen Molekül entdeckt, kann man davon ausgehen, dass in beiden Molekülen die gleiche Substruktur - vielleicht mit kleinen Änderungen - vorhanden ist.
Genau diese Idee setzt Spec2Vec um. Anhand von großen Datensätzen, die Tausende von Massenspektren enthalten, lernt Spec2Vec, welche Peaks miteinander verknüpft sind. Anschließend kann dann mit dem erlernten Modell die spektrale Ähnlichkeit zwischen zwei beliebigen Massenspektren berechnet werden.
Wenn das funktioniert, dann sollte ein Molekül trotz mehrer kleiner Abwandlungen - wie im vorherigen Beispiel - von Spec2Vec trotzdem als ähnlich erkannt werden. Aber funktioniert das auch?
Spec2Vec im Vergleich mit der Kosinus-Ähnlichkeit
Werfen wir einen Blick auf die Ergebnisse von zwei Tests. Für die Tests verwenden wir eine große Molekülbibliothek von GNPS, die Informationen zu Molekülstrukturen und die entsprechenden Spektren enthält.
Test 1: Wie gut korrelieren die Spec2Vec-Scores mit der strukturellen Ähnlichkeit?
Zunächst benötigen wir eine Referenz, anhand derer wir Spec2Vec und die Kosinus-Ähnlichkeit vergleichen können. Justin und sein Team nahmen 12.797 Verbindungen, und berechneten für jedes Molekülpaar die strukturellen Ähnlichkeitswert (Tanimoto-Score) direkt auf Basis der Datenbank beschriebenen Molekülstruktur.
Für jedes dieser Paare (insgesamt 81.875.206 Paare) wurden außerdem die Kosinus-Ähnlichkeit und Spec2Vec-Scores berechnet. Diesmal wurden jedoch nur die Massenspektren aus der Bibliothek und nicht die Molekülstrukturen verwendet. Das Ergebnis war:
- Spec2Vec Scores korrelieren deutlich besser mit der tatsächlichen strukturellen Ähnlichkeit;
- Nur wenn die Spektren nahezu perfekt überlappen, also für fast gleiche Moleküle, schneiden beide Metriken ähnlich gut ab.
Die hohe Korrelation von Spec2Vec mit struktureller Ähnlichkeit (Tanimoto-Scores) ist sehr vielversprechend. Aber führt das auch zu einer besseren Ergebnissen in Abgleichen mit Metabolit-Bibliotheken?
Test 2: Kann Spec2Vec die richtigen Treffer in einer Bibliothek finden?
In einem zweiten Test hat Justins Team 1.000 verschiedene Moleküle aus der Spektralbibliothek ausgewählt, von denen noch mindestens vier planare Strukturäquivalente (die in 2D identisch aussehen) in der Bibliothek vorhanden waren.
Die Aufgabe bestand nun darin, herauszufinden, ob die Moleküle mit der gleichen 2D-Struktur auch die höchsten Ähnlichkeitswerte erhalten würden.
Die Ergebnisse stimmten mit denen des ersten Tests überein: Auch hier konnte Spec2Vec im Vergleich zur Kosinus-Ähnlichkeit deutlich mehr Übereinstimmungen finden, und zwar in allen Bewertungsbereichen.
Spec2Vec bietet allerdings noch weitere Vorteile.
Spec2Vec ist wesentlich schneller
Berechnungen der Kosinus-Ähnlichkeit sind bei Massenspektren sehr teuer. Daher ist es in der Regel nicht praktikabel, gesamte Datenbanken für die Vergleiche heranzuziehen.
Ein Spec2Vec-Modell ist dagegen ziemlich schnell und dadurch auch kostengünstiger, sobald es trainiert wurde: es liefert etwa 100 mal schneller ein Ergebnis als Kosinus-Ähnlichkeit. Selbst wenn man die Trainingszeit für das Spec2Vec-Modell mit einbezieht, ist es immer noch etwa 10 mal schneller.
Das bedeutet, dass man mit Spec2Vec All-vs-All-Suchen in umfangreichen Bibliotheken durchführen kann - ohne jegliche Einschränkungen.
Obwohl es sich um einen wesentlich fortgeschritteneren Ansatz zur Ähnlichkeitsbewertung handelt, ist Spec2Vec außerdem sehr leicht zu implementieren.
Wie man Spec2Vec in den Arbeitsablauf integriert
Du kannst Spec2Vec mit einem einfachen Open-Source-Paket für Python implementieren, das auf Github frei verfügbar ist: https://github.com/iomega/spec2vec. Es lässt sich mit Anaconda (empfohlen) oder pip installieren.
Bei Interesse kannst du auch Justin’s vortrainiertes Spec2Vec-Modell von Zenodo herunterladen. Damit kannst du direkt massenspektrale Ähnlichkeiten berechnen, ohne zuerst dein eigenes Modell zu trainieren.
>> Wissenswert: Spec2Vec ist ein unüberwachter Algorithmus. Das bedeutet, dass man es ohne zusätzliche Informationen auf jedem beliebigen Datensatz von MS/MS-Spektren trainieren kann.
Das ist erst der Anfang
Spec2Vec ist ein großartiger Ansatz und wird vermutlich auch noch erweitert werden:
- GC-MS: Bislang wurde Spec2Vec nur auf LC-MS-Daten getestet. Für GC-MS-Untersuchungen könnte es sogar noch wertvoller sein: Bei GC-MS-Messungen kann man nämlich die Suche nach Bibliotheken nicht eingrenzen, indem man nach der Ähnlichkeit der Vorläufer-Ionen filtert.
- Überwachtes Lernen: Es ist ziemlich praktisch, dass Spec2Vec unüberwacht ist. Man könnte aber auch ein überwachtes Modell erstellen: So könnte man beispielsweise ein Modell trainieren, das den Tanimoto-Score direkt aus den spektralen Embeddings vorhersagt. Dadurch können noch genauere Modelle entstehen.
- Verbesserte Mass2Motifs: Spec2Vec-Vektoreinbettungen könnten dazu verwendet werden, leistungsfähigere Mass2Motifs zu trainieren.
- Verbesserte Network Annotation Propagation (NAP): Für die Erstellung von massenspektralen Netzwerken sind Ähnlichkeitsscores essentiell. Wenn Spec2Vec also mehr nützliche Netzwerke generiert, könnte es auch die Annotationen verbessern und die Identifikation von Molekülstrukturen beschleunigen.
Generell sollte jedes Tool, das aktuell mit der Kosinus-Ähnlichkeit arbeitet, davon profitieren, stattdessen Spec2Vec als Ähnlichkeitsmetrik einzusetzen.
Weiterführende Hinweise
Wenn du mehr über Spec2Vec erfahren möchtest:
- Probiere das Spec2Vec Python Paket aus;
- Teste Spec2Vec in der GNPS online Platform;
- Lies das Spec2Vec Paper; und
- Sieh dir Florian Hubers Spec2Vec Tutorial an.
Benötigst du Hilfe bei der Anwendung von Machine Learning in Omics-Forschung?
Wir helfen deinem Forschungsteam dabei, die richtige Infrastruktur für reproduzierbare und leicht einsetzbare Machine Learning Modelle einzurichten. Melde dich bei Interesse gerne bei uns.