Was sind Machine Learning Plattformen?
Code stellt nur einen kleinen Bestandteil von Machine Learning Lösungen dar. Um eine Machine Learning Lösung zu verwalten, müssen eine ganze Reihe verschiedener Tools und Dienste eingesetzt werden, unter anderem:
- Rechenkapazität um Daten aufzubereiten und Machine Learning Modelle zu trainieren;
- Datenmanagement Software um Daten zu bereinigen, zu bearbeiten, zu tracken und zu sichern;
- Software Entwicklungstools um Code zu schreiben und zu verwalten;
- Dashboarding Tools um mit der Lösung zu interagieren und Ergebnisse darzustellen.
Das Ziel von Machine Learning Plattformen besteht darin, diese vier Komponenten in eine einzige Gesamtlösung zu integrieren.
Es lassen sich jedoch nicht alle Machine Learning Dienste direkt miteinander vergleichen. Tools wie AWS Sagemaker helfen dabei, Machine Learning Lösungen weniger komplex zu gestalten, man benötigt jedoch trotzdem noch Entwickler mit Programmiererfahrung im Team. Solche Tools konzentrieren sich vor allem auf die Bereitstellung von skalierbarer Rechenkapazität. Anbieter wie Alteryx konzentrieren sich eher auf die Präsentation. Bei diesen Tools kann man dank einer no-code Nutzeroberfläche simple Machine Learning Funktionen auch ohne viel Programmiererfahrung einsetzen.
Im Allgemeinen enthalten diese Plattformen oft die Dashboarding- und/oder Workflow-Orchestrierungs-Tools, die wir in früheren Artikeln bereits vorgestellt und miteinander verglichen haben.
Tools wie Alteryx können also als höhere Abstraktionsebene gesehen werden. Mehrere Funktionen werden vereinfacht zusammengefasst, was aber im Vergleich zu spezialisierteren Tools die Flexibilität einschränkt.
Wir haben die beliebtesten Plattformen verglichen, damit du eine fundierte Entscheidung darüber treffen kannst, welche für dich am besten geeignet ist.
Für was soll ich mich entscheiden?
Wie immer gilt: "Es kommt darauf an" - solltest du jedoch nach einer schnellen Antwort suchen, kannst du dich grob hieran orientieren:
- Dataiku eignet sich dann, wenn man nicht bereits mit eigenen Entwicklungs-, Orchestrierungs- und Machine Learning Tools arbeitet, sondern nach einer fertigen All-in-One-Lösung sucht. Das Team sollte über ein gewisses technisches Grundwissen verfügen, muss aber nicht aus hauptsächlich Software-Entwicklern bestehen.
- Alteryx wenn du dich auf Marketing und Analytik konzentrierst und Zugriff auf Machine Learning und Datenverwaltung haben möchtest, ohne selbst Code zu schreiben.
- Knime ist eine preiswertere, nicht ganz so ausgefeilte, aber dafür flexiblere Alternative zu Alteryx.
- Sagemaker wenn dein Team über technisches Wissen verfügt, aber die Machine Learning Infrastruktur abstrahieren möchte, und dafür Einbußen in der Flexibilität in Kauf nimmt.
- Datarobot wenn du Daten in Tabellenform gespeichert hast und nach der einfachsten Möglichkeit suchst, schnell ML Modelle zu trainieren.
- Databricks wenn du bereits mit Apache Spark arbeitest und nach einem einfacheren Weg suchst, diese Plattform zu verwenden.
Kurzer Überblick
Bevor wir uns den detaillierten Vergleichen widmen, hier ein kurzer Überblick über die einzelnen Plattformen.
- Dataiku ist eine plattformübergreifende Desktop-Anwendung, die eine breite Palette von Tools abdeckt, wie z.B. Notebooks (ähnlich wie Jupyter Notebook), Workflow-Management (ähnlich wie Apache Airflow) und automatisiertes Machine Learning. Im Allgemeinen zielt Dataiku eher darauf ab, viele deiner bereits vorhandenen Tools zu ersetzen, als sich mit ihnen zu integrieren.
- Alteryx ist eine auf Analysen ausgerichtete Plattform, die eher mit Dashboarding-Lösungen wie Tableau vergleichbar ist, aber auch Machine Learning-Komponenten bereitstellt. Der Schwerpunkt liegt auf no-code Alternativen zu Machine Learning, fortgeschrittener Analytik und anderen Anwendungen, die normalerweise Code erfordern.
- Knime ist vergleichbar mit Alteryx, verfügt jedoch über eine Open-Source Option für Self-hosting und ist in der kostenpflichtigen Version günstiger. Es enthält Machine Learning-Komponenten und modular aufgebaute Analyse-Integrationen.
- Datarobot konzentriert sich auf einen kleinen Teil von Machine Learning Lösungen: Automatisiertes Trainieren von Machine Learning Modellen. Man lädt Daten in Tabellenform hoch und das Tool findet automatisch ein passendes Modell mit Parametern, um bestimmte Spalten vorherzusagen.
- Databricks ist in erster Linie eine Apache Spark-Umgebung, die in Tools wie MLFlow zur Workflow-Orchestrierung integriert werden kann.
- Sagemaker konzentriert sich darauf, Machine Learning Infrastruktur fürs Training und Bereitstellen von Modellen zu vereinfachen. Mittlerweile gibt es in Sagemaker außerdem Autopilot (ähnlich wie Datarobot) und Sagemaker Studio (ähnlich wie Dataiku).
Wir haben jede dieser Bibliotheken anhand folgender Kriterien bewertet:
- Entwicklungsstand: Wie lange gibt es die Bibliothek schon und wie zuverlässig ist sie.
- Bekanntheit: wie oft wird auf Google danach gesucht.
- Breite: weist das Tool einen bestimmten Fokus auf oder ist es eher breit aufgestellt.
Hier handelt es sich weniger um strenge Maßstäbe, sondern vielmehr um einen groben Überblick darüber, in welchen Punkten sich die Tools ähneln bzw. unterscheiden. Genauere Details findest du hier, in unseren Kopf-an-Kopf Vergleichen:
Dataiku vs. Alteryx
Dataiku und Alteryx sind beides Machine Learning-Plattformen, Dataiku konzentriert sich jedoch hauptsächlich auf technische Aspekte, während Alteryx den Schwerpunkt auf Analytik und Präsentation legt.
Dataiku enthält Data Science Studio (DSS), eine plattformübergreifende Desktop-Anwendung, die ein Notebook (ähnlich wie Jupyter Notebook) für Entwickler zum Schreiben von Code und ein Tool zur Workflow-Orchestrierung (ähnlich wie Apache Airflow) beinhaltet. Es bietet zwar vereinzelte Benutzeroberflächen, der Schwerpunkt liegt aber eindeutig auf der Entwicklung von Code. Im Gegensatz dazu bietet Alteryx eine bessere Dashboarding-Erfahrung, dafür aber weniger Flexibilität: In Alteryx verwendet man eine Benutzeroberfläche, um no-code Machine Learning Komponenten zu erstellen.
- Entscheide dich für Dataiku wenn dein Team technisch versiert ist und du möchtest, dass Data Scientists, Entwickler und Analysten das gleiche Tool verwenden.
- Entscheide dich für Alteryx wenn dein Team technisch weniger erfahren ist und du anspruchsvolle Analysen mit vorgefertigten Komponenten durchführen möchtest.
Dataiku vs. Databricks
Sowohl Dataiku als auch Databricks zielen darauf ab, Data Scientists, Entwicklern und Analysten die Nutzung einer einheitlichen Plattform zu ermöglichen. Dataiku stützt sich dabei auf seine eigene Software, während Databricks bestehende Tools integriert. Databricks bildet die zentrale Schnittstelle, um Apache Spark, AWS oder Azure, und MLFlow miteinander zu verbinden.
Dataiku umfasst Integrationen für Machine Learning Bibliotheken wie Tensorflow und eine AutoML-Schnittstelle, die Machine Learning auf Daten in Tabellenformat durchführen kann.
- Entscheide dich für Dataiku wenn du gerne deine eigene Infrastruktur verwalten möchtest, aber eine Plattform für deine Machine Learning Pipelines und Analysen benötigst.
- Entscheide dich für Databricks wenn du nach einer Plattform suchst, die deine Infrastruktur für dich verwaltet, und dich mit Apache Spark zurechtfinden kannst.
Dataiku vs. Datarobot
Datarobot und Dataiku bieten beide AutoML: eine no-code Machine Learning Plattform, auf der man seine Daten als Tabelle hochlädt und eine Zielvariable auswählt; die Plattform sucht dann ein passendes Machine Learning Modell für die Prognose der Zielvariable aus und optimiert es entsprechend.
Diese Auto ML Funktion ist die zentrale Komponente von Datarobot. Dataiku bietet dagegen noch einiges mehr: eine umfassende Auswahl an Data Science Tools, darunter eine IDE, ein Task-Orchestrator und Visualisierungstools.
- Entscheide dich für Datarobot wenn du bereits bereinigte Datensätze hast und vordefinierte Machine Learning Modelle zur Datenanalyse verwenden möchtest, ohne dass Entwicklerkenntnisse erforderlich sind.
- Entscheide dich für Dataiku wenn du nach etwas Flexiblerem suchst, mit dem du deine eigenen, maßgeschneiderten Machine Learning Modelle entwickeln kannst.
Dataiku vs. Sagemaker
Dataiku konzentriert sich auf die Bereitstellung von Softwareentwicklungs- und Analysetools für Data Scientists und Entwickler; Sagemaker legt den Fokus eher auf die zugrundeliegende Infrastruktur: die Server, die diese Modelle ausführen und bereitstellen. Dataiku bietet eine Integration zu Sagemaker, doch Sagemaker stellt auch Tools zur Verfügung, die in direkter Konkurrenz zu Dataiku stehen: Sagemaker Studio und Sagemaker Autopilot.
Man kann diese Plattformen entweder in Kombination verwenden, indem man Dataiku für die Entwicklung und Verwaltung seiner Modelle und Sagemaker für das Training und die Bereitstellung verwendet. Alternativ kann man jedoch Sagemaker auch für jede dieser Funktionen verwenden.
- Entscheide dich für Dataiku wenn du nach einer ausgereifteren Plattform mit Schwerpunkt auf User Interface und User Experience suchst, die sowohl von Entwicklern als auch von Analysten genutzt werden kann.
- Entscheide dich für Sagemaker wenn in deinem Team mehr Entwickler als Analysten arbeiten, du mehr Flexibilität brauchst und nichts gegen Schnittstellen hast, die noch nicht ganz ausgereift sind.
Alteryx vs. Datarobot
Alteryx ist eine umfassendere Lösung, die Analyse-, Datenmanagement- und Dashboarding-Komponenten sowie no-code Machine Learning bietet. Datarobot hat einen beschränkteren Fokus auf lediglich no-code Machine Learning.
- Entscheide dich für Alteryx wenn dein Schwerpunkt auf Daten und Analysen liegt und du eine Plattform für die gesamte Organisation suchst.
- Entscheide dich für Datarobot wenn du einen vorhandenen Datensatz mit vordefinierten Machine Learning Modellen analysieren möchtest.
Alteryx vs. Knime
Alteryx und Knime sind sehr ähnliche Tools, die sich in ihren Fähigkeiten weitgehend überschneiden. Alteryx ist kommerzieller und bietet nur eine kostenpflichtige Plattform, während Knime auch eine kostenlose Open-Source-Option zur Verfügung stellt. Knime fehlt etwas von Alteryx' Feinschliff, bietet dafür aber mehr Flexibilität.
- Entscheide dich für Alteryx wenn du mehr Business-Analysten als Entwickler in deinem Team hast und ausgefeilte Berichte und Dashboards erstellen möchtest.
- Entscheide dich für Knime wenn du nach einer kostengünstigen Option suchst und dir Flexibilität wichtiger ist als die Darstellung.
Sagemaker vs. Databricks
Sagemaker bietet die Möglichkeit, Machine Learning Modelle unter Verwendung verschiedener Machine Learning Frameworks auf AWS Infrastruktur zu deployen und zu nutzen. Mit Databricks kann man Jupyter Notebooks auf Apache Spark-Clustern ausführen (die wiederum auf AWS laufen).
Databricks konzentriert sich auf die Analyse großer Datenmengen, indem man seinen Code auf Compute-Clustern ausführen kann. Sagemaker konzentriert sich auf das Tracking von Experimenten und den Einsatz von Modellen. Mit beiden Tools können Data Scientists Code in ihrer gewohnten Notebook-Umgebung schreiben und auf einer skalierbaren Infrastruktur ausführen.
- Entscheide dich für Sagemaker wenn du nach einer universellen Plattform suchst, um deine Machine Learning Modelle zu entwickeln, zu trainieren und einzusetzen.
- Entscheide dich für Databricks wenn du gezielt Apache Spark und MLFlow zur Verwaltung deiner Machine Learning Pipeline verwenden möchtest.
Sagemaker vs. Datarobot
Sagemaker enthält Sagemaker Autopilot, was große Ähnlichkeiten mit Datarobot aufweist. Mit beiden Tools kann man einen einfachen Datensatz in Tabellenform hochladen und eine Zielvariable auswählen. Die Plattform führt automatisch Experimente durch und wählt das passendste Machine Learning Modell für die Daten aus.
Da dieses sogenannte "AutoML" den Kernfokus von Datarobot darstellt, verfügt Datarobot über eine umfassendere Modellbibliothek als Sagemaker. Sagemaker hinkt in diesem speziellen Anwendungsfall Datarobot also etwas hinterher, insgesamt ist Sagemaker jedoch mit mehr Funktionen ausgestattet (z.B. um Modelle zu entwickeln oder Experimente zu tracken).
- Entscheide dich für Sagemaker wenn du eine flexiblere Plattform benötigst, die AutoML mit einschließt.
- Entscheide dich für Datarobot wenn du nach einer einfacheren Plattform, spezialisiert auf AutoML und mit mehr vorgefertigten Modellen suchst.
Anmerkungen zum Schluss
Wenn man sich die Websites dieser Plattformen ansieht, stößt man schnell auf Behauptungen wie leistungsstark und einfach zu bedienen die jeweiligen Tools seien. Man darf hier jedoch nicht vergessen, dass diese Dienste alle versuchen, ziemlich komplexe Probleme zu lösen. Der Einstieg in diese Plattformen ist daher in den meisten Fällen ein recht langer und kostspieliger Prozess, um den man kaum drum rum kommt.
All diese Tools und Dienstleistungen zielen darauf ab, eine Abkürzung für Datenverarbeitung, Machine Learning und Analytik zu bieten. Das bedeutet aber auch, dass sie in manchen Teilen sehr restriktiv sein können. Wenn Machine Learning für dein Unternehmen eine zentrale Komponente darstellt, dann ist es oft immer noch die beste Option, eine eigene Pipeline aufzubauen. Es gibt ausgezeichnete, ausgereifte Open-Source-Plattformen, die man für den Aufbau einer vollständig maßgeschneiderten Lösung verwenden kann.
Die vorgestellten Machine Learning Plattformen verkaufen das Konzept, dass Personen ohne Entwickler-Erfahrung Machine Learning Lösungen entwickeln können. In der Praxis sind es am Ende aber tatsächlich meist erfahrene Machine Learning Entwickler, die diese Tools und Dienstleistungen am erfolgreichsten einsetzen. Fachleute mit einem fundierten Verständnis der zugrundeliegenden Konzepte können ML Plattformen als Abkürzung zur Erstellung von Proofs of Concept nutzen; da sie den darunterliegenden Prozess verstehen, den die Plattform vereinfachen soll, und so wissen, wie sie es richtig einsetzen können. Aber diejenigen, denen diese Erfahrung fehlt, stellen oft fest, dass ML Plattformen zu begrenzt sind, um ihre genauen Anforderungen zu erfüllen. Gleichzeitig sind sie noch zu kompliziert, als dass sie von nicht-technischen Teammitgliedern richtig verwendet werden könnten.
Wenn du gerade überlegst welcher Ansatz für dich und dein Team am besten ist, buche gerne eine kostenlose (und unabhängige) Beratung bei uns.