Brooke Wenig ist Data Scientist bei Databricks und Ksenia Tomak arbeitet als Data Engineer bei Dodo Pizza, beide berichten über Ihre Tätigkeiten und zeigen das Potential der Berufe auf.

„Data Scientists werden aufgrund der Vielfalt ihrer Aufgaben oft als Alleskönner bezeichnet“, so beschreibt Brooke Wenig ihre Tätigkeit als Data Scientist. Ein typisches datenwissenschaftliches Projekt beginne, so Wenig mit einem Treffen mit Interessenvertretern, um das Geschäftsproblem, den Zeitplan und die potenziellen Auswirkungen einer Lösung zu verstehen. Sie arbeiten eng mit den Interessenvertretern zusammen, um Erfolgskriterien und geschäftsrelevante Metriken zu definieren und zu ermitteln, welche Daten sie benötigen werden.

„Sobald der Zugang zu den Daten erfolgt ist, ist der erste Schritt die explorative Datenanalyse (EDA). Sehr schnell werden Data Scientists feststellen, dass es Teile gibt, die sie nicht vollständig verstehen, und Teile, die für das Problem, das sie zu lösen versuchen, eindeutig mehr Wert haben als andere“, erklärt Wenig. „Um Ersteres besser zu verstehen, werden sie oft direkt mit Fachexperten auf diesem Gebiet zusammenarbeiten. Letztere werden die Grundlage für wichtige ‚Features‘ bilden, die sie für ihr maschinelles Lernmodell einsetzen. Während sie das Modell aufbauen, wird es wichtig sein, dass man die Interessenvertreter über die von ihnen getroffenen Entscheidungen und deren Auswirkungen auf das Geschäftsergebnis auf dem Laufenden hält.“

Die Wahl des Modells spielt dabei nach ihrer Ansicht eine wichtige Rolle. Zum Beispiel sei es für einen Arzt viel einfacher zu verstehen, wie ein Decision Tree seine Vorhersage im Vergleich zu einem neuronalen Netz generiert hat. Kontinuierliche Fortbildung und Kommunikation sind für den Start erfolgreicher datenwissenschaftlicher Projekte unerlässlich.

Der Prozess ist jedoch nicht abgeschlossen, wenn der Data Scientist sein „endgültiges“ Modell hat. Man muss sicherstellen, dass andere die Ergebnisse reproduzieren und interpretieren können und dass das Modell tatsächlich das Geschäftsproblem löst. Einige Data Scientists sind auch für die Produktion des Modells, die Überwachung der Drift usw. verantwortlich, aber oft fällt dies in den Verantwortungsbereich eines Ingenieurs für maschinelles Lernen. Die Aufgaben eines Data Scientists erfordern daher ein breites Spektrum an Fähigkeiten.

Der Weg zum Data Scientist

Im Gegensatz zum traditionellen Software-Engineering, wo die meisten Menschen aus der Informatik oder dem Ingenieurwesen kommen, stammen Data Scientists aus einer Vielzahl von Bereichen, von den Geistes- und Sozialwissenschaften bis hin zur Statistik. Sie kommen oft auf Umwegen zur Data Science, indem sie geschäftskritische Probleme durch die Linse ihres Fachwissens erkunden und quantitative Methoden anwenden, um ihre Daten besser zu verstehen.

Ein Data Scientist verfügt über ein robustes Toolkit mit den Fähigkeiten: Business Intelligence, Mathematik, Statistik, Optimierung und Software-Engineering. Ein weit verbreiteter Irrglaube ist, dass ein Berufseinsteiger einen Hochschulabschluss benötigt, um Data Science zu betreiben.

Stattdessen geht es darum sich ständig weiterzubilden. Wenig hält einen Master-Abschluss auf verteilte maschinelle Lernverfahren, nimmt aber jedes Jahr an etwa 6 bis 8 Online-Kursen teil und liest Blogs über neue Techniken. Die genauen Werkzeuge in einem Toolkit ändern sich ständig, da die akademische und industrielle Forschung im Bereich des maschinellen Lernens von Jahr zu Jahr zunimmt, daher müssen Data Scientists sicherstellen, dass sie ihr Toolkit ständig aktualisieren.

Business Intelligence und die Tools

Zusätzlich zu den technischen Fertigkeiten ist eine häufig unterschätzte Eigenschaft die Business Intelligence, und sie ist eine Schlüsseleigenschaft, die junge Data Scientists von erfahreneren Data Scientists unterscheidet. Es ist weniger wichtig zu wissen, welches das leistungsfähigste aktuelle Modell des maschinellen Lernens ist, als zu wissen, wo oder wie das Modell anzuwenden ist. Data Scientists sollten stets den geschäftlichen Anwendungsfall im Auge behalten, Erfolgskriterien und Metriken im Voraus festlegen und niemals aufhören, Fragen zu ihren Daten zu stellen.

Bezüglich der verwendeten Tools gibt es ein paar verschiedene „Lager“ von Data Scientists, von R über Python bis SAS. Brooke gehört zum Python-Lager, und ihre Lieblingsbibliotheken und -werkzeuge sind Pandas, Scikit-Learning, MLflow, Spark, TensorFlow, SHAP, Delta Lake und Jupyter sowie Databricks-Notebooks, neben vielen anderen. Mit dem immer größer werdenden Umfang an großen Daten ist es für Data Scientists immer wichtiger geworden, Cloud-Computing-Fähigkeiten zu ihrem Werkzeugkasten hinzuzufügen, wenn Datenvolumen und -geschwindigkeit zunehmen. Data Scientists sind auch große Befürworter der Open-Source-Gemeinschaft und bevorzugen nach Möglichkeit oft Open-Source-Technologien gegenüber proprietären Werkzeugen.

Der Data Engineer: Mehr als nur Daten aufbereiten

Ksenia Tomak arbeitet als Data Engineer bei Dodo Pizza und ist in dieser Rolle für alle analytischen Datenflüsse verantwortlich. Ein Data Engineer ist jedoch nicht für alle analytischen Datenflüsse zuständig. Sie werden benötigt, wenn wiederholende Datenflüsse automatisiert werden sollen.

Meistens werden sie mit Datenextraktion, -transformation und -übermittlung in Verbindung gebracht. Viele sagen, dass sie nur Daten für Machine Learning-Ingenieure und Data Scientists vorbereiten, aber das ist nicht das ganze Bild. Manchmal bereiten sie Daten für Dat? Analysts, Product Owner und manchmal für Entwickler vor. Es spielt keine Rolle, wer der Kunde ist, aber was wirklich zählt, ist, dass diese Person Erkenntnisse aus Daten gewinnen möchte.

Die zweite wichtige Sache in dem Verantwortungsbereich ist die Dateninfrastruktur. Technologien, Tooling, Architektur, Sicherheit und so weiter. Der dritte Punkt ist CI/CD, egal ob es sich um Datenfluss oder zum Beispiel ML-Modelle handelt und last but not least, natürlich die Datenqualität. Ein Data Engineer braucht Programmierkenntnisse, Systemdesign, Storage Engines, Datenmodellierung, Datenverarbeitung, Data Warehouse Architektur, Monitoring. Fast immer werden auch Fähigkeiten in Python oder Scala, T-SQL, Kafka und Kenntnisse über verteilte Systeme gefordert.

Tools sind austauschbar

Die Tools sind abhängig von der Firma und den Aufgaben. In der Regel verarbeiten Data Engineers Daten. An manchen Stellen werden Datenflüsse auf Python-Skripten aufgebaut, irgendwo ist es Airflow und Python, irgendwo ist es Spark, Spark Streaming, Flink und so weiter. Bei der Orchestrierung arbeiten sie mit Airflow, Luigi und anderen. Bei den Datenspeichern kann das MPP, Hadoop, Greenplum, Vertica, ClickHouse, MSSQL oder seine Derivate, MongoDB, Redshift und so weiter sein. Einfach ein Speicher, der ihre Probleme löst. Überwachung/Alarmierung: Prometheus, Grafana und so weiter.

Data Scientists können ohne Data Engineers nicht arbeiten, beide Berufe sind untrennbar miteinander verwoben und stehen Frauen genauso wie Männer frei. Beide sind derzeit so gefragt wie nie und das Tätigkeitsfeld steht erst noch am Anfang. Es wird spannend sein zu sehen, wie sich die beiden Berufsfelder in den kommenden Jahren entlang der IT-Trends wie künstlicher Intelligenz und Machine Learning weiterentwickeln. (rhh)

Databricks