Durchführung von Projekten in der Datenwissenschaft

Publiziert am: 05.07.2022
Autor: Alex Lavrynets

Jeder datenwissenschaftliche Prozess (z.B. ein Innovationsprojekt) kann in einzelne Schritte unterteilt werden, die von Fachleuten aus verschiedenen Bereichen durchgeführt werden. Ein besonders sorgfältiges Vorgehen bei jedem Schritt dieses iterativen Prozesses innerhalb eines Teams sorgt dafür, dass das Modell, das aus dem Prozess hervorgeht, effizient ist.

Die Datenwissenschaft plädiert für einen induktiven methodischen Ansatz (Bottom-up-Ansatz). Dabei wird ein allgemeines Phänomen auf der Grundlage der gesammelten beobachtbaren Daten erklärt.

Damit ein Projekt oder eine Analyse vervollständigt werden kann, ist eine iterative Reihe von Schritten nötig, aus denen der Prozess in der Datenwissenschaft besteht. Jedes Projekt in der Datenwissenschaft ist einzigartig, ebenso wie die Daten, die für seine Initialisierung und seinen reibungslosen Ablauf notwendig sind. Nachfolgend werden die wichtigsten Schritte des Prozesses erläutert:

Problemstellung

Die Problemstellung ist für die Initialisierung eines Prozesses in der Datenwissenschaft unerlässlich. Bei diesem Schritt muss die Problematik verstanden und erfasst werden. Die Person, die das Projekt initiiert, muss einen Überblick über die bestehenden Prozesse (business understanding) haben, damit sie die Problemstellung gezielt formulieren kann. Ein Dokument zur Projektsteuerung (z.B. Data Science Project Canvas) ermöglicht in dieser ersten Phase eine Bestandsaufnahme der Erwartungen, Bedürfnisse, Ressourcen und Risiken, die mit jedem Projekt in der Datenwissenschaft einhergehen.

Datenerhebung

Daten sind für jeden Prozess in der Datenwissenschaft massgebend. Die Quantität und Qualität dieser Daten wirkt sich auf die Ergebnisse eines jeden Projekts aus. Die enorme Datenmenge (Big Data), die im Rahmen des Projekts benötigt wird, kann aus verschiedenen Quellen gesammelt werden und lässt sich in strukturierte und unstrukturierte Daten unterteilen. Auch ihre Grösse und ihr Format können variieren. Beispielsweise kann es sich um Webseiten, Bilder, Texte, Geodaten, medizinische Daten oder Daten aus verschiedenen vernetzten oder isolierten Sensoren handeln. Aus den gesammelten Daten werden dann die Datensätze (Data Sets) zusammengestellt. Wenn es sich um sensible Daten handelt, unterliegt ihre Verarbeitung dem gesetzlichen Rahmen für den Datenschutz des Bundes.

Datenauswahl

Alle gesammelten Rohdaten müssen gründlich untersucht und sorgfältig ausgewählt werden, um ihre Qualität für den weiteren Prozess zu sichern. Ausreisser, die aufgrund von menschlichem Versagen oder wegen eines defekten Sensors nicht konform sind, können gemäss der ausgewählten Methodik herausgefiltert werden.

Datenaufbereitung

Nachdem die Daten sorgfältig ausgewählt wurden, müssen sie nach einer festgelegten Struktur aufbereitet werden. Durch die Aufbereitung werden sie für einen Algorithmus zugänglich und lesbar gemacht. Grosse Datensätze werden in der Regel nach den FAIR-Prinzipien aufbereitet, wonach sie auffindbar (findable), zugänglich (accessible), kompatibel (interoperable) und wiederverwendbar (reusable) sein müssen.

Datenanalyse

Dieser Schritt ermöglicht es, aus der Vielfalt der vorliegenden Daten jene zu identifizieren, die für die Problematik von Bedeutung sind, und Beziehungen zwischen ihnen herzustellen. Die Methoden der quantitativen und qualitativen Kausalanalyse können unter Zuhilfenahme von statistischen und mathematischen Analysetools sowie von moderneren, aus dem Bereich des maschinellen Lernens und der KI stammenden Tools angewendet werden. Dies bildet den Kern der Tätigkeit einer Datenwissenschaftlerin oder eines Datenwissenschaftlers (Data Scientist).

Auswertung und Interpretation der Daten

Die Ergebnisse aus der Datenanalyse liegen im Allgemeinen in Form von verknüpften und aggregierten Daten vor. Diese können evaluiert werden, um sicherzustellen, dass das gewählte Modell funktioniert und dem Bedarf der zu Beginn des Prozesses formulierten Problemstellung entspricht. Zusätzlich bietet die Interpretation der Daten die Gelegenheit, neue Perspektiven zu entdecken und den Prozess dadurch an zuvor möglicherweise unbekannte Bedarfe anzupassen.

Bereitstellung der Ergebnisse

Die Ergebnisse werden nun bereitgestellt. Dadurch wird die geleistete Arbeit nachvollziehbar. Diese Ergebnisse können als Ausgangspunkt für ein neues Forschungsprojekt im Bereich der Datenwissenschaft dienen oder zur Verbesserung des bestehenden Prozesses verwendet werden. Ein neuer datenwissenschaftlicher Prozess kann beginnen.

Bei der Durchführung von Projekten beschränkt sich das DSCC auf Lösungen in Form eines Minimum Viable Products (MVP), die in der Regel als Code in den Programmiersprachen R oder Python geliefert werden. Die Implementierung dieses Codes in die Produktion setzt den Zugang zu den vorhandenen Computersystemen und ein Verständnis für sie voraus (information technology, IT). Das Implementieren gehört nicht zum Kompetenzbereich des DSCC.

Legende der Abbildung:

Datenwissenschaft umfasst strenge, dokumentierte Prozesse der datengesteuerten Problemlösung und kontinuierlichen Verbesserung.