Data Engineering

Definition & Bedeutung

Data Engineering, manchmal auch Information Engineering genannt, ist ein Teilbereich der Data Science. Der Aufgabenbereich des Data Engineering ist das Bereitstellen von Daten. Es geht also darum, Datenbanken und Systemarchitektur zu erstellen, spezifische Anwendungen zu konzipieren oder auch Schnittstellen zu konfigurieren. All das mit dem Ziel, möglichst genaue Daten zu haben, die für Vorhersagen und andere Analysen nutzbar sind. Ein Data Engineer könnte also verantwortlich dafür sein, Kundendaten zu sammeln und sie für eine künstliche Intelligenz bereitzustellen, die Kundenabwanderung vorhersagen kann.

Wie funktioniert Data Engineering?

Data Engineering arbeitet für gewöhnlich mit sogenannten Data Pipelines, mit denen Informationen aus verschiedenen Quellen gesammelt wird. Eine Data Pipeline ist eine Sammlung von Tools und Prozessen, mit denen Daten von System zu System bewegt, und weiter bearbeitet werden kann. Dabei spricht man von den ETL Operations:

  • Extraktion von Daten aus Quellen,
  • Transformation von Daten für ihren jeweiligen Zweck und
  • Laden der transformierten Daten in die Zieldatenbank – auch Data Warehouse genannt.

Aufgrund der Größe der Datenbanken können Probleme mit Geschwindigkeit, Korruption der Daten, Duplikation oder Inkompatibilität auftreten. Ein Data Engineer ist verantwortlich dafür, solche Probleme zu lösen oder zu verhindern.

Wofür braucht man Data Engineering?

Data Engineering ist unabdingbar bei großen Datenmengen. Datenanalyse für Big Data, zum Beispiel für Machine Learning oder KI, braucht saubere Daten. Dafür ist ein Data Engineer zuständig. Auch Cloud-Infrastruktur wird immer beliebter in modernen Unternehmen, damit relevante Daten in der Cloud von überall eingesehen und genutzt werden können. Sowohl das Einrichten als auch die Konfiguration der Cloud ist der Verantwortungsbereich des Data Engineering.

Was ist der Unterschied zwischen Data Science und Data Engineering?

Die Data Science beschäftigt sich mit der Analyse und Exploration von Daten, mittels verschiedener Methoden und Techniken aus Mathematik, Statistik oder auch KI. Data Engineering wird als Teilbereich der Data Science gesehen, ein Data Engineer beschäftigt sich allerdings nicht mit der Analyse, sondern mit den Arbeitsschritten davor: Datensicherheit, Datenschutz (ganz wichtig in der EU – DSGVO) und Datenqualität. Ein Data Engineer macht die Arbeit des Data Scientist möglich - ohne die Daten gesammelt zu haben, kann der Data Scientist nicht daran arbeiten.