Data Warehouse
Ein Data Warehouse ermöglicht es Unternehmen, verschiedenste Daten zu kombinieren und zu analysieren. Alles Wissenswerte zum Data Warehousing und entsprechenden Systemen finden Sie auf dieser Seite!
Was ist ein Data Warehouse?
Bei einem Data Warehouse (kurz DWH) handelt es sich um ein Datenbanksystem, das speziell für betriebswirtschaftliche Analysen eingesetzt wird. Es kann Daten aus unterschiedlichen Quellen beziehen, zusammenführen, umwandeln, dauerhaft speichern und für nachgelagerte Analysesysteme zur Verfügung stellen.
Wofür braucht man ein Data Warehouse?
Ein Data Warehouse hat die Kernaufgabe, Daten bereitzustellen, um auf dieser Datenbasis solide unternehmerische Entscheidungen treffen zu können. Die Herausforderung liegt darin, dass die benötigten Informationen heute in unterschiedlichsten (internen und externen) Systemen vorliegen. Zudem sind die Daten unterschiedlich strukturiert - sie haben also verschiedene Formate.
Durch Data Warehousing ist es nicht nur möglich, diese Daten in einem zentralen System vorzuhalten. Sie lassen sich auch in eine einheitliche Struktur transformieren und anschliessend kombinieren. Somit entsteht eine konsistente Sicht auf die Quelldaten. Mit dieser ganzheitlichen Betrachtungsweise lassen sich Zusammenhänge besser erkennen und fundierte Management-Entscheidungen ableiten.
Relevant ist Data Warehousing zudem für Ad-hoc-Analysen. Hierbei wird eine Technik namens Online Analytic Processing (OLAP) eingesetzt. OLAP ermöglicht die Verdichtung und Auswertung von Daten. Ein Beispiel ist die Summierung sämtlicher Umsätze eines bestimmten Produkts innerhalb einer Verkaufsregion.
Die zweite wichtige Aufgabe von Data Warehouses liegt in der Trennung von operativen Daten von Analysedaten. Reports und Analysen müssen hierdurch nicht in einem operativen System (meist ERP) durchgeführt werden. Vielmehr werden sie in einen separaten Bereich verlagert. Dies entlastet das Quellsystem und vermeidet Performance-Engpässe.
Ist Data Warehouse eine Software, ein Server oder eine Datenbank?
Data Warehouses sind keine Server-Hardware. Auch sind sie keine Datenbanken im klassischen Sinne. Vielmehr handelt es sich um Software-Lösungen, die aus mehreren Komponenten (Schichten) bestehen. Die Data-Warehouse-Architektur stellt sich wie folgt dar:
- Quellsysteme (operative Systeme): stellen Quelldaten als Datenbasis bereit
- Data Staging Area: extrahiert, strukturiert, transformiert und lädt die Daten aus den Quellsystemen; transportiert die Daten in die eigentliche DWH-Datenbank (das Datenlager)
- Data Presentation Area: separater Bereich für den Datenzugriff durch nachgelagerte Systeme
- Data Access Tools: Anwendungen für den Datenzugriff
Eine besonders wichtige Aufgabe hat die Data Staging Area. Sie basiert meist auf dem ETL-Prozess, den wir im Folgenden kurz beschreiben möchten.
Der ETL-Prozess im Data Warehouse
Um Rohdaten aus unterschiedlichen Quellen in ein einheitliches Format zu überführen, müssen sie umgewandelt werden. Dies erfolgt beim Data Warehousing üblicherweise im Rahmen des sogenannten ETL-Prozesses. ETL steht für Extract (Extrahieren), Transform (Transformieren) und Load (Laden).
Bei der Extraktion werden die Daten aus den Quellsystemen bezogen. Durch die Transformation erfolgt eine Bereinigung und Vereinheitlichung. Im letzten Schritt (Load) werden die Daten dann in die Zieldatenbank überführt. Um die Daten aktuell zu halten, wird dieser Prozess in regelmässigen Abständen erneut durchlaufen. In den letzten Jahren hat sich hierbei die Echtzeitbeladung immer stärker durchgesetzt.
Data Warehouse im Vergleich zu verwandten Lösungen
Ein Data Warehouse wird immer wieder mit ähnlichen Anwendungen verwechselt. Hierzu zählen insbesondere herkömmliche Datenbanken, Data Marts, Data Lakes und das Data Mining. Um die Begriffe abzugrenzen, möchten wir sie im Folgenden gegenüberstellen.
Data Warehouse vs. Datenbank (Database)
Im Gegensatz zu klassischen Datenbanken sind Data Warehouses auf die Analyse grösserer Datenmengen ausgelegt. Datenbanken sammeln Daten für unterschiedliche Verarbeitungszwecke und optimieren Sie für den Lese- und Schreibzugriff. DWHs aggregieren, transformieren und speichern Transaktionsdaten hingegen für Analysezwecke. Im Fokus steht der Zugriff auf grosse Datensätze.
Data Warehouse vs. Data Mart
Teils werden Data Warehouses auch mit Data Marts verwechselt. Data Marts sind jedoch nur eine Teilansicht eines Datenbestandes. Sie werden dafür genutzt, einen Teilbereich der Gesamtdaten definierten Nutzern für bestimmte Anwendungszwecke bereitzustellen. Im Vergleich zur Bereitstellung des gesamten Datenbestandes ist dieser Ansatz deutlich schneller.
Häufig setzt sich ein Data Warehouse aus mehreren Data Marts zusammen. Es existieren jedoch auch Data Marts, die unabhängig von einem DWH erstellt und genutzt werden.
Data Warehouse vs. Data Lake
Das klassische Data Warehouse ist in erster Linie auf die Erschliessung und Bereitstellung strukturierter Daten zugeschnitten. Diese stammen überwiegend aus SQL-Datenbanken. Im Zuge von Big Data ist es jedoch erforderlich, auf vielfältigere Informationen zuzugreifen, welche oftmals in unstrukturierter Form vorliegen. Zudem sind die Datenbestände deutlich grösser.
Aus diesen Gründen ist das Konzept des Data Lakes entstanden. Es kann als Ergänzung von Data Warehouses bezeichnet werden und ermöglicht es, DWHs zu einer Big-Data-Analyselösung auszubauen. Data Lakes sind für die Sammlung enormer Datenmengen ausgelegt. Gleichzeitig können sie verschiedenste - auch unstrukturierte - Datenformate speichern.
Allerdings erfolgt die Speicherung in Data Lakes ausschliesslich im Rohformat. Die Transformation erfolgt erst im Bedarfsfall. Teils sind hierfür - anders als beim Data Warehousing - Spezialkenntnisse von Data Scientists erforderlich.
Data Warehouse vs. Data Mining
Mit Data Mining lassen sich Zusammenhänge und Muster aus vorliegenden Daten extrahieren. Grundsätzlich lässt sich dieser Vorgang mit jeder herkömmlichen Datenbank durchführen. Soll jedoch sichergestellt sein, dass ausschliesslich qualitätsgeprüfte Daten herangezogen werden, empfiehlt sich ein Data Mining auf Basis von Data-Warehouse-Daten. Sind die Datenmengen für das Data Mining so gross, dass Speicherressourcen an ihre Grenzen stossen, können Unternehmen alternativ auch Data Marts als Datenquelle nutzen.
Welche Aspekte sollte ein Data-Warehouse-Konzept umfassen?
Bei der Erstellung eines Data-Warehouse-Konzepts sind sowohl betriebswirtschaftliche als auch technische Aspekte zu beachten. Aus betriebswirtschaftlicher Sicht sollten folgende Fragestellungen aufgegriffen werden:
- Welche Informationen sollen in die zentrale Datenhaltung überführt werden?
- Welche Verdichtungsstufe ist notwendig?
- Welche Mitarbeiter sollen auf die Daten zugreifen können?
- Welche Definition haben die Kennzahlen und aus welchen Werten setzen sie sich zusammen?
Aus technischer Sicht muss das Konzept mit dem Ziel erarbeitet werden, die Daten aus den unterschiedlichen Quellen systematisch zu einer gemeinsamen Datenbasis zusammenzuführen. Hierfür sind periodisch oder in Echtzeit Verbindungen zu den Datenquellen aufzubauen. Diese Konnektoren müssen exakt beschrieben werden. Gleiches gilt für die Aufbereitungsmechanismen und die angestrebte Datenqualität.
Im Optimalfall wird mit der Konzeption erreicht, dass mit der Einführung des Data Warehouse ein „Single Point of Truth“ für Daten entsteht. Das heisst, dass in sämtlichen Reports und Auswertungen unabhängig von der Abteilung keine abweichenden Zahlen mehr vorkommen können.
Zu planen sind ausserdem die folgenden technischen Komponenten einer Data-Warehouse-Architektur:
- Komponenten (Rechenressourcen) für den ETL-Prozess
- Speicherplatz für die Rohdaten
- Unterteilung in Data Marts
- Speicherplatz für die Langzeitarchivierung der Daten (Datensicherung, Wiederherstellung)
- Datenbanksystem für Metadaten
Welche Data Warehouse Tools gibt es?
Im Hinblick auf Tools für das Data Warehousing sind kommerzielle Systeme und frei verfügbare Tools (Open Source) zu unterscheiden. Die Open-Source-Lösungen decken jedoch oftmals nicht die gesamte 5-Schichten-Architektur (Datenquelle, Datenerfassung, Datenhaltung, Datenanalyse, Datenpräsentation) ab. Sie müssen daher miteinander kombiniert werden, um ein vollständiges Data-Warehouse-Konzept abzubilden.
Weiterhin kann zwischen On-Premise- und Cloud-Lösungen unterschieden werden. Immer mehr Unternehmen gehen mittlerweile dazu über, ihre Datenhaltung sowie ihre Data Warehouse Tools in die Cloud zu verlagern. Dies erfolgt insbesondere aus Gründen der Flexibilität, der Skalierbarkeit, der ortsunabhängigen Zugriffsmöglichkeiten und der teamübergreifenden Kollaboration. Beispiele für beliebte Cloud-Angebote sind Google BigQuery, Amazon Redshift, Snowflake und Microsoft Azure SQL Data Warehouse. Auch ERP-Anbieter wie SAP haben mittlerweile cloudbasierte DWH-Software im Portfolio.
Welche Data-Warehouse-Lösungen bietet SAP an?
SAP bietet im Bereich Data Warehousing mehrere Lösungen an, mit denen Unternehmen eine verbindliche, zentrale Datenquelle realisieren können. In der neuesten Produktgeneration sind dies folgende Systeme:
- SAP HANA
- SAP BW/4HANA
- SAP Data Warehouse Cloud
Alle drei Lösungen ermöglichen die Integration von Daten aus SAP- und Non-SAP-Systemen. Davon abgesehen unterscheiden sich die Systeme jedoch in ihrer Zielgruppe und ihrem Ansatz. Betrachten wir sie daher genauer.
SAP HANA (als Data Warehouse)
Die hochperformante In-Memory-Datenbank SAP HANA wird für zahlreiche Anwendungsfälle eingesetzt - so auch als „In-Memory Data Mart“. Im Gegensatz zu traditionellen Data Warehouses lassen sich Reports mit HANA um den Faktor 100 bis 1.000 beschleunigen. Zudem eignet sich die Technologie zum Einsatz in Verbindung mit der Business-Intelligence-Lösung SAP Business Warehouse.
Als DWH eignet sich SAP HANA insbesondere für Unternehmen, die eine flexible, anpassbare Lösung suchen, hohe Performance benötigen und fortschrittliche Auswertungen durchführen möchten. Das System kann wahlweise lokal oder in der Cloud bereitgestellt werden.
SAP BW/4HANA
Auch SAP BW/4HANA basiert komplett auf der In-Memory-Datenbank HANA. Allerdings liegt der Fokus insbesondere auf der Verarbeitung sehr grosser Datenmengen in Echtzeit. Unter anderem lassen sich mit BW/4HANA Daten aus SAP-Systemen und Drittsystemen sowie Geodaten, Sensordaten (IoT), Hadoop-Daten und unstrukturierte Daten live analysieren. Somit eignet sich die DWH-Lösung beispielsweise für folgende Szenarien:
- Manuelle und automatisierte Forecasts im Finanzbereich
- Analyse von Massendaten aus IoT-Sensoren
- Vorausschauende Analysen (Predictive Analytics)
- Analysen, Prognosen und Prozessautomatisierungen auf Basis künstlicher Intelligenz (Data Mining, Cognitive Computing)
SAP BW/4HANA ist der Nachfolger des klassischen SAP Business Warehouse. Anders als das Vorgängersystem ist BW/4HANA unabhängig von NetWeaver. Die Datenmodellierung wurde mit dem Werkzeug „Data Flow Modeler“ stark vereinfacht. Auch BW/4HANA kann wahlweise On-Premise oder in der Cloud betrieben werden.
SAP Data Warehouse Cloud
SAP Data Warehouse Cloud richtet sich an Unternehmen, die schnell und ohne hohe Kosten in das Data Warehousing einsteigen möchten. Es handelt sich um einen vollständig gemanagten Service, weshalb keine Investitionen in eigene Server-Hardware erforderlich sind.
SAP Data Warehouse Cloud stellt ebenfalls die erweiterten Funktionen von HANA bereit. Aufgrund der Skalierbarkeit können Unternehmen zunächst mit einer kleinen Umgebung starten und diese bei wachsendem Bedarf dann weiter ausbauen. Aufgrund der vielfältigen Konnektoren lassen sich alle gängigen Datenquellen (SAP und Non-SAP) integrieren. Die bereits mitgelieferten Vorlagen erleichtern die Datenintegration in das Cloud Data Warehouse zusätzlich.
Emre Cetin, Sales Executive
Haben Sie Fragen? Ich helfe gerne weiter.+41 41 784 19 31