Automatische Data Warehouse Generierung wird immer mehr zum Trend. Die offensichtlichen Vorteile sind u.a. schnellere Lieferzeiten, geringere Kosten für die Entwicklung und zukünftige Flexibilität. Für viele Unternehmen ist es nicht mehr akzeptabel, mehrere Monate oder sogar Jahre auf die Vollendung eines Business Intelligence – Projekts zu warten. Inzwischen gibt es einige Data Warehouse Automatisierungstools auf dem Markt. Diese sind meistens mit Lizenzkosten verbunden, bieten dabei aber nicht den gleichen Funktionsumfang. Ich habe mir einige Tools angeschaut und deren Möglichkeiten verglichen. Folgende Fragestellungen haben sich dabei als Vergleichskriterien herauskristallisiert.
Was wird automatisiert?
Wenn man ein Automatisierungstool im Unternehmen einführt, wünscht man sich eine Minimierung des manuellen Aufwandes. Kosten für Consultingleistung sollen signifikant sinken und Ergebnisse viel schneller und sicherer erreicht werden. Aber was sind die Tools tatsächlich imstande zu liefern? Wird das Datenmodell automatisch generiert? Wie sieht es mit der technischen Dokumentation aus? Welche Tools braucht man zusätzlich?
Wieviel muss man noch manuell machen?
Automatisierung ist nicht gleich Automatisierung. Einige Tools liefern fertige Templates bzw. integrierte Generierungsmöglichkeiten mit. Bei anderen sind nur rein technische Schritte automatisiert, die Modellierung dazwischen muss immer noch manuell erfolgen. Wieviel Personal wird dann immer noch benötigt?
Welche Architekturen werden unterstützt?
Dritte Normalform? Star Schema? Data Vault? Welche Architektur ist die richtige für mein Data Warehouse? Werden sich die Anforderungen zukünftig ändern oder erweitern? Nicht alle Tools liefern die Flexibilität alle genannten Architekturen, evtl. auch gleichzeitig, zu verwenden.
Welche DB Plattformen werden unterstützt?
Viele Data Warehouse Automatisierungswerkzeuge beschränken sich auf nur eine Zieldatenbankplattform, während andere unterschiedliche Datenbanksysteme unterstützen. Möchte man in der Zukunft das Data Warehouse auf eine andere Datenbankplattform migrieren, sollte das Tool diese Option unterstützen.
Unten habe ich die angebotenen Funktionalitäten von vier gängigen Tools zusammengefasst:
Quipu (*zahlungspflichtig) |
WhereScape | AnalytiX DS | AttunityCompose (BIReady) |
|
Generierung | DB Modell ETL Code Dokumentation* Modellversionierung* |
DB Modell Indizes ETL Code Dokumentation Scheduling Versionierung |
ETL Jobs Dokumentation |
DB Modell ETL Code |
Manueller Aufwand | Viele Optionen nur in zahlungspflichtiger Version erhältlich | Datenbankmodell muss erstellt werden | Unterstützt CDC-Anbindung | |
Architekturen | Data Vault Templates* |
Data Vault 3NF Dimensional Gemischt |
Templates | Data Vault 3NF Dimensional |
Datenbanken/ ETL Tools |
ANSI SQL XML |
SQL Server Teradata Oracle IBM DB2 Netezza |
Datastage Informatica SSIS Talend ODI BODS (SQL Server Oracle) |
SQL Server Oracle DB2 Teradata Netezza |
Die abgebildete Tabelle zeigt, wie unterschiedlich die Antworten ausfallen können. Jedes Tool hat seine Stärken, welches aber das richtige ist hängt immer von den jeweiligen Anforderungen ab. Viele ETL Werkzeuge liefern aber auch eingebaute Generierungssprachen mit, wie Groovy bei ODI oder PowerCenter Script bei Informatica. Ich kann mir durchaus Projektsituationen vorstellen, bei denen eine (teilweise) Data Warehouse Automatisierung ohne ein zusätzliches Automatisierungstool sinnvoll möglich ist. Wie immer gibt es viele Wege, die zum Ziel führen. Den richtigen für den jeweiligen Kunden zu finden bleibt trotz Automatisierung eine spanende manuelle Aufgabe.