„Wissen ist Macht“: Nie war dieser Satz gültiger als heute, da Unternehmen mehr und mehr den Wert von Informationen – sowohl diejenigen in den Köpfen der Mitarbeiter als auch die im Netzwerk befindlichen – für ihren erfolgreichen Fortbestand erkannt haben. Unternehmensrelevante Informationen bilden die Grundlage für alle wichtige Entscheidungen – wie beispielsweise in den Bereichen Marketing, zielorientierte Geschäftsführung sowie CRM. Solche Grundlagen werden heute mit moderner Data Warehouse-Technologie geschaffen. Es handelt sich nicht mehr nur um die Auswertungssysteme mit Standardberichten, sondern um weiterentwickelte, flexible, visuelle und benutzerfreundliche Systeme für eine effiziente Entscheidungsvorbereitung.
Alle Daten unter einem Dach
Unter einem Data Warehouse versteht man im Allgemeinen einen unternehmensweiten Datenbestand, aus dem entscheidungsrelevante Informationen schnell und gezielt bereitgestellt werden. Diese Daten werden üblicherweise als redundanter und verdichteter Extrakt aus den operativen und gegebenenfalls externen Datenbanken vorgehalten. Dabei werden die Daten nach festgelegten Regeln aktualisiert, oder aber für die Auswertung wird direkt auf die operativen Daten zugegriffen.
Ein sehr wichtiger Aspekt in diesem Zusammenhang ist das Befüllen des Data Warehouses mit unternehmensweiten Daten, die normalerweise aus ganz unterschiedlichen Systemen kommen. Diese Daten müssen zuvor bereinigt, konsolidiert, aggregiert und geladen werden. Dies geschieht im Rahmen des Extraktions-, Transformations- und Lade-Prozesses (ETL).
Der ETL-Prozess wird heute häufig mit Hilfe von ETL-Tools realisiert.
Am Beispiel der Genio-Suite von Hummingbird werden die allgemeine Vorgehensweise sowie einige praktische Realisierungsaspekte erläutert.
Genio-Architektur:
Das Hub-and-Spoke-Design stellt die Grundlage dieser Architektur dar. Der Datenfluss findet grundsätzlich nur zwischen Hub (Genio Information Broker) und Spokes (Datenquellen und -zielen) statt. Dieser Ansatz vermeidet ein „Schnittstellenchaos“ in einer heterogenen Umgebung und ermöglicht den Unternehmen die volle Kontrolle über den Datenfluss und die Abläufe.
Der Genio Information Broker übernimmt die Hub-Funktion in einem Data Warehouse und besteht aus mehreren Komponenten, die speziell für die einzelnen Aufgabenbereiche konzipiert wurden.
Transparenz und Flexibilität
Üblicherweise kommen die Daten für ein Data Warehouse aus einer Vielzahl von Systemen. Es handelt sich um ERP-, CRM-, Mainframe oder speziell entwickelte Applikationen, die auf unterschiedlichen Hardware-Plattformen laufen und verschiedene Datenbanken verwenden. Darüber hinaus müssen auch die Daten integriert werden, die in Form von Text-, Excel- oder XML-Dateien vorliegen. Als Zielsystem fungiert normalerweise ein Data Warehouse oder Data Mart auf Basis einer relationalen oder multidimensionalen Datenbank.
Da die Lösung für den Einsatz in einer heterogenen Umgebung konzipiert wurde, unterstützt das Tool nahezu alle gängigen relationalen Datenbanken (von DB2 bis Oracle, Sybase oder Informix). Darüber hinaus ist das Befüllen der multidimensionalen Datenbanken wie Hyperion Essbase oder Oracle Express möglich. Der Zugriff auf Mainframe-Daten wird durch den Einsatz von Partnerprodukten (z.B. DETAIL von Striva Corporation) ermöglicht.
Bei vielen der erwähnten Datenbanken stellt Genio nicht nur ODBC-, sondern auch „Native“-Zugriff zur Verfügung. Für viele Unternehmen mit hohen Performance-Anforderungen ist dieses Feature von entscheidender Bedeutung.
Oftmals ist es bei der Realisierung von Data Warehouse-Projekten erwünscht, für die Befüllung des Data Warehouses (insbesondere für das so genannte „Initial Load“) die Load Utilities des jeweiligen Datenbankherstellers zu verwenden. Ab der Version 5.0 wurde die Palette von Datenbanken, die auch auf diese Weise unterstützt werden, erweitert.
Wenn Quell- und Zielsystem dieselbe Datenbank verwenden, können die einzelnen ETL-Prozesse datenbankintern (ohne Verwendung der Engine) ablaufen. Die Vorteile bestehen in der maximalen Nutzung der Datenbank, der daraus resultierenden Performanzsteigerung sowie der Reduzierung der Netzbelastung.
Durch den Zugriff auf SAP R/3- und SAP BW-Daten wird die Integration auch dieser Daten in ein Data Warehouse ermöglicht und somit das Einsatzgebiet wesentlich erweitert.
Software-Entwicklung
Die Grundlage der Software-Entwicklung mit Genio bilden die Repository-Objekte. Der Umstand, dass Repository-Objekte und deren Beziehungen untereinander klar strukturiert sind, sowie die Gruppierung der Objekte aus funktioneller Sicht ermöglichen dem Entwickler einen schnellen Einstieg.
Die Struktur der einzelnen Datenobjekte (Tabellen und Views) kann aus dem jeweiligen System importiert oder bei Bedarf mit dem aktuellen Stand der Datenbank abgeglichen werden.
Die funktionellen Datenbankobjekte (gespeicherte Prozeduren und Funktionen) sowie externe Programme können ebenfalls in den ETL-Prozess integriert werden.
Eine Besonderheit des Produktes stellt die klare und durchgängige Konzeption des Transformationsprozesses dar.
Dem Entwickler steht eine Reihe von vordefinierten Objekten zur Verfügung, die für die Lösung der „Standardaufgaben“ vorgesehen sind. Es handelt sich z.B. um die internen Look-Up-Tabellen für Datenkonsolidierung und -mapping oder um Funktionen für die Prüfung der Datenintegrität.
Die Prozesse werden bei Genio aus den einzelnen Modulen gebildet. Jedes Modul ist eine überschaubare, leicht verständliche Transformationseinheit, die in Form eines Baums dargestellt wird. Die Baumknoten sind bekannte Operationen für Schleifenbildung (z.B. „ForEach“, „While“), Vergleich („If“), DB-Operationen (z.B. „Insert“, „Update“) etc. Die einzelnen Operationen können parametrisiert werden. Die Verwendung von internen und benutzerdefinierten Funktionen (z.B. für String- und Datumsmanipulationen etc.) ermöglicht die Implementierung komplexer Transformationen.
Bei der Prozessdefinition kann ebenfalls eine komplexe Ablauflogik implementiert werden, die in der neuen Version 5.0 auch grafisch darstellbar ist.
Ein besonders wichtiges Feature ist die automatische Impact-Analyse. Die Abhängigkeiten zwischen den Objekten werden bei jeder Objektänderung überprüft und aktualisiert. Es hilft dem Entwickler, den Überblick über den aktuellen Stand des Projektes zu behalten und Fehler zu vermeiden.
Ab Version 5.0 verfügt die Software über ein offenes XML-basiertes Repository. Das Repository kann somit im XML-Format exportiert werden. Auf diese Weise können die im Genio-Repository erfassten Metadaten von den anderen XML-fähigen Werkzeugen (z.B. ETL- oder CASE-Tools) eingelesen und verwendet werden.
„Alles in allem ist Genio ein klar konzipiertes, ausgereiftes und sehr flexibles ETL-Tool“, erklärt Eugen Mohela, Senior Consultant bei Hummingbird. „Dieses Tool ermöglicht einen schnellen Einstieg, produktive Software-Entwicklung und kontrollierbaren Projektablauf in einem heterogenen Data Warehouse-Umfeld.“
Repository
Das Repository ist eine zentrale, strukturierte Sammlung aller für ein Data Warehouse (DW) relevanten Metadaten. Die Metadaten beschreiben die Struktur der eigentlichen Daten in einem DW, ihren Ursprung, die Transformationen und die Verwendung, die Konsolidierungs- und Verdichtungsmechanismen sowie die Abläufe etc. In einem modernen DW spielt das Repository eine zentrale Rolle – nicht nur aus technischer, sondern auch aus organisatorischer Sicht. Es stellt den DW-Benutzern die Informationen zur Verfügung, die sie für ihre tägliche Arbeit mit dem DW benötigen.
Das Genio Repository wird in einer relationalen Datenbank gespeichert und ist aus diesem Grund weitgehend unabhängig von Datenbankherstellern.
Designer
Mit Hilfe von Genio Designer werden die einzelnen Repository-Objekte, Transformationen und Prozesse definiert und verwaltet. Mit diesem Werkzeug können zusätzlich die Dokumentation erzeugt sowie die Abläufe und Transformationen grafisch dargestellt werden.
Engine
Die Genio Engine ist die Komponente für den physikalischen Datentransfer und die Daten-Transformation. Die Engine basiert auf dem Repository und führt die dort definierten Prozesse aus. Es handelt sich um eine typische Server-Komponente, die normalerweise über den Scheduler gesteuert wird. In einem Unternehmen mit größeren Datenvolumina oder höheren Anforderungen an Systemperformanz können mehrere Engines parallel eingesetzt werden.
Scheduler
Der Scheduler übernimmt die zeitliche Ablaufsteuerung und rundet damit das Profil von Genio Information Broker ab. Diese flexible prozess- und eventbasierte Komponente bietet den Systemadministratoren ein leistungsfähiges Tool für die Verwaltung der Produktionsumgebung.
Met@data
Mit Genio Met@data-Komponenten werden sowohl die technischen als auch die organisations- und geschäftsbezogenen Metadaten erfasst und den einzelnen Organisationseinheiten zur Verfügung gestellt. Die Intranet-Fähigkeit erweitert das Einsatzgebiet dieser Komponenten und erhöht damit die Transparenz der Abläufe sowie die Akzeptanz des Systems bei den Anwendern.
Hummingbird Communications GmbH
D–80339 München
Telefon: (+49) 089/747308-0
www.hummingbird.com