Business-Manager brauchen Datenbanken, mit deren Hilfe sie Entscheidungen treffen können. Doch es ist ein weiter Weg, ehe Auswertung und Analyse von Geschäftsdaten beginnen können. Dazu müssen alle relevanten Informationen, die in vielen inkompatiblen Systemen, Datenbanken und Anwendungen gespeichert sind, in einem zentralen Data Warehouse zusammengefasst werden. Hier haben sich mittlerweile Tools durchgesetzt, die durch Extraktion, Transformation und Laden diese Aufgabe automatisieren und sogar in Echtzeit bewältigen. Echtzeitdaten sind der „Motor im Business“ und für die operative Geschäftsführung unerlässlich. Deshalb wird heute das Data Warehouse der meisten Unternehmen täglich auf den neuesten Stand gebracht. Doch immer mehr Anwender stellen fest, dass Informationen, die einen Tag alt und für viele Anwendungen aktuell genug sind, für operative Entscheidungen nicht taugen, da sie bereits überholt sind. Deshalb muss gewährleistet sein, dass Daten, die aus CRM-, SCM- und Finanz- sowie aus Sicherheits-Anwendungen stammen, in einem Data Warehouse in Echtzeit bereitgestellt werden. Anwender stoßen jedoch bei dem Vorhaben, ein Real-Time-Data-Warehouse zu implementieren, schnell auf neue, gänzlich unerwartete Schwierigkeiten.
Extrahieren, Transformieren und Laden in Echtzeit
Das Hauptproblem besteht darin, die Daten in Echtzeit in ein Data Warehouse zu laden. Bei vielen der heute eingesetzten ETL- (Extrahieren, Transformieren, Laden-) Tools finden diese Prozesse nur einmal im Monat oder wöchentlich, und dann nachts statt. Wollen Anwender nun die Anzahl der Replikationen erhöhen, ist es nicht damit getan, die Frequenz einfach per Knopfdruck zu steigern.
Denn die meisten Tools arbeiten als Batch-Programme in drei aufeinanderfolgenden Schritten: Zuerst werden Daten extrahiert, dann transformiert und anschließend geladen. Diese Technik ist vollkommen ausreichend, sofern den Anwendern dafür nachts einige Stunden zur Verfügung stehen und das Data Warehouse offline ist. Ganz anders sieht es allerdings aus, wenn diese Vorgänge auch während der Arbeitszeit stattfinden sollen. Zur Lösung dieses Problems gibt es zwei technologische Ansätze, die praktikabel sind, sich jedoch in punkto Aktualität der Daten unterscheiden – dem eigentlichen Knackpunkt bei geschäftskritischen Anwendungen.
Replizieren – aber wann?
Bei der ersten Methode setzen Anwender zwar herkömmliche ETL-Tools ein, schrauben aber die Frequenz von wöchentlich oder täglich auf mehrmals täglich, beispielsweise auf stündlich hoch. Wenn sich dabei die Quelldaten extrahieren lassen, ohne Geschäftsprozesse zu stören, können diese anschließend dann wie gewohnt transformiert werden. Der Ladevorgang in ein Data Warehouse gestaltet sich allerdings ein wenig problematisch, wenn sich das System für diesen Vorgang aus Geschäftsgründen nicht offline schalten lässt.
Die Lösung dafür besteht nun darin, die neuen Daten in temporäre Tabellen zu laden, die von der Struktur her identisch sind mit denen der Quelldaten. Sobald der Ladevorgang abgeschlossen ist, tauscht das ETL-Tool die jeweils vorangegangenen Tabellen gegen die nunmehr aktuellen Tabellen auch tagsüber aus. Das Data Warehouse befindet sich dann augenblicklich wieder auf dem neuesten Stand.
Echtzeit ist nicht immer gleich Echtzeit
Diese Methode, bei der annähernd ein Echtzeit-Zugang besteht, lässt sich mit fast jedem bereits bestehenden Data Warehouse einsetzen. Ein weiterer Vorteil ist dabei, dass herkömmliche ETL-Tools und Techniken verwendet werden können, um Daten stündlich oder zumindest mehrmals täglich zu aktualisieren.
Wenn Anwender jedoch zu jedem Zeitpunkt auf tatsächliche Echtzeit-Daten in einem Data Warehouse angewiesen sind, müssen die Quelldaten permanent darin einfließen. Diese Ladefähigkeit liegt allerdings außerhalb der Möglichkeiten traditioneller, Batch-orientierter CTF-Tools (Capture, Transform and Flow).
Hier kommt die zweite Methode ins Spiel: Die neue Generation von CTF-Programmen, die bereits auf dem Markt erhältlich sind, umgeht diese Problematik. Diese neuen Tools, zu denen beispielsweise der Transformation Server von DataMirror gehört, legen gewissermaßen eine direkte „Daten-Pipeline“ zwischen dem Quellsystem und dem Data Warehouse an und ermöglichen so einen echten Real-Time-Datenaustausch.
Direkte Peer-to-Peer-Integration
Die Peer-to-Peer-Architektur, die idealerweise in einem TCP/IP-Netz eingebunden sein sollte, sichert die direkte Datenbank-Kommunikation. Dadurch ist weder eine Zwischenspeicherung von Daten noch eine spezielle Gateway-Technologie erforderlich. Darüber hinaus gewährleistet sie einen optimalen und hocheffizienten Informationsaustausch zwischen Publish- und Subscribe-Systemen, also zwischen Quell- und Zieldatenbanken. In Folge davon wird die Informationsweitergabe an die Mitarbeiter maximiert.
Die permanente Synchronisation garantiert immer aktuelle Daten: Die für einen reibungslosen Geschäftsablauf nötigen Informationen stehen somit tatsächlich in Echtzeit zur Verfügung. Im Vergleich zu Lösungen, die eine kostenintensive Neuprogrammierung erforderlich machen, bietet ein CTF-Tool wie der Transformation Server eine leistungsfähige Integrationsmethode auf Datenebene, die sich einfach und reibungslos implementieren und in fast jeder Systemumgebung anwenden lässt.
Um Zeit und Kosten zu sparen, werden bei diesem permanenten Datenabgleich nur die Änderungen – das sogenannte Delta – erfasst und in das Subscriber-System übertragen. Die Netzwerkbelastung beläuft sich deshalb auf ein Minimum. So bleibt beispielsweise ein Data Warehouse stets auf dem neuesten Stand, und das bei einer Senkung des Leitungsverkehrs um bis zu 99 Prozent.
Die DataMirror-Technologie für Capture, Transform und Flow von Daten erkennt dabei die in der Datenbank vorgenommenen Änderungen automatisch und verarbeitet diese in Echtzeit. Ganz gleich, aus welcher Quelle die Daten kommen: Der Transformation Server stellt sie dem Data Warehouse in optimierter Form zur Verfügung, indem er Datenbestände aus den Produktivrechnern so konsolidiert, dass sofort gezielte Auswertungsprozesse möglich sind.
Der Vorteil der Echtzeit-Datenintegration besteht darin, wesentlich schneller Entscheidungen treffen zu können, den Kundenservice auffallend zu verbessern und dadurch eine bemerkenswerte Ertragssteigerung zu erzielen. Deshalb tun viele Unternehmen gut daran, relevante Daten in echter Real-Time-Technologie vorzuhalten. Professionelle CTF-Tools synchronisieren dabei Daten in heterogenen Netzwerken über unterschiedliche Datenbanken hinweg. Sie selektieren Daten und transformieren sie in die benötigte Form, garantieren stets die aktuelle Konsistenz der Information und eröffnen Möglichkeiten für die globale Anwendungsintegration.
Vorteile der Datenintegration mittels professioneller CTF-Tools auf einen Blick:
– Out-of-the-Box-Integrationslösung, die keinerlei zusätzliche Programmierung erfordert
– Informationsaustausch in Echtzeit, auch über Unternehmensgrenzen hinweg
– Flexibilität und Anpassungsfähigkeit an praktisch jede Netzwerkumgebung
– Schnelle Implementierung und niedrige Wartungskosten zur Maximierung des ROI
– Steigerung der operativen Effizienz und Optimierung der Organisationsabläufe
– Erhöhung des Informationsflusses zur Verbesserung der Serviceleistungen
– Enorme Ertragserhöhung und Senkung der Unternehmenskosten
DataMirror GmbH & Co. KG
D–64295 Darmstadt
Telefon: (+49) 06151/8275-100
www.datamirror.com