Die Unity Catalog-Funktionalität ermöglicht Anwendern die zentrale Erkennung, Abfrage und Verwaltung aller Daten, unabhängig davon, wo sie gespeichert sind.

Auf dem Data + AI Summit kündigte Databricks Lakehouse Federation-Funktionen an, die es Unternehmen ermöglichen, eine hoch skalierbare und leistungsfähige Data-Mesh-Architektur mit einheitlicher Governance zu schaffen. Diese Funktionen vereinen bisher getrennte Datensysteme unter der Databricks Lakehouse Platform.

Mit Hilfe des Lakehouse Federation in Unity Catalog lassen sich Daten über alle ihre Datenplattformen hinweg von Databricks aus erkennen, abfragen und verwalten, ohne dass die Daten zuvor verschoben oder kopiert werden müssen. Mit dieser Version verschwinden die Datensilos innerhalb eines Unternehmens und die Kunden können die Analysefunktionen ihres einheitlichen Lakehouses erweitern.

In den meisten Unternehmen sind die Daten über viele operative und analytische Systeme verstreut. Diese Fragmentierung erschwert es den Datenteams, verfügbare Informationen zu finden, und den Compliance-Teams, eine konsistente Governance aufrechtzuerhalten. Darüber hinaus ist es kostspielig und zeitaufwändig, diese Daten zu kombinieren, da die Integrationsprozesse von einer komplexen Datentechnik abhängen, die die Datenverfügbarkeit verzögert und letztlich die Innovation bremst.

Neue Funktionen innerhalb von Unity Catalog adressieren diese kritischen Punkte und machen es für Unternehmen einfach, Silo-artige Datensysteme als Erweiterung ihres Lakehouse darzustellen und zu verwalten. Zu den Funktionen gehören:

  • Query Federation: Neue Katalog- und Abfragefunktionen ermöglichen es Kunden, alle ihre Datenbestände von verschiedenen Plattformen außerhalb Databricks mühelos zu konsolidieren und abzubilden, einschließlich MySQL, PostgreSQL, Amazon Redshift, Snowflake, Azure SQL Database, Azure Synapse, Googles BigQuery und mehr. Benutzer können nun alle ihre Daten über eine einzige Schnittstelle entdecken, sichern, prüfen und darauf zugreifen, mit einer vereinfachten und einheitlichen Erfahrung. Erweiterte Abfrageplanung und Caching sorgen für eine optimale Abfrageleistung, selbst wenn mit einer einzigen Abfrage auf mehrere Plattformen zugegriffen wird.
  • Governance über Databricks hinaus: Mit Unity Catalog profitieren Kunden von konsistenten Zugriffsrichtlinien auf Tabellen, Zeilen, Spalten und Tags für alle in Unity Catalog registrierten Datenbestände. In Zukunft werden Kunden auch in der Lage sein, Datenzugriffsrichtlinien in Unity Catalog zu definieren und diese Richtlinien nahtlos an andere Data Warehouses weiterzugeben, um eine konsistente Durchsetzung überall dort zu gewährleisten, wo auf Daten zugegriffen wird, wodurch die Notwendigkeit entfällt, redundante Richtliniendefinitionen zu pflegen.

Databricks kündigte außerdem kürzlich eine Hive Metastore (HMS)-Schnittstelle für Unity Catalog an, die es jeder Software, die mit Apache Hive kompatibel ist, ermöglicht, sich mit Unity Catalog zu verbinden. Jetzt können Unternehmen ihre Datenverwaltung, -erkennung und -verwaltung in Unity Catalog zentralisieren und von einer Vielzahl von Computerplattformen, einschließlich Amazon EMR, Apache Spark, Amazon Athena, Presto, Trino und anderen, darauf zugreifen. Die neue Schnittstelle macht die Pflege mehrerer Datenkataloge überflüssig und gewährleistet eine konsistente Datenverwaltung über diese Plattformen hinweg.

Die Kombination dieser Lakehouse Federation-Erweiterungen bietet Kunden eine konsistente Datenbereitstellungs- und Governance-Ebene für ihre Data-Mesh-Architektur, die eine verteilte Domänenzugehörigkeit ermöglicht und gleichzeitig komplizierte Datenintegrationsaufgaben reduziert, Speicherkosten für mehrere Kopien derselben Daten einspart und dazu beiträgt, die allgemeine Datensicherheit und Governance-Stellung zu verbessern. (rhh)

Databricks