Data Lake mit Autonomous Database verwenden

Lernen Sie die Vorteile der Verwendung von Data Lake mit Autonomous Database kennen.

Data Lake mit Autonomous Database

Oracle Autonomous Database ist eine vielseitige Lösung für jede Art von Daten und Workload.

Autonomous Database bietet kosteneffizienten Speicher, wobei die Kosten pro TB mit Objektspeichern vergleichbar sind, während verschiedene Datentypen wie JSON, Graph und Vector unterstützt werden. Mit Autonomous Database können Unternehmen ihre Daten auf einer einzigen Plattform konsolidieren. Sie können konvergente Funktionen wie Oracle Machine Learning (OML), Graph, Spatial, Vector und Blockchain nutzen, um ihre Daten umfassend zu verwalten.

Für Unternehmen, die bereits vorhandene Data Lakes auf anderen Plattformen haben, kann Oracle Autonomous Database nahtlos integriert werden, sodass Unternehmen von den erweiterten Features von Autonomous Database profitieren können, ohne ihre aktuellen Setups zu unterbrechen.

Weitere Informationen finden Sie unter LiveLabs Data Lake mit Autonomous Data Warehouse erstellen.

Was ist ein Data Lake?

Data Lakes sind zentrale Repositorys, die große Mengen an Rohdaten in ihrem nativen Format speichern, bis die Daten für die Analyse benötigt werden.

Sie sind hochflexibel und skalierbar, was sie zu einer leistungsstarken Ergänzung zu herkömmlichen Data Warehouses macht, indem Unternehmen verschiedene Datentypen speichern und verarbeiten können, einschließlich strukturierter, halbstrukturierter und unstrukturierter Daten.

Schlüsselattribute eines Data Lake:
  • Datei- und Tabellenformate öffnen

    Data Lakes speichern Daten in offenen Dateiformaten wie CSV, Parquet und Tabellenformaten wie Iceberg. Dies gewährleistet Interoperabilität und Flexibilität bei der Datenverarbeitung, da mehrere Engines diese Datasets schreiben und lesen können.

  • Unterstützung für mehrere Datenverarbeitungs-Engines

    Data Lakes sind mit verschiedenen Datenverarbeitungs-Engines wie Apache Spark, Presto und Hive kompatibel und ermöglichen so verschiedene analytische Workloads.

  • Schema-on-Read

    Data Lakes verwenden häufig einen Schema-on-Read-Ansatz, d.h. es ist nicht erforderlich, ein Schema vorab zu definieren. Dies ermöglicht eine schnelle Datenaufnahme, bei der Daten ohne vorherige Strukturierung geladen werden können, ähnlich wie bei Objektspeichern, die "Daten jetzt erfassen und später Fragen stellen".

  • Unterstützung für unstrukturierte Daten

    Neben strukturierten Daten können Data Lakes unstrukturierte Daten wie Bilder (JPG), Dokumente (PDF, Word) und andere Binärdaten speichern und eine umfassende Speicherlösung bieten.

Wichtige Data Lake-Features von Autonomous Database

Oracle Autonomous Database wurde für die nahtlose Unterstützung von Data Lake-Workloads entwickelt, sodass keine Verwaltung oder Installation erforderlich ist. Sie bietet robuste Funktionen, um verschiedene Datenformate in verschiedenen Cloud-Umgebungen zu verarbeiten und eine flexible und umfassende Datenanalyse sicherzustellen.

Bereit für Data Lake-Workloads

Oracle Autonomous Database ist sofort einsatzbereit für Data Lake-Workloads, für die keine zusätzlichen Komponenten erforderlich sind. Diese Bereitschaft erstreckt sich auf wichtige Data Lake-Aufgaben wie Datentransformation, Metadatenverwaltung und Integration mit gängigen Data Lake-Tools – alles vom ersten Tag an ohne zusätzliches Setup verfügbar.

Diese umfassende Bereitschaft zeichnet Autonomous Database aus und bietet ein integriertes, problemloses Erlebnis, das die Zeit bis zur Einsicht für Data Lake-Workloads beschleunigt. Das bedeutet, dass Benutzer sofort damit beginnen können, Data Lake-Aufgaben ohne Setup oder Konfiguration zu bearbeiten, was sie zu einer echten Plug-and-Play-Lösung für Data Lake-Umgebungen macht. Diese integrierte Funktion vereinfacht den Betrieb, reduziert die Wartungskosten und gewährleistet eine höhere Zuverlässigkeit bei weniger Fehlern.

Autonomous Database bietet eine Reihe von Tools für alle Benutzertypen, von Entwicklern bis hin zu Business Analysts, sodass die Plattform universell und zugänglich ist.

Entwickler können Tools wie die PL/SQL-API für erweiterte Vorgänge, Skripte und Automatisierung verwenden, um eine nahtlose Integration mit vorhandenen Tools zu ermöglichen und effiziente benutzerdefinierte Datenbanklösungen zu erstellen. Weitere Informationen finden Sie in der Von Autonomous Database bereitgestellten Packagereferenz.

Für Geschäftsanwender kann Data Studio verwendet werden – eine webbasierte Schnittstelle zur Vereinfachung der Dateninteraktion, -exploration und -visualisierung. Mit Data Studio können nicht-technische Benutzer Erkenntnisse ableiten, Berichte erstellen und effektiv zusammenarbeiten, die Komplexität reduzieren und fundierte Entscheidungen unterstützen. Weitere Informationen finden Sie unter Überblicksseite von Data Studio.

Multi-Cloud Support

Für Unternehmen, die bereits vorhandene Data Lakes auf anderen Plattformen haben, kann Autonomous Database nahtlos integriert werden, sodass Unternehmen von den erweiterten Features von Autonomous Database profitieren können, ohne ihre aktuellen Setups zu stören.

Bieten Sie Autonomous Database Zugriff auf Ihren Data Lake, indem Sie die erforderlichen Berechtigungen und den Zugriff für den Data Lake erteilen, der mit Autonomous Database verbunden werden soll. Nachdem Sie die erforderlichen Zugangsdaten bereitgestellt haben, kann Autonomous Database nahtlos eine Verbindung zu Data Lakes in verschiedenen Cloud-Umgebungen herstellen, einschließlich AWS, Azure, Google Cloud und Oracle OCI Object Store.

Mit dieser Funktion können Sie sicher auf Ihre Daten zugreifen und diese verwalten, indem Sie die nativen Sicherheitsfunktionen der einzelnen Cloud-Provider nutzen. Mit dieser Multi-Cloud-Unterstützung erhalten Sie die Flexibilität, Ihren Data Lake über verschiedene Cloud-Plattformen hinweg bereitzustellen und zu skalieren, während Sie eine einheitliche und sichere Umgebung beibehalten.

Oracle Autonomous Database unterstützt native Sicherheit für andere Clouds. Weitere Informationen finden Sie unter Amazon-Ressourcennamen (ARNs) für den Zugriff auf AWS-Ressourcen verwenden, Azure-Service-Principal für den Zugriff auf Azure-Ressourcen verwenden und Google-Serviceaccount für den Zugriff auf Google Cloud Platform-Ressourcen verwenden für die entsprechende Cloud-Plattform.

Unterstützung für End-to-End-Datenformate

Oracle Autonomous Database wurde mit der Flexibilität entwickelt, ein breites Spektrum an Datenformaten zu verarbeiten, was es zu einer universellen Lösung für verschiedene Datenquellen und Workloads macht.

Unabhängig davon, ob Ihre Daten in strukturierten, halbstrukturierten oder unstrukturierten Formaten gespeichert sind, unterstützt Autonomous Database sie nahtlos in verschiedenen Cloud-Umgebungen. Auf diese Weise können Unternehmen Daten aufnehmen, speichern und analysieren, ohne sich um die Formatkompatibilität kümmern zu müssen.

Autonomous Database bietet native Unterstützung für herkömmliche Formate wie CSV und JSON sowie erweiterte Formate wie AVRO, Parquet und ORC. Weitere Informationen finden Sie unter Externe Daten mit Autonomous Database abfragen. Autonomous Database unterstützt die folgenden Dateiformate: CSV, JSON, XML, AVRO, ORC, Parquet, Delta Sharing, Iceberg, Word, PDF.

Mit der zusätzlichen Unterstützung für das Iceberg Table-Format bietet Autonomous Database erweiterte Funktionen für groß angelegte Data Lake-Umgebungen. Iceberg ermöglicht eine optimierte, leistungsstarke Abfrage, eine bessere Versionskontrolle und ein einfacheres Datenmanagement, sodass es gut für große, sich entwickelnde Datensätze geeignet ist. Weitere Informationen finden Sie unter Apache Iceberg-Tabellen abfragen.

Erweiterte Funktionen: Autonomous Database für unstrukturiertes Datenmanagement

Während Oracle Database für seine leistungsstarke Verarbeitung strukturierter und halbstrukturierter Daten anerkannt ist, erweitert Autonomous Database seine Funktionen, um auch unstrukturierte Datasets zu verarbeiten.

Diese Funktionen umfassen die Verwaltung und Analyse einer Vielzahl von Formaten wie JPG, PDF, Word-Dokumente und mehr. Mit diesen Fortschritten bietet Autonomous Database eine umfassende Lösung für Unternehmen, die sich mit unstrukturierten Datenquellen befassen.
  • KI-gesteuerte Einblicke mit Retrieval Augmented Generation (RAG): Autonomous Database integriert erweiterte KI-Modelle und ermöglicht Vector Search für unstrukturierte Daten. Dies ermöglicht das effiziente Abrufen relevanter Informationen über massive Datensätze hinweg mithilfe von KI, wodurch die Suchgenauigkeit und -geschwindigkeit verbessert wird. Weitere Informationen finden Sie unter AI mit Retrieval Augmented Generation (RAG) auswählen.
  • Volltextindizierung: Autonomous Database unterstützt die Erstellung von Volltextindizes für unstrukturierte Dateien, sodass erweiterte Textsuchen für Dokumente wie PDFs, Word-Dateien und mehr durchgeführt werden können. Diese Funktion verbessert erheblich, wie unstrukturierte Inhalte abgefragt, indexiert und analysiert werden können. Siehe Volltextsuche für Dateien in Object Storage verwenden
  • Unstrukturierte Daten parsen und laden: Mit den erweiterten Parsing- und Datenaufnahmefeatures von Autonomous Database können Benutzer unstrukturierte Daten nahtlos laden und automatisch in ein tabellarisches Format umwandeln, das zum Laden in die Datenbank bereit ist. Weitere Informationen finden Sie unter Tabellenextraktion aus Image ausführen.
  • KI als Datenquelle (Prompt-to-Table): Durch die Nutzung von KI ermöglicht Autonomous Database die Prompt-to-Table-Funktionalität, sodass Benutzer Daten direkt aus KI-Modellen generieren und in Tabellen laden können. Dies eröffnet Möglichkeiten, wertvolle Erkenntnisse aus KI-generierten Outputs zu gewinnen und diese als neue Quelle strukturierter Daten zu nutzen. Siehe Daten aus KI-Quelle laden

Diese erweiterten Funktionen machen Autonomous Database zu einem leistungsstarken Tool, mit dem die wachsenden Anforderungen an unstrukturierte Daten erfüllt und gleichzeitig KI-gestützte Lösungen genutzt werden können. Dadurch ist es eine vielseitige und zukunftssichere Plattform für moderne Datenherausforderungen.

Flexible Metadatenverwaltung

Oracle Autonomous Database bietet Benutzern verschiedene Möglichkeiten, Metadaten für ihre Datasets zu definieren, wodurch das Datenmanagement anpassungsfähiger und effizienter wird.

  • Katalogbasierte Metadatenintegration

    Benutzer können Metadaten aus verschiedenen Katalogen in eine zentrale Ansicht integrieren, um die Kontrolle und Aufrechterhaltung der Datenkonsistenz im gesamten Unternehmen zu erleichtern. Folgende Kataloge werden unterstützt:

    • OCI Data Catalog: Ein Tool in Oracle Cloud Infrastructure (OCI), mit dem Benutzer Datenassets erkennen, organisieren und verwalten können. Sie bietet einen klaren Überblick über alle Datenassets und unterstützt Benutzer dabei, die Compliance aufrechtzuerhalten, die Datenqualität sicherzustellen und die Zusammenarbeit zwischen Teams zu erleichtern. Weitere Informationen finden Sie unter Beispiel: Szenario MovieStream.

    • AWS Glue: Ein verwalteter ETL-Service (Extrahieren, Transformieren, Laden) von Amazon Web Services, der einen Datenkatalog zum Organisieren und Verwalten von Metadaten enthält. Weitere Informationen finden Sie unter Externe Daten mit AWS Glue Data Catalog abfragen.

  • Manuelle Metadatendefinition

    Benutzer können Metadaten auch direkt auf Tabellenebene für Datasets in Objektspeichern wie Oracle Cloud Infrastructure (OCI) Object Storage oder Amazon S3 definieren. Dies ermöglicht eine individuelle Organisation von Daten für einzelne Dateien oder Gruppen von Dateien, die auf die Benutzeranforderungen zugeschnitten sind. Autonomous Database kann auch automatisch Metadaten, wie Spaltennamen und Datentypen, inferenzieren, um Zeit zu sparen und Fehler zu reduzieren. Beispiel: Beim Hochladen einer CSV-Datei kann das System automatisch Header als Spaltennamen erkennen und entsprechende Datentypen wie Number oder varchar2 basierend auf dem Inhalt zuweisen. So können Benutzer ihre Daten schnell und ohne manuelle Eingriffe auf die Analyse vorbereiten, die Rüstzeit verkürzen und die Fehlerwahrscheinlichkeit minimieren.

Unterstützung föderierter Metadaten

Autonomous Database unterstützt einen föderierten Metadatenkatalog, mit dem Benutzer Metadaten aus verschiedenen Quellen in einer einzigen Ansicht vereinheitlichen und eine einheitliche Schnittstelle für die Metadatenverwaltung bereitstellen können.

Dieser Ansatz vereinfacht die Metadatenverwaltung über verschiedene Umgebungen hinweg, indem Datenquellen über mehrere Clouds und Plattformen hinweg verbunden werden. Unabhängig davon, ob Sie katalogbasierte Metadaten verwenden oder manuell definieren, sind alle Informationen in einem einheitlichen Katalog verfügbar, um das Durchsuchen zu vereinfachen. Beispiel: Eine Organisation kann diese föderierte Ansicht verwenden, um Datenassets sowohl von AWS als auch von Oracle Cloud zu verwalten und eine konsistente Governance und Erkennbarkeit plattformübergreifend sicherzustellen.

Collaboration

Nachdem Benutzer ihre Analyse abgeschlossen haben, müssen sie ihre Ergebnisse häufig mit anderen teilen. Oracle Autonomous Database erleichtert das Teilen, indem es verschiedene Möglichkeiten zur Zusammenarbeit bietet und einzigartige Vorteile gegenüber anderen Datenbanken bietet, wie integrierte Sicherheitsfunktionen, offene Protokolle und nahtlose Cloud-Konnektivität.

Diese Optionen sind flexibel und sicher, sodass sie unterschiedlichen Anforderungen an die Zusammenarbeit entsprechen:

  • Delta Sharing Protocol: Auf diese Weise können Sie Daten außerhalb von Oracle mit einem offenen Protokoll namens Delta Sharing freigeben. Es unterstützt den sicheren Datenaustausch mit externen Partnern, ohne dass eine komplexe Integration erforderlich ist. Dies ist ideal für cloud-übergreifende und plattformübergreifende Analysen. Auf diese Weise können Daten problemlos in verschiedenen Analysetools verwendet werden, die nicht Teil von Oracle sind. Weitere Informationen finden Sie unter Datenversionen mit Object Storage gemeinsam verwenden.

  • Cloud-Links: Sie können Daten über sichere Cloud-Links zwischen verschiedenen Autonomous Database-Instanzen freigeben. Cloud-Links sind beispielsweise besonders effektiv für die Verbindung verschiedener Datenbanken. Dies gewährleistet eine konsistente Datenverfügbarkeit und reduziert die Latenz für Anwendungen, die einen schnellen und zuverlässigen Zugriff auf Daten über mehrere Datenbanken hinweg benötigen, ohne dass sie kopiert oder dupliziert werden müssen. Es hält die Zusammenarbeit für Teams reibungslos, die verteilt sind und zusammenarbeiten müssen. Siehe Livedaten über direkte Verbindung freigeben

  • Tabellen-Hyperlinks: Sie können Daten direkt freigeben, indem Sie spezielle URLs erstellen, die Zugriff auf die Daten gewähren, ohne dass eine separate Anmeldung erforderlich ist. Benutzer können die Berechtigungen kontrollieren und Ablaufzeiten für diese URLs festlegen, um sichere und flexible Freigabeoptionen sicherzustellen. Dieses Feature wurde speziell für REST-Clients entwickelt. Weitere Informationen finden Sie unter Tabellen-Hyperlink für eine Tabelle oder Ansicht generieren.

Breite Kompatibilität mit Oracle Database-Tools

Die Autonomous Database-Umgebung ist vollständig mit einer Vielzahl von Oracle-Datenbanktools kompatibel.

Jedes Tool, das Sie bereits für die Interaktion mit Oracle Datenbanken verwenden – sei es für Datenvisualisierung, Analysen, ETL oder Administration – kann auch nahtlos zur Analyse von Datasets in Autonomous Database verwendet werden. Diese Kompatibilität gewährleistet eine reibungslose Benutzererfahrung, mit der Benutzer Autonomous Database in ihre vorhandenen Workflows integrieren können, ohne neue Tools oder Prozesse einführen zu müssen. Dadurch wird die Effizienz maximiert und die Lernkurve reduziert.

Informationen zu einigen Tools, die für die Verwendung mit Oracle-Datenbanken verfügbar sind, finden Sie unter Überblicksseite von Data Studio.