Data Lake mit autonomer KI-Datenbank verwenden

Lernen Sie die Vorteile der Verwendung von Data Lake mit einer autonomen KI-Datenbank kennen.

Data Lake mit autonomer KI-Datenbank

Oracle Autonomous AI Database ist eine vielseitige Lösung für jede Art von Daten und Workload.

Autonomous AI Database bietet kosteneffizienten Speicher, wobei die Kosten pro TB mit Objektspeichern vergleichbar sind und gleichzeitig verschiedene Datentypen wie JSON, Graph und Vector unterstützt werden. Mit Autonomous AI Database können Unternehmen ihre Daten auf einer einzigen Plattform konsolidieren. Sie können konvergente Funktionen wie Oracle Machine Learning (OML), Graph, Spatial, Vector und Blockchain nutzen, um ihre Daten umfassend zu verwalten.

Für Unternehmen, die bereits vorhandene Data Lakes auf anderen Plattformen haben, lässt sich die Oracle Autonomous AI Database nahtlos integrieren, sodass Unternehmen von den erweiterten Funktionen der Autonomous AI Database profitieren können, ohne ihre aktuellen Setups zu unterbrechen.

Weitere Informationen finden Sie unter LiveLabs Title Build a Data Lake with Oracle Autonomous AI Lakehouse.

Was ist ein Data Lake?

Data Lakes sind zentrale Repositorys, die große Mengen an Rohdaten in ihrem nativen Format speichern, bis die Daten für die Analyse benötigt werden.

Sie sind hochflexibel und skalierbar, was sie zu einer leistungsstarken Ergänzung zu traditionellen Lakehouses macht, indem sie es Unternehmen ermöglichen, verschiedene Datentypen zu speichern und zu verarbeiten, einschließlich strukturierter, halbstrukturierter und unstrukturierter Daten.

Schlüsselattribute eines Data Lake:
  • Datei- und Tabellenformate öffnen

    Data Lakes speichern Daten in offenen Dateiformaten wie CSV, Parquet und Tabellenformaten wie Iceberg. Dies gewährleistet Interoperabilität und Flexibilität bei der Datenverarbeitung, da mehrere Engines diese Datasets schreiben und lesen können.

  • Unterstützung für mehrere Datenverarbeitungs-Engines

    Data Lakes sind mit verschiedenen Datenverarbeitungs-Engines wie Apache Spark, Presto und Hive kompatibel und ermöglichen so verschiedene analytische Workloads.

  • Schema-on-Read

    Data Lakes verwenden häufig einen Schema-on-Read-Ansatz, d.h. es ist nicht erforderlich, ein Schema vorab zu definieren. Dies ermöglicht eine schnelle Datenaufnahme, bei der Daten ohne vorherige Strukturierung geladen werden können, ähnlich wie bei Objektspeichern, die "Daten jetzt erfassen und später Fragen stellen".

  • Unterstützung für unstrukturierte Daten

    Neben strukturierten Daten können Data Lakes unstrukturierte Daten wie Bilder (JPG), Dokumente (PDF, Word) und andere Binärdaten speichern und eine umfassende Speicherlösung bieten.

Wichtige Data Lake-Features einer autonomen KI-Datenbank

Oracle Autonomous AI Database wurde für die nahtlose Unterstützung von Data Lake-Workloads entwickelt, sodass keine Verwaltung oder Installation erforderlich ist. Sie bietet robuste Funktionen, um verschiedene Datenformate in verschiedenen Cloud-Umgebungen zu verarbeiten und eine flexible und umfassende Datenanalyse sicherzustellen.

Bereit für Data Lake-Workloads

Oracle Autonomous AI Database ist sofort einsatzbereit für Data Lake-Workloads, für die keine zusätzlichen Komponenten erforderlich sind. Diese Bereitschaft erstreckt sich auf wichtige Data Lake-Aufgaben wie Datentransformation, Metadatenverwaltung und Integration mit gängigen Data Lake-Tools – alles vom ersten Tag an ohne zusätzliches Setup verfügbar.

Diese umfassende Bereitschaft zeichnet die Autonomous AI Database aus und bietet ein integriertes, problemloses Erlebnis, das die Zeit bis zur Einsicht für Data Lake-Workloads beschleunigt. Das bedeutet, dass Benutzer sofort damit beginnen können, Data Lake-Aufgaben ohne Setup oder Konfiguration zu bearbeiten, was sie zu einer echten Plug-and-Play-Lösung für Data Lake-Umgebungen macht. Diese integrierte Funktion vereinfacht den Betrieb, reduziert die Wartungskosten und gewährleistet eine höhere Zuverlässigkeit bei weniger Fehlern.

Autonomous AI Database bietet eine Reihe von Tools für alle Benutzertypen, von Entwicklern bis hin zu Geschäftsanalysten, sodass die Plattform universell und zugänglich ist.

Entwickler können Tools wie die PL/SQL-API für erweiterte Vorgänge, Skripte und Automatisierung verwenden, um eine nahtlose Integration mit vorhandenen Tools zu ermöglichen und effiziente benutzerdefinierte Datenbanklösungen zu erstellen. Weitere Informationen finden Sie unter Von der autonomen KI-Datenbank bereitgestellte Packagereferenz.

Für Geschäftsanwender kann Data Studio verwendet werden – eine webbasierte Schnittstelle zur Vereinfachung der Dateninteraktion, -exploration und -visualisierung. Mit Data Studio können nicht-technische Benutzer Erkenntnisse ableiten, Berichte erstellen und effektiv zusammenarbeiten, die Komplexität reduzieren und fundierte Entscheidungen unterstützen. Weitere Informationen finden Sie unter Überblicksseite von Data Studio.

Multi-Cloud Support

Für Unternehmen, die bereits vorhandene Data Lakes auf anderen Plattformen haben, lässt sich Autonomous AI Database nahtlos integrieren, sodass Unternehmen von den erweiterten Features der Autonomous AI Database profitieren können, ohne ihre aktuellen Setups zu stören.

Bieten Sie autonomen KI-Datenbankzugriff auf Ihren Data Lake, indem Sie die erforderlichen Berechtigungen und den Zugriff für den Data Lake erteilen, der mit der autonomen KI-Datenbank verbunden werden soll. Sobald Sie die erforderlichen Zugangsdaten bereitgestellt haben, kann Autonomous AI Database nahtlos eine Verbindung zu Data Lakes in verschiedenen Cloud-Umgebungen herstellen, einschließlich AWS, Azure, Google Cloud und Oracle OCI Object Store.

Mit dieser Funktion können Sie sicher auf Ihre Daten zugreifen und diese verwalten, indem Sie die nativen Sicherheitsfunktionen der einzelnen Cloud-Provider nutzen. Mit dieser Multi-Cloud-Unterstützung erhalten Sie die Flexibilität, Ihren Data Lake über verschiedene Cloud-Plattformen hinweg bereitzustellen und zu skalieren, während Sie eine einheitliche und sichere Umgebung beibehalten.

Oracle Autonomous AI Database unterstützt native Sicherheit für andere Clouds. Weitere Informationen finden Sie unter Amazon-Ressourcennamen (ARNs) für den Zugriff auf AWS-Ressourcen verwenden, Azure-Service-Principal für den Zugriff auf Azure-Ressourcen verwenden und Google-Serviceaccount für den Zugriff auf Google Cloud Platform-Ressourcen verwenden für die entsprechende Cloud-Plattform.

Unterstützung für End-to-End-Datenformate

Oracle Autonomous AI Database wurde mit der Flexibilität entwickelt, ein breites Spektrum an Datenformaten zu verarbeiten, was es zu einer universellen Lösung für verschiedene Datenquellen und Workloads macht.

Unabhängig davon, ob Ihre Daten in strukturierten, halbstrukturierten oder unstrukturierten Formaten gespeichert sind, unterstützt Autonomous AI Database sie nahtlos in verschiedenen Cloud-Umgebungen. Auf diese Weise können Unternehmen Daten aufnehmen, speichern und analysieren, ohne sich um die Formatkompatibilität kümmern zu müssen.

Autonomous AI Database bietet native Unterstützung für herkömmliche Formate wie CSV und JSON sowie für erweiterte Formate wie AVRO, Parquet und ORC. Weitere Informationen finden Sie unter Externe Daten mit autonomer KI-Datenbank abfragen. Autonomous AI Database unterstützt die folgenden Dateiformate: CSV, JSON, XML, AVRO, ORC, Parquet, Delta Sharing, Iceberg, Word, PDF.

Mit der zusätzlichen Unterstützung für das Iceberg-Tabellenformat bietet Autonomous AI Database erweiterte Funktionen für groß angelegte Data Lake-Umgebungen. Iceberg ermöglicht eine optimierte, leistungsstarke Abfrage, eine bessere Versionskontrolle und ein einfacheres Datenmanagement, sodass es gut für große, sich entwickelnde Datensätze geeignet ist. Weitere Informationen finden Sie unter Apache Iceberg-Tabellen abfragen.

Erweiterte Funktionen: Autonome KI-Datenbank für unstrukturiertes Datenmanagement

Während Oracle Database für seine leistungsstarke Verarbeitung strukturierter und halbstrukturierter Daten bekannt ist, erweitert Autonomous AI Database seine Funktionen, um auch unstrukturierte Datasets zu verarbeiten.

Diese Funktionen umfassen die Verwaltung und Analyse einer Vielzahl von Formaten wie JPG, PDF, Word-Dokumente und mehr. Mit diesen Fortschritten bietet Autonomous AI Database eine umfassende Lösung für Unternehmen, die sich mit unstrukturierten Datenquellen befassen.
  • KI-gesteuerte Einblicke mit Retrieval Augmented Generation (RAG): Autonomous AI Database integriert erweiterte KI-Modelle und ermöglicht Vector Search für unstrukturierte Daten. Dies ermöglicht das effiziente Abrufen relevanter Informationen über massive Datensätze hinweg mithilfe von KI, wodurch die Suchgenauigkeit und -geschwindigkeit verbessert wird. Weitere Informationen finden Sie unter AI mit Retrieval Augmented Generation (RAG) auswählen.
  • Volltextindizierung: Autonomous AI Database unterstützt die Erstellung von Volltextindizes für unstrukturierte Dateien. So können erweiterte Textsuchen für Dokumente wie PDFs, Word-Dateien und mehr durchgeführt werden. Diese Funktion verbessert erheblich, wie unstrukturierte Inhalte abgefragt, indexiert und analysiert werden können. Siehe Volltextsuche für Dateien in Object Storage verwenden
  • Unstrukturierte Daten parsen und laden: Mit den erweiterten Parsing- und Datenaufnahmefeatures der autonomen KI-Datenbank können Benutzer unstrukturierte Daten nahtlos laden und automatisch in ein tabellarisches Format umwandeln, das zum Laden in die Datenbank bereit ist. Weitere Informationen finden Sie unter Tabellenextraktion aus Image ausführen.
  • KI als Datenquelle (Prompt-to-Table): Die autonome KI-Datenbank nutzt KI und ermöglicht die Prompt-to-Table-Funktionalität, sodass Benutzer Daten direkt aus KI-Modellen generieren und in Tabellen laden können. Dies eröffnet Möglichkeiten, wertvolle Erkenntnisse aus KI-generierten Outputs zu gewinnen und diese als neue Quelle strukturierter Daten zu nutzen. Siehe Daten aus KI-Quelle laden

Diese erweiterten Funktionen positionieren Autonomous AI Database als leistungsstarkes Tool, um die wachsenden Anforderungen an unstrukturierte Daten zu erfüllen und gleichzeitig KI-gestützte Lösungen zu nutzen. Dies macht sie zu einer vielseitigen und zukunftssicheren Plattform für moderne Datenherausforderungen.

Flexible Metadatenverwaltung

Oracle Autonomous AI Database bietet Benutzern verschiedene Möglichkeiten, Metadaten für ihre Datasets zu definieren, wodurch das Datenmanagement anpassungsfähiger und effizienter wird.

  • Katalogbasierte Metadatenintegration

    Benutzer können Metadaten aus verschiedenen Katalogen in eine zentrale Ansicht integrieren, um die Kontrolle und Aufrechterhaltung der Datenkonsistenz im gesamten Unternehmen zu erleichtern. Folgende Kataloge werden unterstützt:

    • OCI Data Catalog: Ein Tool in Oracle Cloud Infrastructure (OCI), mit dem Benutzer Datenassets erkennen, organisieren und verwalten können. Sie bietet einen klaren Überblick über alle Datenassets und unterstützt Benutzer dabei, die Compliance aufrechtzuerhalten, die Datenqualität sicherzustellen und die Zusammenarbeit zwischen Teams zu erleichtern. Weitere Informationen finden Sie unter Beispiel: Szenario MovieStream.

    • AWS Glue: Ein verwalteter ETL-Service (Extrahieren, Transformieren, Laden) von Amazon Web Services, der einen Datenkatalog zum Organisieren und Verwalten von Metadaten enthält. Weitere Informationen finden Sie unter Externe Daten mit AWS Glue Data Catalog abfragen.

  • Manuelle Metadatendefinition

    Benutzer können Metadaten auch direkt auf Tabellenebene für Datasets in Objektspeichern wie Oracle Cloud Infrastructure (OCI) Object Storage oder Amazon S3 definieren. Dies ermöglicht eine individuelle Organisation von Daten für einzelne Dateien oder Gruppen von Dateien, die auf die Benutzeranforderungen zugeschnitten sind. Autonome KI-Datenbank kann auch automatisch Metadaten wie Spaltennamen und Datentypen inferenzieren, um Zeit zu sparen und Fehler zu reduzieren. Beispiel: Beim Hochladen einer CSV-Datei kann das System automatisch Header als Spaltennamen erkennen und entsprechende Datentypen wie Number oder varchar2 basierend auf dem Inhalt zuweisen. So können Benutzer ihre Daten schnell und ohne manuelle Eingriffe auf die Analyse vorbereiten, die Rüstzeit verkürzen und die Fehlerwahrscheinlichkeit minimieren.

Unterstützung föderierter Metadaten

Autonomous AI Database unterstützt einen föderierten Metadatenkatalog, der es Benutzern ermöglicht, Metadaten aus verschiedenen Quellen in einer einzigen Ansicht zu vereinheitlichen und eine einheitliche Schnittstelle für die Metadatenverwaltung bereitzustellen.

Dieser Ansatz vereinfacht die Metadatenverwaltung über verschiedene Umgebungen hinweg, indem Datenquellen über mehrere Clouds und Plattformen hinweg verbunden werden. Unabhängig davon, ob Sie katalogbasierte Metadaten verwenden oder manuell definieren, sind alle Informationen in einem einheitlichen Katalog verfügbar, um das Durchsuchen zu vereinfachen. Beispiel: Eine Organisation kann diese föderierte Ansicht verwenden, um Datenassets sowohl von AWS als auch von Oracle Cloud zu verwalten und eine konsistente Governance und Erkennbarkeit plattformübergreifend sicherzustellen.

Collaboration

Nachdem Benutzer ihre Analyse abgeschlossen haben, müssen sie ihre Ergebnisse häufig mit anderen teilen. Die Oracle Autonomous AI Database erleichtert das Teilen, indem sie verschiedene Möglichkeiten zur Zusammenarbeit bietet und einzigartige Vorteile gegenüber anderen Datenbanken bietet, wie integrierte Sicherheitsfunktionen, offene Protokolle und nahtlose Cloud-Konnektivität.

Diese Optionen sind flexibel und sicher, sodass sie unterschiedlichen Anforderungen an die Zusammenarbeit entsprechen:

  • Delta Sharing Protocol: Auf diese Weise können Sie Daten außerhalb von Oracle mit einem offenen Protokoll namens Delta Sharing freigeben. Es unterstützt den sicheren Datenaustausch mit externen Partnern, ohne dass eine komplexe Integration erforderlich ist. Dies ist ideal für cloud-übergreifende und plattformübergreifende Analysen. Auf diese Weise können Daten problemlos in verschiedenen Analysetools verwendet werden, die nicht Teil von Oracle sind. Weitere Informationen finden Sie unter Datenversionen mit Object Storage gemeinsam verwenden.

  • Cloud-Links: Sie können Daten über sichere Cloud-Links zwischen verschiedenen autonomen KI-Datenbankinstanzen freigeben. Cloud-Links sind beispielsweise besonders effektiv für die Verbindung verschiedener Datenbanken. Dies gewährleistet eine konsistente Datenverfügbarkeit und reduziert die Latenz für Anwendungen, die einen schnellen und zuverlässigen Zugriff auf Daten über mehrere Datenbanken hinweg benötigen, ohne dass sie kopiert oder dupliziert werden müssen. Es hält die Zusammenarbeit für Teams reibungslos, die verteilt sind und zusammenarbeiten müssen. Siehe Livedaten über direkte Verbindung freigeben

  • Tabellen-Hyperlinks: Sie können Daten direkt freigeben, indem Sie spezielle URLs erstellen, die Zugriff auf die Daten gewähren, ohne dass eine separate Anmeldung erforderlich ist. Benutzer können die Berechtigungen kontrollieren und Ablaufzeiten für diese URLs festlegen, um sichere und flexible Freigabeoptionen sicherzustellen. Dieses Feature wurde speziell für REST-Clients entwickelt. Weitere Informationen finden Sie unter Tabellen-Hyperlink für eine Tabelle oder Ansicht erstellen.

Breite Kompatibilität mit Oracle Database-Tools

Die autonome KI-Datenbankumgebung ist vollständig mit einer Vielzahl von Oracle-Datenbanktools kompatibel.

Jedes Tool, das Sie bereits für die Interaktion mit Oracle Datenbanken verwenden – sei es für Datenvisualisierung, Analysen, ETL oder Administration – kann auch nahtlos genutzt werden, um Datasets innerhalb der Autonomous AI Database zu analysieren. Diese Kompatibilität gewährleistet eine reibungslose Benutzererfahrung, mit der Benutzer autonome KI-Datenbanken in ihre vorhandenen Workflows integrieren können, ohne neue Tools oder Prozesse einführen zu müssen. Dadurch wird die Effizienz maximiert und die Lernkurve reduziert.

Informationen zu einigen Tools, die für die Verwendung mit Oracle-Datenbanken verfügbar sind, finden Sie unter Überblicksseite von Data Studio.