Entwerfen eines Data Lakehouse für die Einzelhandelsbestandsanalyse
Lebensmittelkunden führen veraltete Waren als Hauptgrund für ein schlechtes Einkaufserlebnis auf. Neben der Produktverfügbarkeit erwarten Verbraucher auch, dass ihre Zeit im Geschäft kurz und effizient ist. Mehr denn je müssen Einzelhändler ein nahtloses Einkaufserlebnis bieten, und das Schlüsselelement dafür sind Daten.
Einzelhändler möchten eine Fülle von Daten erfassen und sich an cloudbasierte Big-Data-Lösungen wenden, um Daten für Echtzeiteinblicke in den Bestand zu aggregieren und zu verwalten. Ein Data Lakehouse, das auf Oracle Cloud Infrastructure (OCI) entwickelt wurde, kann Daten aus Point of Sale-, Bestands-, Kunden- und Betriebssystemen erfassen, verwalten und Erkenntnisse gewinnen, um das Bestandsmanagement in Echtzeit zu verstehen.
Diese Referenzarchitektur bietet eine Plattformtopologie, einen Komponentenüberblick und empfohlene Best Practices für die Implementierung eines erfolgreichen Data Lakehouse auf OCI.
- Kunden, die mit dem Händler online (Web oder Mobile) interagieren, mit Abholung oder Lieferung oder physisch in den Geschäften, sei es durch Interaktion mit einem Filialmitarbeiter oder über Selfservice-Maschinen.
- Store Manager, die einsehen möchten, wie Produkte und Produktkategorien verkaufen, erhalten aussagekräftige Einblicke wie Bestandsverbrauch und steuern automatische Maßnahmen, z. B. automatisierte Beschaffung.
- Obere Verwaltung, die an erweiterten Echtzeitanalysen mit Visualisierungs-, Reporting- und KI-Funktionen interessiert ist.
- Data Scientists arbeiten an Big Data, mit zunehmender Datenmenge und Anzahl von Quellen, die eine schnelle Verarbeitung und Flexibilität erfordern, um Modelle einfach bereitzustellen.
- Low-Code-Entwickler arbeiten mit vorhandenen und neuen datengesteuerten Anwendungen und konzentrieren sich auf Einfachheit und die minimal mögliche Zeit für die Verwaltung von Sicherheit und Vorgängen.
Architektur
Eine der Hauptkomplexitäten des Einzelhandelsunternehmens ist die Vielzahl von Systemen, Datenmodellen und -typen sowie eine stetig wachsende Datenmenge. Eine solche Herausforderung erfordert Vereinfachung und Konsolidierung. Eine OCI-Data Lakehouse-Architektur kann dabei helfen.
Das folgende Diagramm bietet eine Einführung in die konzeptionelle Referenzarchitektur des Einzelhandelsgeschäfts.
Beschreibung der Abbildung Retail-lakehouse-arch.png
Autonomous Data Warehouse (ADW) ist eines der zentralen Elemente der OCI-Data Lakehouse-Architektur. Es automatisiert das Provisioning, Konfigurieren, Sichern, Tuning, Skalieren und Sichern des Data Warehouse. Sie umfasst Tools für das Laden von Daten im Selfservice, Datentransformationen, Geschäftsmodelle, automatische Einblicke und integrierte konvergierte Datenbankfunktionen, die vereinfachte Abfragen für mehrere Datentypen und maschinelle Lernanalysen ermöglichen. Maschinelles Lernen auf ADW bringt den Vorteil, dass Algorithmen zur Maximierung der Performance genau dort eingesetzt werden, wo die Daten sind. ADW ist eng in den OCI Object Storage integriert, der hier als Data Lake dient, als unbegrenzten und kostengünstigen Speicher für unstrukturierte Daten.
Initiativen für Data Science und maschinelles Lernen können zu Ergebnissen wie intelligenten Verkaufsprognosen auf Basis der Saison, dem Vorkommen von Marketingkampagnen, Merkmalen der Kundenpopulation (z. B. Altersgruppen) und des Standorts führen, mit Oracle Spatial & Graph die erforderliche Standortunterstützung liefert. Solche Initiativen können von OML-Notizbüchern von ADW (auf Basis von Apache Zeppelin) unterstützt und über OAC zugänglich gemacht werden, indem Data Science (JupyterLab/Python-zentriert) verwendet wird. Oracle APEX zeichnet sich als Goldstandard für benutzerdefinierte Low-Code-Apps aus.
Die verschiedenen Kanäle, über die Kunden mit dem Händler interagieren, wie sie im Diagramm und oben erwähnt sind, sind häufig auf maßgeschneiderte Anwendungen angewiesen. Oracle Container Engine for Kubernetes ist eine robuste Plattform, die Skalierbarkeit und zusätzliche Kontrolle über Microservices und Anwendungen bietet.
Ein Beispiel für eine moderne Nutzung von KI für Unternehmen ist der digitale Assistent. In diesem Anwendungsfall werden KI-gesteuerte digitale Assistenten basierend auf Lakehouse-Daten für eine Konversationsschnittstelle für Apps und Kiosks mit umsetzbaren Empfehlungen verwendet.
- Marketing: Analysieren Sie Social Media, Bewertungen und Neuigkeiten, um zu erfahren, was Kunden und Branchenexperten über Ihr Produkt sagen. Erfahren Sie, was sie tun und was ihnen nicht gefällt, welche neuen Funktionen sie wünschen und wie Sie mit Ihren Mitbewerbern vergleichen.
- Kundensupport: Klassifizieren Sie Supporttickets nach Produkt und Abteilung, um Tickets schneller an das entsprechende Team zu gelangen. Verwenden Sie die Sentimentanalyse, um dringende Problembereiche zu identifizieren und Tickets zu priorisieren.
- Human Resources: Automatisieren Sie das Lebenslauf-Screening mit der Erkennung von Schlüsselqualifikationen und -schulungen durch Unternehmen. Klassifizieren Sie Mitarbeiterfeedback anhand von Sentimentanalysen und Entity-Erkennung, um die häufigsten Problembereiche der Mitarbeiter und die besten nächsten Schritte zu ermitteln.
Mit dem Data Lakehouse können Sie Daten von überall aus nutzen, normalisierte Daten im Handumdrehen verarbeiten, eingebettete KI/ML im Exadata-Skalierungsmaßstab ausführen, jederzeit automatisch skalieren und sich auf erweiterte Sicherheitskontrollen verlassen, um Risiken deutlich zu reduzieren.
- Oracle ERP, CRM, POS und externe Plattformen senden Daten und Ereignisse mit Hilfe von Oracle GoldenGate und Oracle Data Integration in das Data Lakehouse, in Echtzeit oder durch Batchverarbeitung.
- In diesem Beispiel spielt Oracle Integration Cloud die zusätzliche Rolle, Daten aus dem Data Lakehouse an Oracle Procurement zu senden, über die Lieferanten über automatisch aufgeführte Bestellungen benachrichtigt werden können.
- ADW verwendet einen Query Accelerator für eine schnelle und nahtlose Abfrage des Object Storage-Datenspeichers.
- Das skalierbare API-Gateway ermöglicht skalierbare Daten für Apps
- Oracle Analytics Cloud und Oracle Data Science können aus dem Data Lakehouse nahtlos in die Services integriert werden.
- Autonomous Data Warehouse
Eine vollständig verwaltete, autonome Oracle-Datenbank mit autoskalierendem Oracle Machine Learning. Datenanalysten können Modelle für maschinelles Lernen mit datenbankinternen Oracle Machine Learning-Funktionen und der zugehörigen Notebooks erstellen, bewerten, bewerten und bereitstellen.
- Objektspeicher
OCI Object Storage ist eine internetbasierte, leistungsstarke Speicherplattform, die zuverlässige und kostengünstige Dauerhaftigkeit von Daten bietet. Object Storage kann eine unbegrenzte Menge unstrukturierter Daten eines beliebigen Inhaltstyps speichern, einschließlich Analysedaten. Sie können Daten sicher und sicher direkt aus dem Internet oder aus der Cloud-Plattform speichern oder abrufen. Mit mehreren Managementschnittstellen können Sie ganz einfach klein anfangen und nahtlos skalieren, ohne dass es zu einer Beeinträchtigung der Performance oder Servicezuverlässigkeit kommt.
Object Storage kann auch als Cold Storage-Schicht für das Data Warehouse verwendet werden, indem Daten, die selten verwendet werden, gespeichert und anschließend mithilfe von Hybridtabellen in Oracle Autonomous Data Warehouse nahtlos mit den neuesten Daten verknüpft werden.
- Data Catalog
OCI Data Catalog ist eine vollständig verwaltete Selfservice-Lösung für Daten-Discovery und Governance für Ihre Unternehmensdaten. Data Catalog bietet eine einheitliche Zusammenarbeitsumgebung zur Verwaltung von technischen, Geschäfts- und Betriebsmetadaten.
- Oracle Analytics Cloud
Oracle Analytics Cloud ist ein skalierbarer und sicherer Public Cloud-Service, mit dem Business Analysts moderne, KI-gesteuerte Selfservice-Analysefunktionen für Datenvorbereitung, Visualisierung, Unternehmensberichte, erweiterte Analysen und Verarbeitung und Generierung natürlicher Sprache erhalten. Mit Oracle Analytics Cloud erhalten Sie außerdem flexible Servicemanagementfunktionen, einschließlich schneller Einrichtung, einfacher Skalierung und Patching sowie automatisiertem Lebenszyklusmanagement.
Oracle Analytics Cloud ist in Oracle Machine Learning integriert. Mit dieser Integration können Analysten verfügbare datenbankinterne Modelle auflisten und diese Modelle in Analysen und Dashboards von Oracle Analytics Cloud verwenden. Mit OAC Data Visualization können Benutzer vorgefertigte Modelle für maschinelles Lernen oder eigene geschulte Modelle anwenden und gleichzeitig Daten visualisieren.
- Data Science
OCI Data Science ist eine vollständig verwaltete, serverlose Plattform, auf der Datenanalyseteams Modelle für maschinelles Lernen (ML) mit OCI erstellen, trainieren und verwalten können. Sie kann problemlos in andere OCI-Services wie Autonomous Data Warehouse, Object Storage und mehr integriert werden. Sie können hochwertige Modelle für maschinelles Lernen erstellen und bewerten, die geschäftliche Flexibilität steigern, indem Sie schnell vertrauenswürdige Daten für Unternehmen bereitstellen und datengestützte Geschäftsziele mit einer einfacheren Bereitstellung von ML-Modellen unterstützen.
Data Science ist mit dem restlichen OCI-Stack integriert, einschließlich Functions, Data Flow, Autonomous Data Warehouse und Object Storage. Oracle Accelerated Data Science-(ADS-)Softwareentwicklerkit (SDK) ist eine Python-Library, die als Teil des OCI Data Science-Service enthalten ist. Dieser umfasst viele Funktionen und Objekte, die die Schritte im Data Science-Workflow automatisieren oder vereinfachen. Dazu gehören das Herstellen von Verbindungen zu Daten, das Explorieren und Visualisieren von Daten, das Trainieren eines Modells mit AutoML, das Auswerten von Modellen und das Erklären von Modellen. ADS bietet außerdem eine einfache Schnittstelle für den Zugriff auf den Modellkatalog des Data Science-Service und auf andere OCI-Services, einschließlich Object Storage.
- Oracle Data Integration
Verwenden Sie OCI Data Integration für einen optimalen Datenfluss zwischen Systemen. Sie unterstützt deklarative und nicht-codefähige oder Low-Code-ETL- und Daten-Pipeline-Entwicklung.
- GoldenGate
Oracle Cloud Infrastructure GoldenGate ist ein verwalteter Service, der eine Echtzeit-Datenmesh-Plattform bereitstellt, die mithilfe der Replikation hohe Verfügbarkeit von Daten gewährleistet und Echtzeitanalysen ermöglicht. Kunden können ihre Datenreplikations- und Datenverarbeitungslösungen entwerfen, ausführen und überwachen, ohne Rechenumgebungen zuweisen oder verwalten zu müssen.
- API Gateway
Mit dem API-Gateway-Service können Sie APIs mit privaten Endpunkten veröffentlichen, auf die Sie über Ihr Netzwerk zugreifen können. Sie können APIs bei Bedarf im öffentlichen Internet anzeigen. Die Endpunkte unterstützen API-Validierung, Anforderungs- und Antworttransformation, CORS, Authentifizierung und Autorisierung sowie Anforderungsbeschränkung.
- Virtuelles Cloud-Netzwerk
Einer Ihrer ersten Schritte in OCI besteht in der Einrichtung eines virtuellen Cloud-Netzwerks (VCN) für Ihre Cloud-Ressourcen. Ein VCN ist ein softwaredefiniertes Netzwerk, das Sie in einer OCI-Region einrichten. VCNs können in Subnetze segmentiert werden, die spezifisch für eine Region oder eine Availability-Domain sein können. Sowohl regionsspezifische als auch Availability-Domain-spezifische Subnetze können im selben VCN gleichzeitig vorhanden sein. Ein Subnetz kann öffentlich oder privat sein.
- Container Engine for Kubernetes
OCI Container Engine for Kubernetes ist ein vollständig verwalteter, skalierbarer und hochverfügbarer Service, mit dem Sie Ihre containerisierten Anwendungen in der Cloud bereitstellen können. Sie geben die für Ihre Anwendungen erforderlichen Compute-Ressourcen an, und Container Engine for Kubernetes stellt sie in Oracle Cloud Infrastructure in einem vorhandenen Mandanten bereit. Container Engine for Kubernetes verwendet Kubernetes, um das Deployment, die Skalierung und die Verwaltung containerisierter Anwendungen auf mehreren Hostclustern zu automatisieren.
- Registrierung
OCI-Registry ist eine von Oracle verwaltete Registry, mit der Sie Ihren Workflow von der Entwicklung bis zur Produktion vereinfachen können. Mit Registry können Sie Entwicklungsartefakte wie Docker-Images auf einfache Weise speichern, freigeben und verwalten. Die hochverfügbare und skalierbare Architektur von Oracle Cloud Infrastructure stellt sicher, dass Sie Ihre Anwendungen zuverlässig bereitstellen und verwalten können.
Empfehlungen
- VCN
Bestimmen Sie beim Erstellen eines VCN die Anzahl der erforderlichen CIDR-Blöcke und die Größe jedes Blocks basierend auf der Anzahl der Ressourcen, die Sie an Subnetze im VCN anhängen möchten. Verwenden Sie CIDR-Blöcke, die sich im standardmäßigen privaten IP-Adressbereich befinden.
Wählen Sie CIDR-Blöcke, die sich nicht mit einem anderen Netzwerk überschneiden (in Oracle Cloud Infrastructure, Ihrem On-Premise-Data Center oder einem anderen Cloud-Provider), in dem Sie private Verbindungen einrichten möchten.
Nachdem Sie ein VCN erstellt haben, können Sie die zugehörigen CIDR-Blöcke ändern, hinzufügen und entfernen.
Berücksichtigen Sie beim Entwerfen der Subnetze den Verkehrsfluss und die Sicherheitsanforderungen. Hängen Sie alle Ressourcen innerhalb einer bestimmten Ebene oder Rolle an dasselbe Subnetz an, das als Sicherheitsgrenze dienen kann.
- Sicherheit
Mit Policys können Sie einschränken, wer auf die OCI-Ressourcen in Ihrem Unternehmen zugreifen kann und wie sie darauf zugreifen können.
Mit Oracle Cloud Guard können Sie die Sicherheit Ihrer Ressourcen in OCI proaktiv überwachen und verwalten. Cloud Guard verwendet Detektorrezepte, die Sie definieren können, um Ihre Ressourcen auf Sicherheitsschwächen zu untersuchen und Operatoren und Benutzer auf riskante Aktivitäten zu überwachen. Wenn eine fehlerhafte oder unsichere Aktivität erkannt wird, empfiehlt Cloud Guard Korrekturmaßnahmen und unterstützt diese Aktionen basierend auf von Ihnen definierbaren Responder-Rezepten. Für Ressourcen, für die eine maximale Sicherheit erforderlich ist, empfiehlt Oracle, Sicherheitszonen zu verwenden. Eine Sicherheitszone ist ein Compartment, das mit einem von Oracle definierten Rezept von Sicherheits-Policys verknüpft ist, die auf Best Practices basieren. Beispiel: Die Ressourcen in einer Sicherheitszone dürfen nicht aus dem öffentlichen Internet zugänglich sein und müssen mit vom Kunden verwalteten Schlüsseln verschlüsselt werden. Wenn Sie Ressourcen in einer Sicherheitszone erstellen und aktualisieren, validiert OCI die Vorgänge anhand der Policys im Rezept der Sicherheitszone und verweigert Vorgänge, die eine der Policys verletzen.
- Autonomous Data Warehouse
Object Storage bietet zuverlässige und kosteneffiziente Dauerhaftigkeit von Daten. Sie ermöglicht einen schnellen Zugriff auf große Mengen an strukturierten und unstrukturierten Daten eines beliebigen Inhaltstyps, einschließlich Datenbankdaten, Analysedaten, Bildern, Videos und mehr. Wir empfehlen die Verwendung von Standardspeicher zur Aufnahme von Daten aus externen Quellen und zur weiteren Verarbeitung, da dieser schnell und häufig darauf zugreifen kann. Sie können eine Lebenszyklus-Policy erstellen, um die Daten aus dem Standard in den Cold Storage zu verschieben, wenn sie nicht mehr häufig benötigt wird.
- Data Catalog
Data Catalog Um eine vollständige und ganzheitliche End-to-End-Übersicht über die auf der Plattform gespeicherten und fließenden Daten zu erhalten, sollten Sie nicht nur ein Harvesting für die Datenpersistenzschicht, sondern auch für die Quelldatenspeicher in Betracht ziehen. Durch die Zuordnung dieser erfassten technischen Metadaten zum Geschäftsglossar und die Anreicherung mit benutzerdefinierten Eigenschaften können Sie Geschäftskonzepte zuordnen und Sicherheits- und Zugriffsdefinitionen dokumentieren und steuern.
Um die Erstellung externer Oracle Autonomous Data Warehouse-Tabellen zu vereinfachen, die in Oracle Cloud Infrastructure Object Storage gespeicherte Daten virtualisieren, verwenden Sie die zuvor von Oracle Cloud Infrastructure Data Catalog geernteten Metadaten. Dies vereinfacht die Erstellung externer Tabellen, erzwingt die Konsistenz von Metadaten in allen Datenspeichern und ist weniger anfällig für menschliche Fehler.