Modell der geteilten Verantwortung für Resilienz

Für die Resilienz in der Cloud sind sowohl Sie (der Benutzer) als auch Oracle verantwortlich. Damit Sie resiliente Workload-Architekturen in Oracle Cloud Infrastructure (OCI) erstellen können, müssen Sie Ihre High-Availability- und Disaster-Recovery-Anforderungen und -Verantwortlichkeiten kennen.

Verantwortung von Oracle: "Resilienz der Cloud"

OCI ist für die "Resilienz der Cloud" verantwortlich. OCI bietet eine robuste, hochverfügbare und resiliente globale Cloud-Infrastruktur, die aus Data Centern, Netzwerk, physischer Hardware und Software besteht, um Ausfallzeiten zu minimieren und sicherzustellen, dass Anwendungen auch bei Ausfällen zugänglich und funktionsfähig bleiben. OCI bietet End-to-End-Service Level Agreements (SLAs) für Performance, Verfügbarkeit und Verwaltbarkeit dieser Services.

OCI wird physisch in mehreren Regionen gehostet. Die Regionen sind unabhängig und geografisch innerhalb eines Landes, zwischen Ländern oder zwischen Kontinenten verteilt. Jede Region besteht aus einer oder mehreren Availability-Domains (ADs), die als Einzel-AD oder Multi-AD bezeichnet werden. Jede AD ist ein unabhängiges Data Center. In Multi-AD-Regionen ist jede einzelne Domain isoliert, um das Ausfallrisiko bei anderen zu reduzieren.

Die ADs sind über ein gesichertes Netzwerk mit hoher Bandbreite und geringer Latenz verbunden, sodass Sie resiliente, hochverfügbare Lösungen über mehrere ADs hinweg (sofern verfügbar) erstellen können. Darüber hinaus enthält jede AD drei Faultdomains (FDs). Jede FD ist eine Gruppe von Hardware und Infrastruktur, die sich von den anderen FDs in derselben AD unterscheidet. FDs ermöglichen die Verteilung von Ressourcen, sodass sie nicht von derselben physischen Hardware innerhalb einer einzelnen AD abhängig sind. Infolgedessen haben Hardwareausfälle oder Wartungsereignisse, die sich auf eine FD auswirken, keine Auswirkungen auf die Ressourcen in anderen FDs.

OCI-Coreinfrastrukturkomponenten wie Compute-, Speicher-, Networking-, Identitäts- und Datenbankservices verfügen über integrierte Redundanzen. Sie können ADs, FDs und diese Services nutzen, um hochverfügbare Anwendungen zu erstellen. OCI führt jedoch nicht automatisch Replikation, Bereitstellung oder Failover für Anwendungsressourcen und Daten, die im Mandanten eines Benutzers bereitgestellt sind, zu einer anderen AD oder Region durch, wenn ein Notfall oder ein partieller/vollständiger regionaler Ausfall eintritt. Der Benutzer ist dafür verantwortlich, seine Anwendungsressourcen über ADs und Regionen hinweg bereitzustellen.

Beispiel: Wenn eine Anwendung auf einer Compute-Instanz (mit einem Block-Volume) innerhalb einer AD bereitgestellt wird (z.B. AD1), stellt OCI nicht automatisch eine neue Compute-Instanz in einer anderen AD oder Region bereit, falls die Instanz von einem Fehler betroffen ist.

Hinweis: In Block Storage sind Redundanzen integriert.

Ihre Verantwortung: "Resilienz in der Cloud"

Um die "Resilienz in der Cloud" zu erreichen, sind Sie letztendlich für die Entwicklung eines umfassenden Geschäftskontinuitätsplans verantwortlich, einschließlich High-Availability-(HA-) und Disaster-Recovery-(DR-)Strategie, Risikobewertungen und Vorfallsreaktionspläne. Außerdem sind Sie für die Bereitstellung Ihrer Anwendungen und Systeme über mehrere FDs, ADs und Regionen hinweg für Resilienz und Fehlertoleranz mit OCI-Best Practices und Maximum Availability Architecture-(MAA-)Frameworks verantwortlich. Jede Komponente der Anwendung sollte so konzipiert sein, dass sie das maximale Potenzial für Betriebszeit und Zugänglichkeit bietet. Um High Availability zu gewährleisten, müssen einzelne Fehlerpunkte identifiziert und beseitigt werden, sodass die Anwendung auch bei einem Ausfall von Komponenten weiterhin ausgeführt wird und verfügbar bleibt.

Bei einem Notfall oder vollständigen regionalen Ausfall (unabhängig davon, ob es sich um eine Einzel-AD- oder Multi-AD-Region handelt) müssen Sie sicherstellen, dass die OCI-Ressourcenverfügbarkeit für Ihren Mandanten in der Failover-AD oder -Region zugewiesen wird, bevor Sie einen Disaster-Recovery-Plan ausführen.

Resilienz ist eine geteilte Verantwortung zwischen OCI und Ihnen

OCI-Verantwortlichkeiten: Resilienz der Cloud

Komponenten	Beschreibung
Region, Availability-Domains, Faultdomains	Oracle stellt eine äußerst zuverlässige globale Cloud-Infrastruktur bereit und verwaltet, überwacht, sichert und betreibt diese.
OCI-Speicherservices	Oracle stellt Speicherservices bereit und betreibt diese, um High Availability für Services zu ermöglichen und Daten innerhalb einer Availability-Domain physisch zu schützen.
OCI-Corenetworkingservices	Oracle bietet High Availability für OCI-Corenetworkingservices und Konnektivitätsservices mit globaler Trafficformung, die eine optimale Anwendungskonnektivität und -performance sicherstellt.
OCI-Datenbankservices	Oracle erstellt und initiiert den Datenbankservice, führt Hardwarewartung und -verbesserungen durch, aktualisiert Speicherserver und überwacht den Servicezustand.

Ihre Verantwortlichkeiten: Resilienz in der Cloud

Komponenten	Beschreibung
Planung und Tests von HA, DR und Failover	Planen, konfigurieren und testen Sie HA-, DR- und Failover-Lösungen für Daten- und Serviceresilienz, und führen Sie diese aus, um die Geschäftskontinuität sicherzustellen.
Betrieb und Verwaltung	Sie sind für Betrieb und Monitoring Ihrer Cloud-Ressourcen verantwortlich und müssen Best Practices für eine resiliente Cloud-Architektur implementieren, um Serviceunterbrechungen zu minimieren.
Workload-Architektur	Sie sind für die Verwendung von Best Practices für die Unternehmensarchitektur und MAA-(Maximum Availability Architecture-)Frameworks verantwortlich, um zuverlässige, sichere, effiziente und kostengünstige Cloud-Workloads zu entwerfen, zu erstellen und zu verwalten.
Resilienzplanung	Sie sind für die Entwicklung eines umfassenden Geschäftskontinuitätsplans verantwortlich, einschließlich HA- und DR-Strategie, Risikobewertungen und Vorfallsreaktionspläne.

So stellt OCI Cloud-Resilienz bereit

Die folgenden Informationen beschreiben, wie OCI Cloud-Resilienz bereitstellt.

OCI-Verantwortlichkeiten für Services

Die OCI-Architektur wurde im Hinblick auf die Resilienz entwickelt und stellt mehrere Komponenten bereit, die dieselbe Aufgabe ausführen können.
OCI überwacht den Zustand von OCI-Services und verwaltet den automatischen Failover bei Serviceunterbrechungen.
Coreplattformservices, Server und Speicher sowie Networking-, Core Identity and Access Management-(IAM-) und Telemetrieservices von OCI werden redundant konzipiert und bereitgestellt. OCI überwacht kontinuierlich ihren Zustand. Bei einem Ausfall werden automatische Failover-Prozesse ausgeführt, um Kontinuität zu gewährleisten.
OCI-Speicherservices verfügen über integrierte Resilienz. OCI Block Volume bietet einen persistenten, leistungsstarken Datenspeicher innerhalb einer AD. Gleichermaßen bietet OCI Object Storage einen persistenten, dauerhaften und leistungsstarken Datenspeicher innerhalb einer AD. Darüber hinaus repliziert der Objektspeicher in Multi-AD-Regionen die Daten automatisch über ADs hinweg. File Storage verwaltet Replikate über Faultdomains hinweg innerhalb einer AD.
Oracle bietet äußerst robuste und resiliente Datenbankservices in OCI, mit denen Sie die am besten geeignete HA- und DR-Strategie für Ihre Anforderungen auswählen können.
OCI DNS wird über mehrere geografisch verteilte Data Center gehostet und ist somit hochverfügbar. Außerdem bietet der Service eine geringe Latenz, ein einfaches Load Balancing und Resilienz, um Ausfälle oder hohen Traffic mit minimalen Auswirkungen auf die Benutzer bewältigen zu können.

Ihre Verantwortlichkeiten beim Erreichen von Resilienz

Die folgenden Informationen beschreiben, inwiefern Sie für das Erreichen von Resilienz verantwortlich sind.

Prozessempfehlungen

Dokumentieren Sie einen High-Availability-Plan basierend auf diesen Best Practices. Beachten Sie, dass eine höhere Verfügbarkeit zu höheren Kosten und mehr Komplexität führt.
Dokumentieren Sie einen Disaster-Recovery-Plan basierend auf Best Practices, einschließlich Recovery Point Objectives (RPO) und Recovery Time Objectives (RTO).
Dokumentieren Sie die Resilienzanforderungen auf Workload- und Anwendungsebene, und planen Sie Redundanz, Monitoring und Failover nach Bedarf.
Stellen Sie einen Failover-Plan für Workloads und Anwendungen mit Auswirkungen auf das Unternehmen bereit, einschließlich Szenarios für Serviceunterbrechungen, geplante Wartung und Anwendungsebene unter Verwendung von Oracle Data Guard oder Oracle Real Application Clusters (RAC).
Stellen Sie Full Stack Disaster Recovery für kritische Workloads bereit.

Identitätsdomains

Bereiten Sie Disaster Recovery und Identitätsdomains vor.
Die Identitätsdomainreplikation ist immer für die "Standard"-Identitätsdomain aktiviert. Die "Standard"-Identitätsdomain wird immer in allen Regionen repliziert, die der Mandant abonniert hat. Wenn ein Administrator eine andere Region abonniert, wird die "Standard"-Identitätsdomain automatisch in dieser Region repliziert.
Zusätzliche Identitätsdomains werden in der bei der Erstellung angegebenen "Hauptregion" erstellt. Sie werden nur dann in anderen abonnierten Regionen repliziert, wenn die Replikation speziell aktiviert ist.

Networking

Planen Sie High Availability für Netzwerkressourcen, und nutzen Sie den Load Balancer-Service, um Traffic zu verteilen.
- Nutzen Sie Peering für die virtuellen Cloud-Netzwerke (VCNs) in den verschiedenen Regionen, um die Netzwerkkonnektivität zu vereinfachen.
OCI bietet Ihnen die Möglichkeit, ein sekundäres DNS bereitzustellen, um Redundanz für webbasierte Anwendungen zu erstellen.

Compute

Planen Sie High Availability für Compute-Instanzen, verteilen Sie diese auf FDs in jeder der ADs, und platzieren Sie sie hinter Load Balancern.
- Aktivieren Sie das Backup für einen Point-in-Time Snapshot Ihrer Volumes.
- Richten Sie die regionsübergreifende Replikation von Block-Volumes, Boot-Volumes und Volume-Gruppen ein.
- Stellen Sie die Compute-Images sowohl in einer aktiven als auch in einer DR-Region zur Verfügung. Stellen Sie in der Region für DR ein minimales Setup für die Verwaltung von Warm Standby bereit. Verwenden Sie dann Kapazitätsreservierungen, um den Rest der erforderlichen Kapazität zur Ausführung aller VMs zu reservieren, wenn die DR-Region zur primären Region wird.

Speicher

Planen Sie High Availability für Speicher.
- Aktivieren Sie automatisierte Backups für den Objektspeicher und die regionsübergreifende Objektspeicherreplikation für DR-Zwecke.
- Aktivieren Sie die Features zum Volume-Klonen für Block-Volumes, und nutzen Sie das Replikationsfeature des Block Volume-Service, um Redundanz über verschiedene ADs hinweg (gleiche oder andere Region) sicherzustellen.
- Aktivieren Sie Snapshots und Klone des Dateisystems. Der Snapshot-Lebenszyklus kann automatisch mit dem Feature für policy-basierte Snapshots verwaltet werden. Asynchrone Replikation von OCI File Storage für Failover- und Failback-Szenarios nutzen
- Konfigurieren Sie die asynchrone Block-Volume-Replikation, um Volumes und Volume-Gruppen in einer anderen Region zu replizieren. Aktivieren Sie das Backupfeature, um absturzkonsistente Backups für Volumes und Volume-Gruppen zu erstellen. Aktivieren Sie Kopien in eine andere Region.
- Für File Storage können Sie neben der integrierten asynchronen Replikation in eine andere Availability-Domain und Region auch das Feature File Storage-Klonen für ein fast sofortiges RTO verwenden.

Datenbank

Oracle Database: Planen Sie High Availability von Datenbank auf Basis der Maximum Availability Architecture (MAA). Höhere RPO- und RTO-Metriken steigern die Kosten und Komplexität.
- Definieren Sie die richtige DB-Edition entsprechend den High-Availability-Anforderungen.
- Nutzen Sie Oracle Data Guard, um Daten zwischen Oracle-DB-Knoten zu replizieren.
- Verwenden Sie von Oracle Clusterware verwaltete Datenbankservices, um Ihre Anwendung zu verbinden. Verwenden Sie für Oracle Data Guard-Umgebungen rollenbasierte Services.
- Verwenden Sie die empfohlene Verbindungszeichenfolge mit integrierten Timeouts, Wiederholungen und Verzögerungen.
- Konfigurieren Sie Ihre Verbindungen mit Fast Application Notification (FAN).
- Nutzen Sie Application Continuity oder Transparent Application Continuity, um aktive, nicht festgeschriebene Transaktionen nach Fehlern transparent wiederzugeben.
- Aktivieren Sie Replikate für eine aktuelle Version der Daten.
- Verwenden Sie OCI-Services: Recovery Manager (RMAN), aktualisierbare integrierbare Datenbanken (PDBs), Oracle Data Guard und Active Data Guard, Autonomous Data Guard und OCI GoldenGate.
MySQL: OCI bietet eine High Availability-Architektur und Disaster-Recovery-Konfigurationen für Oracle MySQL Database Service.

DR-Entscheidungsbaum für HA in OCI

OCI-HA - DR-Entscheidungsbaum.

Mehr erfahren

Dokumentation

Lösungs-Playbooks

Referenzarchitekturen

Oracle Cloud Infrastructure-Dokumentation