Modell der geteilten Verantwortung für Resilienz

Für die Resilienz in der Cloud sind sowohl Sie (der Benutzer) als auch Oracle verantwortlich. Damit Sie resiliente Workload-Architekturen in Oracle Cloud Infrastructure (OCI) erstellen können, müssen Sie Ihre High-Availability- und Disaster-Recovery-Anforderungen und -Verantwortlichkeiten kennen.

Verantwortung von Oracle: "Resilienz der Cloud"

OCI ist für die "Resilienz der Cloud" verantwortlich. OCI bietet eine robuste, hochverfügbare und resiliente globale Cloud-Infrastruktur, die aus Data Centern, Netzwerk, physischer Hardware und Software besteht, um Ausfallzeiten zu minimieren und sicherzustellen, dass Anwendungen auch bei Ausfällen zugänglich und funktionsfähig bleiben. OCI bietet End-to-End-Service Level Agreements (SLAs) für Performance, Verfügbarkeit und Verwaltbarkeit dieser Services.

OCI wird physisch in mehreren Regionen gehostet. Die Regionen sind unabhängig und geografisch innerhalb eines Landes, zwischen Ländern oder zwischen Kontinenten verteilt. Jede Region besteht aus einer oder mehreren Availability-Domains (ADs), die als Einzel-AD oder Multi-AD bezeichnet werden. Jede AD ist ein unabhängiges Data Center. In Multi-AD-Regionen ist jede einzelne Domain isoliert, um das Ausfallrisiko bei anderen zu reduzieren.

Die ADs sind über ein gesichertes Netzwerk mit hoher Bandbreite und geringer Latenz verbunden, sodass Sie resiliente, hochverfügbare Lösungen über mehrere ADs hinweg (sofern verfügbar) erstellen können. Darüber hinaus enthält jede AD drei Faultdomains (FDs). Jede FD ist eine Gruppe von Hardware und Infrastruktur, die sich von den anderen FDs in derselben AD unterscheidet. FDs ermöglichen die Verteilung von Ressourcen, sodass sie nicht von derselben physischen Hardware innerhalb einer einzelnen AD abhängig sind. Infolgedessen haben Hardwareausfälle oder Wartungsereignisse, die sich auf eine FD auswirken, keine Auswirkungen auf die Ressourcen in anderen FDs.

OCI-Coreinfrastrukturkomponenten wie Compute-, Speicher-, Networking-, Identitäts- und Datenbankservices verfügen über integrierte Redundanzen. Sie können ADs, FDs und diese Services nutzen, um hochverfügbare Anwendungen zu erstellen. OCI führt jedoch nicht automatisch Replikation, Bereitstellung oder Failover für Anwendungsressourcen und Daten, die im Mandanten eines Benutzers bereitgestellt sind, zu einer anderen AD oder Region durch, wenn ein Notfall oder ein partieller/vollständiger regionaler Ausfall eintritt. Der Benutzer ist dafür verantwortlich, seine Anwendungsressourcen über ADs und Regionen hinweg bereitzustellen.

Beispiel: Wenn eine Anwendung auf einer Compute-Instanz (mit einem Block-Volume) innerhalb einer AD bereitgestellt wird (z.B. AD1), stellt OCI nicht automatisch eine neue Compute-Instanz in einer anderen AD oder Region bereit, falls die Instanz von einem Fehler betroffen ist.

Hinweis: In Block Storage sind Redundanzen integriert.

Ihre Verantwortung: "Resilienz in der Cloud"

Um die "Resilienz in der Cloud" zu erreichen, sind Sie letztendlich für die Entwicklung eines umfassenden Geschäftskontinuitätsplans verantwortlich, einschließlich High-Availability-(HA-) und Disaster-Recovery-(DR-)Strategie, Risikobewertungen und Vorfallsreaktionspläne. Außerdem sind Sie für die Bereitstellung Ihrer Anwendungen und Systeme über mehrere FDs, ADs und Regionen hinweg für Resilienz und Fehlertoleranz mit OCI-Best Practices und Maximum Availability Architecture-(MAA-)Frameworks verantwortlich. Jede Komponente der Anwendung sollte so konzipiert sein, dass sie das maximale Potenzial für Betriebszeit und Zugänglichkeit bietet. Um High Availability zu gewährleisten, müssen einzelne Fehlerpunkte identifiziert und beseitigt werden, sodass die Anwendung auch bei einem Ausfall von Komponenten weiterhin ausgeführt wird und verfügbar bleibt.

Bei einem Notfall oder vollständigen regionalen Ausfall (unabhängig davon, ob es sich um eine Einzel-AD- oder Multi-AD-Region handelt) müssen Sie sicherstellen, dass die OCI-Ressourcenverfügbarkeit für Ihren Mandanten in der Failover-AD oder -Region zugewiesen wird, bevor Sie einen Disaster-Recovery-Plan ausführen.

Resilienz ist eine geteilte Verantwortung zwischen OCI und Ihnen

OCI-Verantwortlichkeiten: Resilienz der Cloud

Komponenten Beschreibung
Region, Availability-Domains, Faultdomains Oracle stellt eine äußerst zuverlässige globale Cloud-Infrastruktur bereit und verwaltet, überwacht, sichert und betreibt diese.
OCI-Speicherservices Oracle stellt Speicherservices bereit und betreibt diese, um High Availability für Services zu ermöglichen und Daten innerhalb einer Availability-Domain physisch zu schützen.
OCI-Corenetworkingservices Oracle bietet High Availability für OCI-Corenetworkingservices und Konnektivitätsservices mit globaler Trafficformung, die eine optimale Anwendungskonnektivität und -performance sicherstellt.
OCI-Datenbankservices Oracle erstellt und initiiert den Datenbankservice, führt Hardwarewartung und -verbesserungen durch, aktualisiert Speicherserver und überwacht den Servicezustand.

Ihre Verantwortlichkeiten: Resilienz in der Cloud

Komponenten Beschreibung
Planung und Tests von HA, DR und Failover Planen, konfigurieren und testen Sie HA-, DR- und Failover-Lösungen für Daten- und Serviceresilienz, und führen Sie diese aus, um die Geschäftskontinuität sicherzustellen.
Betrieb und Verwaltung Sie sind für Betrieb und Monitoring Ihrer Cloud-Ressourcen verantwortlich und müssen Best Practices für eine resiliente Cloud-Architektur implementieren, um Serviceunterbrechungen zu minimieren.
Workload-Architektur Sie sind für die Verwendung von Best Practices für die Unternehmensarchitektur und MAA-(Maximum Availability Architecture-)Frameworks verantwortlich, um zuverlässige, sichere, effiziente und kostengünstige Cloud-Workloads zu entwerfen, zu erstellen und zu verwalten.
Resilienzplanung Sie sind für die Entwicklung eines umfassenden Geschäftskontinuitätsplans verantwortlich, einschließlich HA- und DR-Strategie, Risikobewertungen und Vorfallsreaktionspläne.

So stellt OCI Cloud-Resilienz bereit

Die folgenden Informationen beschreiben, wie OCI Cloud-Resilienz bereitstellt.

OCI-Verantwortlichkeiten für Services

  • Die OCI-Architektur wurde im Hinblick auf die Resilienz entwickelt und stellt mehrere Komponenten bereit, die dieselbe Aufgabe ausführen können.
  • OCI überwacht den Zustand von OCI-Services und verwaltet den automatischen Failover bei Serviceunterbrechungen.
  • Coreplattformservices, Server und Speicher sowie Networking-, Core Identity and Access Management-(IAM-) und Telemetrieservices von OCI werden redundant konzipiert und bereitgestellt. OCI überwacht kontinuierlich ihren Zustand. Bei einem Ausfall werden automatische Failover-Prozesse ausgeführt, um Kontinuität zu gewährleisten.
  • OCI-Speicherservices verfügen über integrierte Resilienz. OCI Block Volume bietet einen persistenten, leistungsstarken Datenspeicher innerhalb einer AD. Gleichermaßen bietet OCI Object Storage einen persistenten, dauerhaften und leistungsstarken Datenspeicher innerhalb einer AD. Darüber hinaus repliziert der Objektspeicher in Multi-AD-Regionen die Daten automatisch über ADs hinweg. File Storage verwaltet Replikate über Faultdomains hinweg innerhalb einer AD.
  • Oracle bietet äußerst robuste und resiliente Datenbankservices in OCI, mit denen Sie die am besten geeignete HA- und DR-Strategie für Ihre Anforderungen auswählen können.
  • OCI DNS wird über mehrere geografisch verteilte Data Center gehostet und ist somit hochverfügbar. Außerdem bietet der Service eine geringe Latenz, ein einfaches Load Balancing und Resilienz, um Ausfälle oder hohen Traffic mit minimalen Auswirkungen auf die Benutzer bewältigen zu können.

Ihre Verantwortlichkeiten beim Erreichen von Resilienz

Die folgenden Informationen beschreiben, inwiefern Sie für das Erreichen von Resilienz verantwortlich sind.

Prozessempfehlungen

Identitätsdomains

  • Bereiten Sie Disaster Recovery und Identitätsdomains vor.
  • Die Identitätsdomainreplikation ist immer für die "Standard"-Identitätsdomain aktiviert. Die "Standard"-Identitätsdomain wird immer in allen Regionen repliziert, die der Mandant abonniert hat. Wenn ein Administrator eine andere Region abonniert, wird die "Standard"-Identitätsdomain automatisch in dieser Region repliziert.
  • Zusätzliche Identitätsdomains werden in der bei der Erstellung angegebenen "Hauptregion" erstellt. Sie werden nur dann in anderen abonnierten Regionen repliziert, wenn die Replikation speziell aktiviert ist.

Networking

Compute

  • Planen Sie High Availability für Compute-Instanzen, verteilen Sie diese auf FDs in jeder der ADs, und platzieren Sie sie hinter Load Balancern.
    • Aktivieren Sie das Backup für einen Point-in-Time Snapshot Ihrer Volumes.
    • Richten Sie die regionsübergreifende Replikation von Block-Volumes, Boot-Volumes und Volume-Gruppen ein.
    • Stellen Sie die Compute-Images sowohl in einer aktiven als auch in einer DR-Region zur Verfügung. Stellen Sie in der Region für DR ein minimales Setup für die Verwaltung von Warm Standby bereit. Verwenden Sie dann Kapazitätsreservierungen, um den Rest der erforderlichen Kapazität zur Ausführung aller VMs zu reservieren, wenn die DR-Region zur primären Region wird.

Speicher

  • Planen Sie High Availability für Speicher.
    • Aktivieren Sie automatisierte Backups für den Objektspeicher und die regionsübergreifende Objektspeicherreplikation für DR-Zwecke.
    • Aktivieren Sie die Features zum Volume-Klonen für Block-Volumes, und nutzen Sie das Replikationsfeature des Block Volume-Service, um Redundanz über verschiedene ADs hinweg (gleiche oder andere Region) sicherzustellen.
    • Aktivieren Sie Snapshots und Klone des Dateisystems. Der Snapshot-Lebenszyklus kann automatisch mit dem Feature für policy-basierte Snapshots verwaltet werden. Asynchrone Replikation von OCI File Storage für Failover- und Failback-Szenarios nutzen
    • Konfigurieren Sie die asynchrone Block-Volume-Replikation, um Volumes und Volume-Gruppen in einer anderen Region zu replizieren. Aktivieren Sie das Backupfeature, um absturzkonsistente Backups für Volumes und Volume-Gruppen zu erstellen. Aktivieren Sie Kopien in eine andere Region.
    • Für File Storage können Sie neben der integrierten asynchronen Replikation in eine andere Availability-Domain und Region auch das Feature File Storage-Klonen für ein fast sofortiges RTO verwenden.

Datenbank

DR-Entscheidungsbaum für HA in OCI

OCI-HA - DR-Entscheidungsbaum.

Mehr erfahren

Dokumentation

Lösungs-Playbooks

Referenzarchitekturen