High Availability für Compute-Instanzen planen

Oracle Cloud Infrastructure Compute stellt Bare-Metal- und Virtual-Machine-(VM-)Instanzen bereit, mit denen Sie jeden erforderlichen Servergröße bereitstellen können - von einer kleinen VM mit einem einzelnen Core bis hin zu einem großen VM- oder Bare-Metal-Server mit vielen Cores und einem größeren RAM-Speicher. Diese Optionen gewährleisten Performance, Flexibilität und Kontrolle für die Ausführung Ihrer anspruchsvollsten Anwendungen und Workloads in der Cloud.

Um High Availability für Ihre Compute-Instanzen zu planen, sollten Sie folgende wichtige Designstrategien berücksichtigen:

Beseitigen Sie einzelne Fehlerpunkte, indem Sie Faultdomains und Availability-Domains ordnungsgemäß nutzen.
Monitoring, Instanzpools und Load Balancer verwenden.
Indem Sie sicherstellen, dass Ihr Design sowohl die Datenverfügbarkeit als auch die Integrität Ihrer Compute-Instanzen schützt.

Dieser Artikel beschreibt diese Strategien.

Instanzen über Faultdomains hinweg verteilen

Einer der Schlüsselprinzipien bei der Entwicklung von High Availability-Lösungen besteht darin, Single Points of Failure zu vermeiden. Ein wichtiges Designprinzip wäre dann die Verteilung Ihrer Instanzen auf mehrere Faultdomains.

Wenn Sie in einem Deployment mit einer einzelnen Availability-Domain Faultdomains nutzen, können Sie die Verfügbarkeit von Anwendungen erhöhen, die auf Oracle Cloud Infrastructure ausgeführt werden. Die Architektur Ihrer Anwendung bestimmt, ob Sie Instanzen mithilfe von Faultdomains trennen oder gruppieren.

Szenario 1: Hoch verfügbare Anwendungsarchitektur
Bei diesem Szenario ist eine High Availability-Anwendung vorhanden, beispielsweise zwei Webserver und eine Clusterdatenbank. Hier gruppieren Sie einen Webserver und einen Datenbankknoten in einer Faultdomain und die andere Hälfte jedes Paares in einer anderen Faultdomain. Diese Architektur stellt sicher, dass ein Fehler in einer Faultdomain nicht in der Anwendung auftritt.
Szenario 2: Architektur eines einzelnen Web-Servers und einer Datenbankinstanz
In diesem Szenario ist die Anwendungsarchitektur nicht hochverfügbar, beispielsweise mit einem Webserver und einer Datenbankinstanz. Hier müssen sich Webserver und Datenbankinstanz in derselben Faultdomain befinden. Diese Architektur stellt sicher, dass Ihre Anwendung nur von Fehlern dieser einzelnen Faultdomain betroffen ist.

Instanzen über Availability-Domains verteilen

High Availability ist auch das Deployment von Compute-Instanzen, die dieselben Aufgaben in mehreren Availability-Domains ausführen. Durch die Einführung von Redundanz in allen Data Centern wird ein Single Point of Failure beseitigt.

Bei einem Deployment mit mehreren Availability-Domains können Sie Instanzgruppen nach Availability-Domain trennen. Dadurch wird Ihre Anwendung vor Ausfällen auf Data Center-Ebene geschützt, wie Stromausfälle, physische Infrastrukturausfälle oder geplante Wartungsereignisse.

Wenn Instanzen über Availability-Domains oder Faultdomains verteilt werden, wird häufig ein Load Balancer verwendet, um die Ressourcennutzung zu verbessern, die Skalierung zu vereinfachen und High Availability sicherzustellen. Sie unterstützt das Routing eingehender Anforderungen an verschiedene Backend-Sets oder Gruppen von Compute-Instanzen, wobei der Netzwerktraffic untereinander verteilt wird.

Das folgende Diagramm zeigt Webserver-VMs, die in zwei Availability-Domains zur Implementierung von Redundanz bereitgestellt sind, zusammen mit einem Load Balancer:

Beschreibung der Abbildung public-lb.png

Hinweis:

Die Architektur zeigt mehrere Availability-Domains (ADs). Passen Sie bei einer Region mit einer einzelnen AD die Architektur an, um Ihre Ressourcen auf die Faultdomains innerhalb der AD zu verteilen.

Je nach System- oder Anwendungsanforderungen können Sie diese Architekturredundanz entweder im Standby- oder im Active-Modus implementieren:

Wenn die primäre Komponente im Standby-Modus ausfällt, übernimmt die Standbykomponente die Berechtigung. Der Standby-Modus wird in der Regel für Anwendungen verwendet, die ihren Status beibehalten müssen.
Im aktiven Modus werden keine Komponenten als primär oder Standby bezeichnet. Alle Komponenten beteiligen sich aktiv an der Ausführung derselben Aufgaben. Wenn eine der Komponenten ausfällt, werden die zugehörigen Aufgaben einfach an eine andere Komponente verteilt. Der aktive Modus wird in der Regel für zustandslose Anwendungen verwendet.

High Availability und Integrität Ihrer Daten sicherstellen

Stellen Sie bei einer High Availability-Architektur sicher, dass Ihr Design sowohl die Datenverfügbarkeit als auch die Integrität Ihrer Compute-Instanzen schützt. Um die Datenverfügbarkeit Ihrer Compute-Instanz zu schützen, können Sie Ihre Daten entweder replizieren oder in einem anderen Verzeichnis sichern.

Block Volume - Übersicht
Der Oracle Cloud Infrastructure Block Volume Service ermöglicht Ihnen das dynamische Provisioning und Verwalten von Blockspeicher-Volumes. Sie können Volumes erstellen, anhängen, verbinden und verschieben sowie die Volume-Performance gegebenenfalls ändern, um Ihre Speicher-, Performance- und Anwendungsanforderungen zu erfüllen. Nachdem Sie ein Volume an eine Instanz angehängt und damit verbunden haben, können Sie es wie eine herkömmliche Festplatte verwenden. Sie können ein Volume auch trennen und an eine andere Instanz anhängen, ohne dass Daten verloren gehen.
Datendauerhaftigkeit
Der Oracle Cloud Infrastructure Block Volume Service bietet im Vergleich zu angeschlossenen Standardlaufwerken eine hohe Dauerhaftigkeit der Daten. Alle Volumes werden automatisch für Sie repliziert, sodass sie vor Datenverlust geschützt werden können. Mehrere Kopien der Daten werden redundant auf mehreren Storage Servern mit integrierten Reparaturmechanismen gespeichert. Für das Ziel der Serviceebene ist der Block Volume Service so konzipiert, dass er eine 99,99-prozentige Dauerhaftigkeit für Block-Volumes und Boot-Volumes pro Jahr bereitstellt. Wir empfehlen jedoch, regelmäßige Backups zu erstellen, um sich vor dem Ausfall einer Availability-Domain zu schützen.
Volume-Reaktion
Der Block Volume Service bietet die Möglichkeit der laufenden automatischen asynchronen Replikation von Block-Volumes und Boot-Volumes in anderen Regionen oder Availability-Domains innerhalb derselben Region. Die regionsübergreifende Replikation in derselben Region wird nur für Regionen mit mehreren Availability-Domains unterstützt. Informationen dazu, welche Regionen mehrere Availability-Domains enthalten, finden Sie im Feld "Availability-Domains" in der Tabelle, in der die Regionen unter "Info über Regionen" und "Availaibility-Domains" aufgeführt werden. Dieses Feature unterstützt Szenarios für Disaster Recovery, Migration und Erweiterung der Geschäftstätigkeit Weitere Informationen finden Sie unter "Volumes replizieren", auf die Sie über das Thema "Mehr entdecken" an anderer Stelle in diesem Playbook zugreifen können.

Informationen zu Block Volume-Backups

Mit der Funktion für Backups des Oracle Cloud Infrastructure Block Volume-Service können Sie einen Point-in-Time Snapshot von Daten auf einem Block-Volume erstellen. Sie können ein Volume-Backup erstellen, während es an eine Instanz angehängt ist oder während es davon getrennt ist. Diese Backups können dann sofort nach einem Backup oder zu einem späteren Zeitpunkt auf neue Volumes wiederhergestellt werden.

Backups werden verschlüsselt und in OCI Object Storage gespeichert und können als neue Volumes in einer beliebigen Availability-Domain innerhalb derselben Region wiederhergestellt werden. Mit dieser Funktion erhalten Sie eine Ersatzkopie eines Volumes und können das Katastrophen-Recovery erfolgreich in derselben Region abschließen.

Yyou können ein Backup auf zwei Arten initiieren: indem Sie das Backup manuell starten oder eine Policy zuweisen, die einen Backupzeitplan definiert. Weitere Informationen zu Black-Volumes finden Sie unter "Überblick über Block-Volume-Backups", auf die Sie über das Thema "Weitere Informationen" an anderer Stelle in diesem Playbook zugreifen können. https://docs.oracle.com/en-us/iaas/Content/Block/Concepts/blockvolumebackups.htm

Synchrone oder asynchrone Replikation verwenden

Sie können Ihre Daten mit synchroner oder asynchroner Replikation schützen, wenn Ihre Compute-Instanz ausfällt:

Die Availability-Domains in einer Region sind über ein leistungsstarkes Netzwerk miteinander verbunden, das synchrone Replikation unterstützt. Wenn Ihre Anwendung ein sofortiges Failover benötigt und Datenverlust nicht tolerieren kann, verwenden Sie die synchrone Replikation. Aufgrund der Anforderungen an die Netzwerkperformance wird in der Regel die synchrone Replikation in einer Region verwendet.
Verwenden Sie für Anwendungen, die regionsübergreifend Datenschutz benötigen, eine asynchrone Replikation.

Traditionelle Backups sind eine weitere Möglichkeit, Ihre Daten zu schützen. Um maximale Datendauerhaftigkeit zu erreichen, speichern Sie Ihre Backups nicht in derselben Availability-Domain wie die ursprüngliche Compute-Instanz. Verwenden Sie Oracle Cloud Infrastructure Object Storage, um die Daten Ihrer Compute-Instanz zu sichern. Bei Compute-Instanzen mit lokalen NVMe-Laufwerken bietet ein geschütztes RAID-Array die beste Möglichkeit, sich vor einem NVMe-Geräteausfall zu schützen.

Weitere Informationen finden Sie unter "Schutz von Daten auf NVMe-Geräten", auf die Sie über das Thema "Mehr entdecken" an anderer Stelle in diesem Playbook zugreifen können.