Widerstand

Resilienz ist die Fähigkeit einer Anwendung oder Workload, sich schnell von Ausfällen zu erholen und High Availability aufrechtzuerhalten. Es ist ein wichtiger Aspekt des Cloud-Computing, da es sicherstellt, dass Anwendungen und Workloads zugänglich und funktionsfähig bleiben, selbst wenn unerwartete Ereignisse auftreten. Die folgenden Informationen beschreiben die Resilienz von Oracle Cloud Infrastructure (OCI). Die Informationen unterstreichen die Bedeutung der Resilienz im Cloud-Computing und die von OCI bereitgestellten Resilienzfeatures. Die Ausfallsicherheit sollte eine wichtige Überlegung sein, da sie die Geschäftskontinuität gewährleistet und das Risiko von Serviceunterbrechungen minimiert.

Wiederherstellung nach Fehler

OCI bietet eine Reihe von Tools und Services, die darauf ausgelegt sind, ein hohes Maß an Resilienz und Verfügbarkeit für Anwendungen und Workloads bereitzustellen. Ein Angebot ist der Platform-as-a-Service (PaaS), der mehrere Mechanismen zur Wiederherstellung nach Ausfällen und zur Gewährleistung einer hohen Betriebszeit für Workloads umfasst.

Beispiel: Der Autonomous AI Database-Service, der ein PaaS-Service ist, bietet integrierte Fehlertoleranz sowie automatische Backup- und Recovery-Funktionen. Bei einem Ausfall kann die Datenbank automatisch auf eine Standbydatenbank umschalten, Ausfallzeiten minimieren und die Kontinuität kritischer Geschäftsprozesse sicherstellen.

OCI bietet automatisierte Backup- und Recovery-Funktionen für Compute-Instanzen, mit denen Sie Instanzen im Falle eines Fehlers in einen früheren Status wiederherstellen können. Diese Funktion bietet Sicherheit, da Sie wissen, dass kritische Workloads bei einem unerwarteten Ereignis in einen funktionalen Zustand zurückversetzt werden können.

Die von OCI bereitgestellten Resilienz- und Verfügbarkeitsfunktionen, einschließlich PaaS-Services sowie automatisiertes Backup und Recovery, sorgen dafür, dass Anwendungen und Workloads immer verfügbar und leistungsstark sind. Auf diese Weise können Sie Ihren Kunden auch bei unerwarteten Ereignissen wie Hardwareausfällen oder anderen Störungen weiterhin Dienstleistungen anbieten.

High Availability

OCI bietet eine robuste und hochverfügbare Architektur, die speziell darauf ausgelegt ist, Ausfallzeiten zu minimieren und sicherzustellen, dass Anwendungen auch bei Ausfällen zugänglich und funktionsfähig bleiben. Diese Architektur wird erreicht, indem Ressourcen in mehreren Faultdomains (FD) und Availability-Domains (AD) innerhalb einer Region bereitgestellt werden. Jede Faultdomain (FD) stellt verschiedene physische Hardware innerhalb einer einzelnen Availability-Domain dar und bietet eine Anti-Affinität, während jede Availability-Domain (AD) ein unabhängiges Data Center ist, das von anderen ADs isoliert ist und Redundanz und Fehlertoleranz bietet. Jede Verfügbarkeitsdomäne enthält drei Faultdomains

Beispiel: Eine hochverfügbare Anwendung, z.B. eine mit zwei Webservern und einer geclusterten Datenbank. In diesem Szenario ist die ideale Platzierung für jede Komponente die Gruppierung eines Webservers und eines Datenbankknotens in einer Faultdomain und der anderen Hälfte jedes Paares in einer anderen Faultdomain. Diese Platzierungsstrategie stellt sicher, dass ein Ausfall einer Faultdomain nicht zu einem Ausfall für Ihre Anwendung führt, da die andere Hälfte jedes Komponentenpaares weiterhin funktioniert.

Die von OCI bereitgestellte hochverfügbare Architektur, einschließlich der Bereitstellung von Ressourcen über mehrere Faultdomains und Availability-Domains hinweg, sowie gepaarte Regionen für die Disaster Recovery, stellen sicher, dass Ihre Anwendungen und Workloads auch bei unerwarteten Ereignissen verfügbar und funktionsfähig bleiben. Dies gibt Ihnen die Gewissheit, dass Ihre Services für Ihre Kunden zugänglich bleiben und zur Aufrechterhaltung der Kundenzufriedenheit und der Geschäftskontinuität beitragen. Weitere Informationen finden Sie unter Empfehlungen und Best Practices für das Cloud Adoption Framework zu High Availability (HA).

Darüber hinaus bietet OCI gepaarte Regionen für Disaster Recovery, mit denen Sie Ihre Ressourcen für zusätzliche Resilienz über zwei Regionen hinweg replizieren können.

Disaster Recovery

Disaster Recovery (DR) ist der Prozess der Wiederherstellung von IT-Systemen und Infrastruktur nach einem katastrophalen Ereignis. Regionen sind unabhängig von anderen Regionen. Sie können extrem weit auseinanderliegen und durch Länder oder sogar Kontinente getrennt sein. Im Allgemeinen stellen Sie eine Anwendung in der Region bereit, in der sie am stärksten genutzt wird, weil die Verwendung nahegelegener Ressourcen schneller ist als die Verwendung entfernterer Ressourcen. Sie können jedoch auch Anwendungen in verschiedenen Regionen bereitstellen, um das Risiko regionaler katastrophaler Ereignisse zu mindern und unterschiedliche Anforderungen für rechtliche Zuständigkeiten, Steuerdomänen und andere geschäftliche oder soziale Kriterien zu erfüllen.

OCI bietet mehrere Disaster Recovery-Optionen, einschließlich Hot-, Warm- und Cold Standby-Lösungen. Hot Standby-Lösungen bieten eine Echtzeitreplikation von Daten und eignen sich ideal für geschäftskritische Workloads, die nahezu keine Ausfallzeiten erfordern. Warm Standby-Lösungen replizieren Daten in Intervallen und eignen sich für Workloads, die einige Ausfallzeiten tolerieren können. Cold Standby-Lösungen umfassen die manuelle Wiederherstellung von Systemen aus Backups und eignen sich für Workloads, die erhebliche Ausfallzeiten tolerieren können.

Außerdem unterstützt OCI mehrere HA-DR-Modelle, einschließlich aktiv-passiver und aktiv-aktiver Architekturen. Bei Active/Passive-Architekturen werden Ressourcen in einer Standby-Umgebung repliziert, die bei einem Ausfall aktiviert wird. Active/Active-Architekturen umfassen die Replikation von Ressourcen über mehrere Regionen oder ADs hinweg und die Verteilung von Traffic über diese hinweg, um Ausfallzeiten zu minimieren.

Maximum Availability Architecture

OCI bietet eine Reihe hocheffektiver HA-DR-Modelle, einschließlich aktiv-passiver und aktiv-aktiver Architekturen, um eine nahtlose Kontinuität und Hochverfügbarkeit kritischer Ressourcen im Falle eines Ausfalls oder einer Wartung sicherzustellen. Beispiel: In einer Active/Passive-Architektur repliziert die Standbyumgebung die Ressourcen und wird nur dann aktiv, wenn die primäre Umgebung ausfällt. Im Gegensatz dazu umfasst eine Active/Active-Architektur die Replikation von Ressourcen über mehrere Regionen oder ADs hinweg, um Traffic zu verteilen und Ausfallzeiten zu minimieren.

Um die End-to-End-Verfügbarkeit von Anwendungen und Datenbanken auf optimalen Ebenen zu gewährleisten, setzt OCI Chaos Engineering ein, eine Disziplin, die mit einem System experimentiert, um Vertrauen in seine Fähigkeit zu schaffen, turbulenten Bedingungen in der Produktion standzuhalten. Maximum Availability Architectures (MAA) nutzen Chaos Engineering während der gesamten Test- und Entwicklungslebenszyklen und injizieren aggressiv verschiedene Fehler und geplante Wartungsereignisse, um die Auswirkungen der Anwendung und Datenbank zu bewerten. Durch dieses Experiment werden Best Practices, Fehler und gewonnene Erkenntnisse abgeleitet und in die Praxis umgesetzt, um die Cloud-MAA-Lösungen von OCI zu entwickeln und zu verbessern.

Das automatische Datenbankbackup (ADB) in OCI wird in OCI Object Storage gespeichert und in eine andere Availability-Domain repliziert, sodass Sie Ihre Datenbanken im Falle eines Notfalls wiederherstellen können. Darüber hinaus können Sie für Oracle Autonomous AI Database on Exadata Cloud@Customer (ADB-C@C) ein Backup auf NFS oder Zero Data Loss Recovery Appliance (ZDLRA) erstellen. Sie sind jedoch für die Konfiguration und Verwaltung der Replikation dieser Backups verantwortlich.

Die erweiterten HA-DR-Modelle von OCI, Chaos Engineering und automatische Datenbankbackups mit Replikation auf mehrere Availability-Domains bieten umfassenden Schutz vor potenziellen Datenverlusten oder Systemausfällen und stellen so maximale Verfügbarkeit und Kontinuität kritischer Ressourcen sicher.

Mittlere Wiederherstellungszeit

Die MTTR (Mean Time to Restore) ist eine kritische Metrik, mit der die durchschnittliche Zeit für die Wiederherstellung eines Service oder Systems nach einem Ausfall gemessen wird. Eine verlängerte MTTR kann erhebliche finanzielle und seriöse Schäden für Unternehmen verursachen, was zu Umsatzeinbußen, einer geringeren Kundenzufriedenheit und sogar zu regulatorischen Bußgeldern führen kann.

OCI bietet mehrere Tools und Services, wie Terraform und Ansible, um MTTR zu reduzieren und die maximale Verfügbarkeit von Services sicherzustellen. Beispielsweise stehen automatisierte Backups und Recovery-Prozesse zur Verfügung, um Daten und Anwendungen im Falle eines Ausfalls oder einer Katastrophe schnell wiederherzustellen. Darüber hinaus ermöglicht die Echtzeitreplikation von Daten über mehrere Availability-Domains hinweg die schnelle Wiederherstellung von Services, minimiert Ausfallzeiten und reduziert die Auswirkungen von Ausfällen.

Es ist wichtig, MTTR kontinuierlich zu messen, um die Zeit zu verstehen, die für die Wiederherstellung von Services unter ungünstigen Bedingungen erforderlich ist. Diese Bewertung ist entscheidend, um Verbesserungs- und MTTR-Bereiche im Laufe der Zeit zu identifizieren, eine optimale Serviceverfügbarkeit sicherzustellen und das Risiko von Schäden durch längere Ausfallzeiten zu reduzieren.

Continuous Integration und Continuous Deployment

Kontinuierliche Integration und kontinuierliches Deployment (CI/CD) sind wichtige DevOps-Praktiken, mit denen Sie Ihren Softwareentwicklungsprozess optimieren, die Produktivität steigern und Fehler reduzieren können. Diese Übungen umfassen die Automatisierung des Prozesses zum Erstellen, Testen und Bereitstellen von Software. So können Sie Code häufiger mit verbesserter Qualität und Konsistenz veröffentlichen.

OCI unterstützt diese Best Practices durch die Integration mit gängigen CI/CD-Tools wie Jenkins, GitLab und GitHub. Diese Tools bieten eine effiziente und automatisierte Pipeline für die Softwareentwicklung und -bereitstellung, von Codeänderungen bis hin zu Test und Deployment. Durch die Integration dieser Tools in OCI können Sie die Skalierbarkeit und Flexibilität der Cloud nutzen, um den Entwicklungsprozess zu beschleunigen und die Gesamtproduktivität zu verbessern.

Beispiel: Durch die Nutzung von Jenkins auf OCI können Sie Erstellungs- und Deployment-Prozesse automatisieren und sicherstellen, dass Code gründlich getestet und schnell in Produktionsumgebungen bereitgestellt wird. Ebenso kann die Verwendung von GitLab in OCI eine nahtlose Zusammenarbeit zwischen Teams ermöglichen und eine effiziente Codefreigabe und Verfolgung von Änderungen ermöglichen. Darüber hinaus bietet die Integration von GitHub mit OCI eine Plattform, mit der Sie Code-Repositorys verwalten, die Versionskontrolle aktivieren und Codeprüfungen vereinfachen können.

Der OCI DevOps-Service ist ein vollständig verwalteter Cloud-Service, der CI/CD-Workflows für Entwickler unterstützt. Mit dieser Plattform können DevOps-Ingenieure Software und Anwendungen einfach in Oracle Cloud erstellen, testen und bereitstellen. So erhalten sie eine End-to-End-Lösung, mit der der Entwicklungsprozess optimiert wird.

Der Service ermöglicht die Erstellung von DevOps-Build- und Deployment-Pipelines, die Fehler im Zusammenhang mit Änderungen reduzieren und den Zeitaufwand für das Erstellen und Bereitstellen von Releases minimieren. Dadurch wird letztendlich die Gesamtqualität und Konsistenz des Codes verbessert. Darüber hinaus bietet der Service private Git-Repositorys für die Speicherung von sicherem Code und unterstützt Verbindungen zu externen Code-Repositorys, die eine optimierte Zusammenarbeit mit externen Teams ermöglichen.

Als vollständig verwalteter Cloud-Service bietet der DevOps-Service von OCI automatisierte Skalierung und Wartung, sodass Sie sich auf Code konzentrieren können, ohne sich um das Infrastrukturmanagement kümmern zu müssen. Dadurch wird sichergestellt, dass die Plattform immer auf dem neuesten Stand ist und zur Unterstützung des Entwicklungsprozesses verfügbar ist. Dies ist eine ideale Lösung, wenn Sie DevOps-Workflows optimieren und schnellere Releasezyklen mit hochwertigem Code erreichen möchten.

DevOps, SecOps, DevSecOps, IaC

DevOps, SecOps und DevSecOps sind kritische Methoden, mit denen Sie die Anforderungen moderner Softwareentwicklung erfüllen können, indem Sie auf Zusammenarbeit, Automatisierung und Sicherheit setzen. Infrastructure as Code (IaC) spielt eine wichtige Rolle bei der Bereitstellung und Konfiguration der Infrastruktur für die automatisierte Bereitstellung.

DevOps: Dies ist unerlässlich, da es die Zusammenarbeit zwischen Entwicklungs- und Betriebsteams fördert und sicherstellt, dass Software schneller, mit besserer Qualität und mehr Zuverlässigkeit bereitgestellt wird. Diese Methodik betont die Bedeutung der Automatisierung, sodass Teams Code effizienter erstellen, testen und bereitstellen können, wodurch die Markteinführungszeit verkürzt wird. In OCI können Sie DevOps-Praktiken mit Tools wie Jenkins, GitLab und GitHub verwenden, um den Softwareentwicklungsprozess zu automatisieren.
SecOps: Wichtig, da es die Sicherheit in den Entwicklungsprozess integriert, um sicherzustellen, dass Sicherheitslücken frühzeitig identifiziert und behoben werden, wodurch das Risiko von Verstößen reduziert und der Schutz sensibler Daten sichergestellt wird. Durch die Betonung der Bedeutung der Sicherheit stellt diese Methodik sicher, dass Sie sichere Softwareanwendungen erstellen und bereitstellen können. In OCI können Sie Integrationen mit Sicherheitstools von Drittanbietern wie Check Point und Fortinet verwenden, um erweiterte Bedrohungserkennung und -schutz bereitzustellen.
DevSecOps: Kombination dieser beiden Methoden mit Sicherheit, die von Anfang an in den DevOps-Prozess integriert ist. Dieser Ansatz stellt sicher, dass Anwendungen sicher und zuverlässig sind und Complianceanforderungen erfüllen. Indem Sie sich von Anfang an auf Sicherheit konzentrieren, können Sie sichere Anwendungen schneller, mit besserer Qualität und mehr Zuverlässigkeit erstellen und bereitstellen. In OCI können Sie integrierte Sicherheitsfunktionen wie Sicherheitszonen verwenden, um Workloads zu isolieren und den Netzwerktraffic zu kontrollieren, um die Sicherheit und Ausfallsicherheit zu verbessern.
IaC: Wichtige Übung zum Schreiben von Code zur Automatisierung des Deployments und der Verwaltung der Infrastruktur. Diese Methodik gewährleistet die Konsistenz und Zuverlässigkeit von Infrastrukturbereitstellungen, reduziert das Fehlerrisiko und verbessert die Ausfallsicherheit. In OCI können Sie die Bereitstellung und Konfiguration von Infrastrukturressourcen mit Tools wie Terraform und Ansible automatisieren.

Alles automatisieren

Automatisierung ist ein entscheidender Aspekt beim Aufbau und der Wartung einer resilienten Cloud-Infrastruktur. Durch die Automatisierung von Prozessen und Aufgaben können Fehler reduziert und die Effizienz gesteigert werden. Der Aufbau einer Kultur, die Automatisierung und Resilienz priorisiert, ist für die Aufrechterhaltung einer hohen Verfügbarkeit in der Cloud unerlässlich. Dies kann durch den Einsatz von Tools und Services wie Terraform, Ansible und Jenkins erreicht werden, die Automatisierungsfunktionen für das Infrastruktur-Deployment, die Konfiguration und das Management bereitstellen.

Beispiel: OCI bietet eine Reihe von Automatisierungstools, einschließlich Resource Manager, mit denen Sie die Erstellung, Konfiguration und Bereitstellung von Cloud-Ressourcen mit nativen Terraform- oder Oracle Cloud Infrastructure-APIs automatisieren können. Darüber hinaus kann die Automatisierung zur Ausführung routinemäßiger Aufgaben wie Backups und Updates das Fehlerrisiko erheblich reduzieren und die allgemeine Ausfallsicherheit Ihrer Cloud-Infrastruktur erhöhen.

Nichtfunktionale Anforderungen - SLI, SLO und SLA

Nicht funktionale Anforderungen wie Performance, Skalierbarkeit und Verfügbarkeit spielen eine entscheidende Rolle, um sicherzustellen, dass Anwendungen und Workloads die Geschäftsanforderungen erfüllen. Um dies zu erreichen, müssen Metriken vorhanden sein, mit denen die Performance und Verfügbarkeit von Services und Ressourcen gemessen wird. Service Level Indicators (SLIs), Service Level Objectives (SLOs) und Service Level Agreements (SLAs) sind Metriken, mit denen Sie die Effektivität Ihrer Cloud-Infrastruktur messen können.

OCI bietet eine Reihe von Tools und Services, mit denen Sie diese Metriken überwachen und verwalten können, einschließlich Cloud Monitoring, Logging und Notifications. Mit Cloud Monitoring können Sie Metriken und Logs über OCI-Ressourcen und -Services hinweg erfassen, analysieren und warnen. Es bietet einen einheitlichen Überblick über den Zustand und die Performance Ihrer Infrastruktur, sodass Sie Probleme, die sich auf Ihre SLIs, SLOs und SLAs auswirken können, schnell identifizieren und beheben können. Mit Logging können Sie Logdaten aus verschiedenen Quellen erfassen und analysieren, einschließlich OCI-Services, Anwendungen und Infrastrukturkomponenten. Mit Notifications können Sie Alerts und Benachrichtigungen erhalten, wenn vordefinierte Bedingungen erfüllt sind. So können Sie Maßnahmen ergreifen, bevor sich Probleme auf Ihre SLIs, SLOs und SLAs auswirken.

Durch die Nutzung dieser Tools und Services erhalten Sie einen umfassenden Einblick in Ihre Cloud-Infrastruktur und können SLIs, SLOs und SLAs proaktiv überwachen und verwalten. Auf diese Weise können Sie sicherstellen, dass Ihre Anwendungen und Workloads die Geschäftsanforderungen erfüllen, und schnell auf auftretende Probleme reagieren, Ausfallzeiten minimieren und die allgemeine Ausfallsicherheit verbessern.

Beispiel: Mit Cloud Monitoring können Sie die Antwortzeit und Verfügbarkeit einer in OCI gehosteten Webanwendung überwachen, während Sie mit Logging Fehler verfolgen und Performanceprobleme diagnostizieren. Mit Benachrichtigungen können Administratoren benachrichtigt werden, wenn Serviceunterbrechungen oder Performanceprobleme auftreten, sodass sie Maßnahmen ergreifen können, bevor das Problem schwerwiegend wird.

Fehler und Availability-Domain

Faultdomains und Availability-Domains sind wichtige Konzepte im Cloud-Computing, die Resilienz verbessern und die Auswirkungen potenzieller Fehler reduzieren. Im Falle eines Fehlers in einem bestimmten Bereich können Sie mit Faultdomains sicherstellen, dass kritische Ressourcen nicht betroffen sind. Dadurch werden die allgemeinen Auswirkungen auf das System reduziert. Availability-Domains bieten Isolation zwischen Data Centern, um Redundanz und Fehlertoleranz zu gewährleisten. Dadurch wird sichergestellt, dass bei einem Ausfall in einer Availability-Domain ein Failover auf eine andere Availability-Domain erfolgen kann. Dadurch wird sichergestellt, dass die Services auch bei Ausfällen verfügbar bleiben.

OCI nutzt Faultdomains und Availability-Domains, um Ihnen High Availability bereitzustellen. Beispiel: In OCI besteht jede Region aus drei Availability-Domains, die physisch voneinander isoliert sind und unabhängige Ausfalldomains bereitstellen. OCI verwendet Faultdomains, um sicherzustellen, dass Instanzen in einer bestimmten Availability-Domain auf mehrere Faultdomains verteilt sind, um High Availability und Schutz vor Ausfällen sicherzustellen.

Mehrere Regionen

Die Regionen von OCI sind eine entscheidende Komponente, um Resilienz und Kontinuität im Katastrophenfall sicherzustellen. Regionen sind zwei geografisch getrennte Regionen, die Redundanz und Fehlertoleranz bieten. Im Falle eines katastrophalen Ereignisses wie einer Naturkatastrophe, einem Cyberangriff oder einem menschlichen Fehler stellen die gepaarten Regionen sicher, dass kritische Ressourcen repliziert und in einer alternativen Region verfügbar sind. Dies reduziert das Risiko von Ausfallzeiten und Datenverlust und bietet Unternehmen und Ihren Kunden Sicherheit.

Wenn beispielsweise ein Unternehmen in den Vereinigten Staaten tätig ist und es ein katastrophales Ereignis wie eine Naturkatastrophe, politische Unruhen oder Stromausfälle in einer Region gibt, kann die andere Region nahtlos übernehmen und die Geschäftskontinuität sicherstellen. Wenn die primäre Region US East (Ashburn) ist und ein Ausfall auftritt, kann die sekundäre Region US West (Phoenix) die erforderlichen Services übernehmen und bereitstellen, bis die primäre Region wieder online ist. Dieser Ansatz stellt sicher, dass die Benutzererfahrung nicht unterbrochen wird und Daten während des gesamten Ausfalls verfügbar sind. Die aktiv-aktive oder aktiv-passive Replikation von Ressourcen in gekoppelten Regionen von OCI stellt sicher, dass Daten kontinuierlich verfügbar sind, sodass ein Failover zur Backupregion ohne Unterbrechung möglich ist.

Mehrere Regionen bieten Unternehmen die Möglichkeit, einen effektiven Disaster Recovery-Plan zu implementieren, um sicherzustellen, dass Daten geschützt sind und Services immer verfügbar sind.

Data Guard und GoldenGate

Data Guard ist ein Feature von Oracle Database, das Disaster Recovery und High Availability für Unternehmensdatenbanken bietet. Es ermöglicht die Erstellung einer Standby-Datenbank, die übernommen werden kann, wenn die Primärdatenbank ausfällt. Die Standby-Datenbank wird kontinuierlich mit der primären Datenbank synchronisiert, um sicherzustellen, dass die Daten immer auf dem neuesten Stand sind. Dies bietet eine zusätzliche Ausfallsicherheitsebene für kritische Systeme und Anwendungen.

GoldenGate ist ein Datenintegrations- und Replikationstool, mit dem Daten in Echtzeit zwischen verschiedenen Datenbanken integriert werden können. Sie unterstützt die heterogene Datenintegration, d.h. sie kann Daten zwischen verschiedenen Datenbankanbietern und innerhalb eines einzigen Anbieters replizieren. GoldenGate kann auch für Datenbankmigration, Data Warehousing und Business Intelligence verwendet werden.

OCI stellt verschiedene Versionen von Data Guard und GoldenGate bereit, um unterschiedliche Anforderungen und Anwendungsfälle zu erfüllen. Beispiel: Data Guard Standard Edition bietet grundlegende Disaster Recovery-Funktionen, während Data Guard Enterprise Edition erweiterte Features wie automatisches Failover und Datenschutz bereitstellt. Die GoldenGate Standard Edition bietet eine Echtzeit-Datenreplikation zwischen Datenbanken, während die GoldenGate Enterprise Edition zusätzliche Features wie Konflikterkennung und -auflösung umfasst.

Durch die Verwendung dieser Technologien in Verbindung mit OCI können Sie die Resilienz Ihres Systems verbessern, indem Sie sicherstellen, dass kritische Daten auch bei einem Katastrophenfall oder Systemausfall immer verfügbar und auf dem neuesten Stand sind. Beispiel: Ein Finanzdienstleistungsunternehmen kann mit Data Guard eine Produktionsdatenbank in eine Standbydatenbank in einer anderen Region replizieren, z.B. in den Regionen "US North" und "South" in OCI, um sicherzustellen, dass sie sich schnell nach einem katastrophalen Ereignis erholen und Kunden weiterhin ohne Unterbrechung bedienen können.

Datumsreplikation

Die Datenreplikation ist ein kritischer Aspekt der Resilienz im Cloud-Computing, da sie sicherstellt, dass Daten auch bei einem Ausfall verfügbar sind. Bei der Replikation werden Kopien von Daten erstellt und an mehreren Orten gespeichert, mit denen Sie ein Recovery nach einem Ausfall oder einer Katastrophe durchführen können.

OCI bietet mehrere Speicheroptionen für die Replikation von Daten. Object Storage ist ein hoch skalierbarer und dauerhafter Speicherservice, der die regionsübergreifende Replikation von Daten ermöglicht. Durch die Konfiguration der regionsübergreifenden Replikation werden Daten automatisch in eine andere Region repliziert und bieten ein hohes Maß an Resilienz. Im Falle einer Katastrophe oder eines Ausfalls können Daten einfach vom replizierten Standort aus abgerufen werden, um die Geschäftskontinuität sicherzustellen.

File Storage bietet hochverfügbare und dauerhafte Dateisysteme, auf die mehrere Instanzen gleichzeitig zugreifen können. Mit Replikations-Policys werden Dateien automatisch in eine andere Availability-Domain repliziert, was Fehlertoleranz und High Availability bietet.

Block Volume ist ein hochverfügbarer und dauerhafter Blockspeicherservice, der ein Replikationsfeature bereitstellt. Durch die Konfiguration der Block-Volume-Replikation werden Daten automatisch in einem anderen Block-Volume in einer anderen Availability-Domain innerhalb derselben Region repliziert. Dadurch wird sichergestellt, dass Daten auch bei einem Ausfall oder Ausfall verfügbar sind.

Die Datenreplikation ist für die Aufrechterhaltung der Resilienz im Cloud-Computing von entscheidender Bedeutung. OCI bietet verschiedene Optionen zur Replikation von Daten über Regionen, Availability-Domains und Instanzen hinweg. Mit diesen Optionen können Sie sicherstellen, dass Ihre Daten im Falle eines Ausfalls oder einer Katastrophe hochverfügbar, dauerhaft und leicht wiederherstellbar sind.

Gesamtzuverlässigkeit berechnen

Zuverlässigkeit ist bei der Bereitstellung einer Anwendung oder Workload in der Cloud von entscheidender Bedeutung. Die Messung der Wahrscheinlichkeit und der Auswirkungen von Ausfällen ist unerlässlich, um den reibungslosen Betrieb des Geschäftsbetriebs sicherzustellen. OCI bietet eine Reihe von Tools und Services, mit denen Sie die allgemeine Zuverlässigkeit und Kosten Ihrer Cloud-Infrastruktur berechnen können. Mit Cloud Advisor können Sie beispielsweise potenzielle Probleme mit Ihrer Architektur identifizieren und Empfehlungen zur Verbesserung der Zuverlässigkeit bereitstellen. Mit dem Kostenrechner können Sie die Kosten für die Implementierung Ihrer Cloud-Infrastruktur schätzen. Mit diesen Tools und Services können Sie sicherstellen, dass Ihre Anwendungen und Workloads zuverlässig und kostengünstig bereitgestellt werden.

Patching und Upgrades planen

Die Aktualisierung von Anwendungen und Infrastruktur ist wichtig, um optimale Sicherheit und Performance in der Cloud zu gewährleisten. Wenn die erforderlichen Patches und Upgrades nicht eingespielt werden, können Systeme anfällig für Angriffe sein und zu Performanceproblemen führen, die den Geschäftsbetrieb beeinträchtigen. OCI bietet eine Reihe von Tools und Services, um den Patching- und Upgradeprozess zu optimieren und zu automatisieren.

Die von OCI bereitgestellten Patching Automation- und Upgrade Advisor-Services sollen die Planung und Ausführung des Patching- und Upgradeprozesses vereinfachen. Darüber hinaus können Sie mit dem OS Management Service (OSMS) das Patching von Oracle Linux- oder Windows-Instanzen automatisieren. Mit OSMS können Sie Ihre Systeme in Gruppen organisieren und Jobs planen, um die neuesten Updates auf alle Systeme anzuwenden. Dieser Service bietet Zugriff auf eine breite Palette vordefinierter Softwarequellen und stellt Linux-Systemen das gesamte Spektrum an Oracle yum-Repositorys bereit. Dadurch können Systeme ständig mit den neuesten Patches auf dem neuesten Stand gehalten werden, was die Sicherheit und Performance verbessert.

Business Continuity-Plan

Ein solider Business Continuity-Plan ist für jedes Unternehmen unerlässlich, um sicherzustellen, dass es auch bei disruptiven Ereignissen weiter funktionieren kann. Dazu gehören Naturkatastrophen, Stromausfälle oder Cyberangriffe.

OCI bietet eine Reihe von Tools und Services, um diese Art der Planung zu unterstützen. Beispiel: Mit dem Site-to-Site-VPN-Service können Sie eine sichere, verschlüsselte Verbindung zwischen Ihrem On-Premise-Netzwerk und Ihrem OCI Virtual Cloud Network (VCN) erstellen. So können Sie Ihr Data Center in die Cloud erweitern. Ebenso stellt der FastConnect-Service eine private Verbindung mit hoher Bandbreite zwischen Ihrer On-Premise-Infrastruktur und Ihren OCI-Ressourcen bereit, mit der Sie Daten replizieren und kritische Anwendungen in der Cloud ausführen können.

Verwendung einer lose gekoppelten Architektur

Eine lose gekoppelte Architektur ist ein entscheidendes Element beim Aufbau resilienter Systeme, da sie dazu beiträgt, die Auswirkungen von Ausfällen zu minimieren, indem sie Abhängigkeiten zwischen Komponenten reduziert. Durch die Reduzierung von Abhängigkeiten kann jede Komponente unabhängig skaliert und weiterentwickelt werden, wodurch das System flexibler und anpassungsfähiger wird. OCI bietet Tools und Services, die diese Architektur unterstützen, wie Oracle Functions, mit denen Entwickler serverlose Anwendungen erstellen und bereitstellen können, die automatisch basierend auf Workload-Anforderungen skaliert werden können, ohne eng mit anderen Komponenten gekoppelt zu sein. Ein weiteres Beispiel ist die Oracle Kubernetes Engine (OKE), die eine hoch skalierbare und flexible Plattform für die Ausführung containerisierter Anwendungen bereitstellt. OKE verwendet eine Microservices-basierte Architektur, mit der Sie modulare, lose gekoppelte Anwendungen erstellen und bereitstellen können, die einfach skaliert und verwaltet werden können.

Überwachen und auf ungewöhnliche Muster anpassen

Um die Resilienz Ihres Systems zu gewährleisten, ist es wichtig, ungewöhnliche Muster in Bezug auf Ressourcennutzung, Datenverkehr und Verhalten zu überwachen und anzupassen. Diese Muster können dazu beitragen, potenzielle Probleme zu identifizieren, bevor sie kritisch werden, und die Performance und Verfügbarkeit Ihres Systems beeinträchtigen. OCI bietet Tools und Services wie Cloud Guard und Security Zones, die eine kontinuierliche Überwachung und Analyse der Ressourcennutzung, des Netzwerkverkehrs und des Benutzerverhaltens ermöglichen. Cloud Guard automatisiert die Überwachung Ihrer Ressourcen und hilft dabei, Sicherheitsbedrohungen und Fehlkonfigurationen in Ihrer Cloud-Umgebung zu erkennen. Darüber hinaus bieten Sicherheitszonen eine sichere Umgebung für Workloads und Ressourcen, die ein höheres Maß an Sicherheit erfordern.

Wählen Sie aus SaaS, PaaS und IaaS

Die Auswahl des geeigneten Cloud-Service-Modells ist von entscheidender Bedeutung, da es den Grad der Kontrolle, Flexibilität und Verwaltung bestimmt, der für Ihre Anwendungen und Workloads erforderlich ist. Cloud-Servicemodelle wie Software as a Service (SaaS), Platform as a Service (PaaS) und Infrastructure as a Service (IaaS) bieten eindeutige Vor- und Nachteile. SaaS bietet eine vollständig verwaltete Lösung, die einfach bereitgestellt werden kann und wenig Wartung erfordert. PaaS bietet eine Entwicklungsplattform mit mehr Kontroll- und Anpassungsoptionen. IaaS bietet vollständige Kontrolle über die Infrastruktur, erfordert jedoch mehr Management und Wartung. Die Auswahl des richtigen Servicemodells für Ihr Unternehmen ist unerlässlich, um die Performance zu maximieren, Kosten zu senken und eine hohe Resilienz aufrechtzuerhalten.

Fehler antizipieren

Die Reduzierung der Auswirkungen potenzieller Ausfälle ist entscheidend, um die Resilienz Ihrer Cloud-Infrastruktur sicherzustellen. OCI bietet eine Vielzahl von Tools und Services, mit denen Sie potenzielle Fehlerpunkte antizipieren und Ihre Abschwächung planen können. Beispiel: Faultdomains und Availability-Domains sind Konzepte, die im Cloud-Computing verwendet werden, um die Resilienz zu erhöhen und die Auswirkungen von Ausfällen zu reduzieren. Indem Sie Ressourcen gruppieren und auf verschiedene Faultdomains und Availability-Domains verteilen, können Sie das Risiko eines Single Point of Failure minimieren. Darüber hinaus können Sie mit Security Zones in OCI Workloads isolieren und die Auswirkungen von Sicherheitsvorfällen oder -ausfällen reduzieren.

Kosten gegenüber Zuverlässigkeit

Um die Kosteneffizienz bei gleichzeitiger Wahrung der Zuverlässigkeit zu gewährleisten, ist es wichtig, die Kosten und die Performance Ihrer Cloud-Infrastruktur in Einklang zu bringen. OCI bietet verschiedene Tools und Services, wie Kostenrechner und Kostenmanagement, mit denen Sie Ihre Cloud-Ausgaben überwachen und optimieren können. Mit dem Kostenrechner können Sie die Kosten Ihrer Infrastrukturbereitstellung schätzen und potenzielle Kosteneinsparungen ermitteln. Der Kostenmanagementservice bietet eine zentrale Plattform für die Überwachung und Verwaltung Ihrer Cloud-Ausgaben über verschiedene Services und Regionen hinweg. Mit diesem Service können Sie Budgets festlegen, die Nutzung verfolgen und Bereiche identifizieren, in denen Sie Kosten senken können, ohne die Zuverlässigkeit Ihrer Infrastruktur zu beeinträchtigen.

Plan für große Veranstaltungen

Die Gewährleistung von hoher Verfügbarkeit und die Vermeidung von Störungen bei großen Ereignissen wie saisonalen Spitzen im Verkehr oder geplanten Wartungsfenstern erfordert eine sorgfältige Planung. OCI bietet verschiedene Tools und Services wie Autoscaling und geplante Skalierung, mit denen Sie Ihre Ressourcen entsprechend planen und anpassen können. Die automatische Skalierung passt die Kapazität Ihrer Ressourcen automatisch an den Echtzeitdatenverkehr an und stellt sicher, dass Ihre Anwendung für Ihre Benutzer verfügbar ist. Mit der geplanten Skalierung können Sie die Ressourcen im Voraus für vorhersehbare Trafficmuster planen und anpassen, wodurch das Risiko von Überprovisioning und unnötigen Kosten reduziert wird. Mit diesen Tools können Sie Ihre Cloud-Ressourcen effizient verwalten und so Hochverfügbarkeit und optimale Performance bei großen Veranstaltungen sicherstellen.

Oracle Cloud Infrastructure-Dokumentation