Workload überwachen

Verständnis und Einführung eines Monitoringprozesses für alle Oracle Cloud Infrastructure-Services. Der Monitoring-Service verwendet Metriken, um Ressourcen und Alarme zu überwachen und Sie zu benachrichtigen, wenn Metriken alarmspezifische Trigger erfüllen.

Vorgangsmetriken analysieren

Network Architect, Cloud Operations Manager, Security Architect

Definieren, erfassen und analysieren Sie Vorgangsmetriken, um einen Einblick in Ereignisse zu erhalten.

Mit Oracle Cloud Infrastructure Monitoring erhalten Sie die erforderlichen Einblicke in den Zustand Ihrer Ressourcen. So können Sie die Performance Ihrer Anwendungen optimieren und in Echtzeit auf Anomalien reagieren. Sie können Alarme festlegen, um Sie in Echtzeit über wichtige Änderungen in Ihrer Cloud-Infrastruktur und Ihren Cloud-Services zu informieren, sodass Sie schnell geeignete Maßnahmen ergreifen können.

Health Checks definieren

Cloud Architect, Cloud Operations Manager, Security Architect

Der Oracle Cloud Infrastructure Health Checks-Service bietet Benutzern ein häufiges externes Monitoring, um die Verfügbarkeit und Performance von öffentlich zugänglichen Services zu bestimmen, einschließlich gehosteten Websites, API-Endpunkten oder extern zugänglichen Load Balancer.

Mit Oracle Cloud Infrastructure Health Checks können Sie sicherstellen, dass Sie sofort über Verfügbarkeitsprobleme informiert sind, die Ihre Kunden betreffen.

Compute-Services überwachen

Cloud Operations Manager, Security Architect

Stellen Sie sicher, dass Ihr Betriebsteam Compute-Servicemetriken verwendet und anwendet.

Verwenden Sie Metriken, Alarme und Benachrichtigungen, um Folgendes zu überwachen:

  • Compute-Instanz: Überwachen Sie Zustand, Kapazität und Performance Ihrer Compute-Instanzen.
  • Infrastrukturzustand: Überwachen Sie Zustand, Kapazität und Performance Ihrer Compute-Bare-Metal-Instanzen
  • Oracle Cloud Infrastructure Functions: Überwachen Sie den Zustand, die Kapazität und die Performance von Funktionen, die Sie in Oracle Cloud Infrastructure Functions bereitgestellt haben.
  • Datenbankzustand: Überwachen Sie Zustand, Kapazität und Performance Ihrer Datenbankservices. Oracle Cloud Observability and Management Platform bietet einheitliche Datenbanküberwachungs- und Administrationsfunktionen für Cloud-Datenbanken.
  • Betriebssystemzustand: Implementieren Sie Protokollierungstools auf BS-Ebene, wie auditd.

Überwachen Sie Ihre Netzwerke

Network Architect, Cloud Operations Manager, Security Architect

Verwenden Sie einen Mechanismus, bei dem Metriken an verschiedenen Netzwerkendpunkten angewendet werden. Sie können Metriken für das interne virtuelle Cloud-Netzwerk (VCN) sowie für Konnektivität (Oracle Cloud Infrastructure FastConnect und IPsec-VPN) oder Load Balancer verwenden.

Verwenden Sie Metriken, Alarme und Benachrichtigungen, um Folgendes zu überwachen:

  • VNIC-Metriken: Überwachen Sie den Zustand, die Kapazität und die Performance der VNICs des Networking-Service (virtuelle Netzwerkkarten).
  • FastConnect-Metriken: Überwachen Sie den Zustand, die Kapazität und die Performance der Verbindung zwischen Ihrem On-Premise-Netzwerk und dem VCN (Oracle Cloud Infrastructure FastConnect-Verbindung).
  • VPN Connect-Metriken: Überwachen Sie Zustand, Kapazität und Performance der Verbindung zwischen Ihrem On-Premise-Netzwerk und dem VCN (auch als IPSec-VPN bezeichnet).
  • Servicegatewaymetriken: Überwachen Sie den Zustand, die Kapazität und die Performance Ihrer Servicegateways, die On-Premise-Hosts oder VCN-Hosts den privaten Zugriff auf Oracle-Services (wie Object Storage und Autonomous Database) ermöglichen, ohne die Ressourcen für das öffentliche Internet verfügbar zu machen.
  • Load Balancing-Metriken: Überwachen Sie den Zustand, die Kapazität und die Performance Ihrer Load Balancer, die als Vermittler für Datenverkehr zwischen Clients und Ihren Anwendungsservern fungieren.
  • Customer Premises Equipment: Überwachen Sie Zustand, Kapazität und Performance der Grenzgeräte in Ihrem Netzwerk, das eine Verbindung zu Oracle Cloud Infrastructure (OCI) herstellt.
  • Aktivieren Sie VCN-Flowlogs, und nehmen Sie sie mit Oracle Cloud Logging Analytics auf, um sie zu analysieren und interessante Muster zu identifizieren und bei Bedarf Erkenntnisse zu gewinnen.

Verwenden Sie das OCI Network Command Center und die verfügbaren Tools, um Ihr Netzwerk zu überwachen und zu beobachten. Das OCI Network Command Center bietet die folgenden Beobachtbarkeitstools zur Unterstützung verschiedener Anwendungsfälle für Vorgänge:

  • Netzwerkansicht

    Bietet intuitive Topologievisualisierung, um Verbindungen und Beziehungen zwischen Ihren virtuellen Netzwerkressourcen zu verstehen, die Konfiguration von einem Ort aus zu prüfen und Konfigurationsprobleme visuell zu beheben.

  • Network Path Analyzer

    Ermöglicht die Fehlerbehebung komplexer virtueller Netzwerkkonfigurationen bei Erreichbarkeitsproblemen. Bietet eine automatisierte Konfigurationsanalyse, um den Netzwerkpfad zu bestimmen, den der Datenverkehr nimmt, Probleme bei der Routing- und Sicherheitskonfiguration zu identifizieren und Konfigurationsinformationen entlang des Pfades bereitzustellen.

  • Regionsübergreifende Latenz

    Stellt Echtzeit- und historische Latenzinformationen zwischen OCI-Regionen bereit.

  • VCN-Flowlogs

    Bietet Netzwerktraffic-Telemetrie, die für die Unterstützung Ihrer Anwendungsfälle für Sicherheit und Netzwerkbetrieb von entscheidender Bedeutung ist. Sie können umfassende Einblicke in den Netzwerktraffic erhalten, die Flowlogs mit Standardprotokollen wie Kafka an das ausgewählte Tool streamen und die Flowlogs zu Compliancezwecken in OCI Object Storage archivieren. VCN-Flowlogs können an Oracle Cloud Infrastructure Logging Analytics, OCI Object Storage oder an ein Drittanbietersystem gesendet werden.

  • Virtueller Testzugriffspunkt (VTAP)

    Bietet Datenspiegelungsfunktionen, die eine vollständige Paketerfassung für Sicherheitsanalysen, die Fehlerbehebung bei Anwendungen oder Netzwerkleistungsproblemen ermöglichen. VTAP ist auch nützlich, um komplexe Netzwerkprobleme zu beheben, indem der Paketinhalt und die Header analysiert werden.

Monitordaten

Cloud Architect, Cloud Operations Manager, Security Architect

Überwachen Sie Speicherservices, die Sie zum Speichern von Daten verwenden, mit Metriken, Alarmen und Benachrichtigungen.
  • Block-Volume-Metriken: Überwachen Sie den Durchsatz und die Vorgänge von Block-Volumes und Boot-Volumes.
  • Object Storage-Metriken: Überwachen Sie die Größe und Anzahl der Objekte Ihrer Object Storage-Buckets.
  • Dateisystemmetriken: Überwachen Sie Zustand, Durchsatz, Anforderungen und Latenz Ihrer Dateisysteme und Mountziele.

Alarme für jede Metrik erstellen

DevOps Architekt, Cloud Operations Manager, Sicherheitsarchitekt

Erstellen Sie eine Reihe von Alarmen für Ihre relevanten Servicemetriken. Erstellen Sie für jede von Ihren Ressourcen ausgegebene Metrik Alarme, die das Ressourcenverhalten definieren.
  • Mit Risiko. Die Ressource ist gefährdet und kann nicht ausgeführt werden, wie mit Metrikwerten angegeben.
  • Nicht optimal. Die Performanceebene der Ressource ist nicht optimal, wie mit Metrikwerten angegeben.
  • Die Ressource ist hoch- oder heruntergefahren. Die Ressource ist entweder nicht zugänglich oder wird nicht ausgeführt.

Alarme optimieren

DevOps Architekt, Cloud Operations Manager, Sicherheitsarchitekt

Prüfen Sie die Alarme regelmäßig, z.B. wöchentlich, um eine optimale Konfiguration sicherzustellen. Kalibrieren Sie den Schwellenwert, Schweregrad und die Benachrichtigungsdetails jedes Alarms, einschließlich Methode, Häufigkeit und Zielgruppe.
Metrikschwellenwerte, die zu breit sind, werden unnötig gewarnt, während Schwellenwerte, die zu eng sind, die Zeit für Korrekturmaßnahmen vor einem Ausfall verkürzen.

Eine optimale Alarmkonfiguration umfasst die folgenden Faktoren:

  • Kritikalität der Ressource.
  • Angemessenes Ressourcenverhalten. Prüfen Sie das Verhalten einzeln und innerhalb des Kontextes des Serviceökosystems. Prüfen Sie die Schwankungen von Metrikwerten für einen bestimmten Zeitraum, und passen Sie die Schwellenwerte dann nach Bedarf an.
  • Annehmbare Anzahl von Benachrichtigungen. Prüfen Sie die Benachrichtigungsmethode (wie E-Mail oder PagerDuty), die entsprechenden Empfänger und die Häufigkeit der wiederholten Benachrichtigungen.

Service-Logging aktivieren

DevOps Architekt, Cloud Operations Manager, Sicherheitsarchitekt

Servicelogs werden von Oracle Cloud Infrastructure-(OCI-)Services, wie API-Gateway, Events, Functions, Load Balancing, Object Storage und VCN-Flowlogs, ausgegeben. Jeder dieser unterstützten Services verfügt über eine Ressource namens Logs, mit der Sie das Logging für diesen Service aktivieren oder deaktivieren können.

Aktivieren Sie die Serviceprotokollierung nur, wenn kritische Diagnoseinformationen, die beschreiben, wie Ressourcen ausgeführt werden und auf die zugegriffen wird, erforderlich sind.

Ziehen Sie in Betracht, Servicelogs mit Oracle Cloud Infrastructure Logging Analytics aufzunehmen, um nach Bedarf bessere Einblicke und detaillierte Analysen von Mustern und Trends zu erhalten.

Erstellen und verwalten Sie Logaufbewahrungs-Policys.

Oracle Cloud Infrastructure Ops Insights aktivieren

Cloud Operations Manager, Security Architect

Oracle Cloud Infrastructure Ops Insights ist ein OCI-nativer Service, der ganzheitliche Einblicke in die Nutzung und Kapazität von Datenbank- und Hostressourcen bietet.

Oracle Cloud Infrastructure Ops Insights besteht aus den folgenden integrierten Anwendungen:

  • Kapazitätsplanung
  • Oracle SQL Warehouse

Oracle Cloud Guard aktivieren

DevOps Architekt, Cloud Operations Manager, Sicherheitsarchitekt

Oracle Cloud Guard ist ein Service, mit dem Kunden ihren Sicherheitsstatus in Oracle Cloud überwachen, identifizieren, erreichen und verwalten können. Prüfen Sie mit dem Service Ihre Oracle Cloud Infrastructure-Ressourcen auf Sicherheitsschwachstellen im Zusammenhang mit der Konfiguration und Ihre Operatoren und Benutzer auf riskante Aktivitäten.

Stellen Sie sicher, dass Oracle Cloud Guard auf der Root-Ebene Ihres Mandanten aktiviert ist, um alle Compartments zu überwachen.

Auditing konfigurieren

DevOps Architekt, Cloud Operations Manager, Sicherheitsarchitekt

Der Oracle Cloud Infrastructure Audit-Service zeichnet Aufrufe von allen unterstützten öffentlichen Oracle Cloud Infrastructure-(OCI-)API-Endpunkten automatisch als Logereignisse auf. Derzeit unterstützen alle Services das Logging durch Audit.

Gehen Sie bei der Konfiguration des Auditing folgendermaßen vor:

  • Auditaufbewahrungsdauer prüfen. Der Standardwert ist 365 Tage.
  • Wenn Sie über Tools von Drittanbietern verfügen, die auf OCI-Auditdaten zugreifen müssen, konfigurieren Sie einen Service-Connector, um die OCI-Auditdaten in Oracle Cloud Infrastructure Object Storage zu kopieren.
  • Stellen Sie sicher, dass der Aufbewahrungszeitraum im Speicher-Bucket ordnungsgemäß konfiguriert ist.
  • Ziehen Sie in Betracht, bei Bedarf eine Teilmenge von Auditlogs mit OCI Log Analytics aufzunehmen, um bessere Einblicke und detaillierte Analysen von Mustern und Trends zu erhalten.