Informazioni sulle best practice per l'efficienza delle distribuzioni cloud operative

L'efficienza operativa riguarda l'individuazione di processi e procedure appropriati per automatizzare e ottimizzare il funzionamento di tutti i servizi cloud. È importante considerare le best practice per distribuire, gestire e monitorare le applicazioni e l'infrastruttura per offrire il massimo valore aziendale. Con le distribuzioni quotidiane c'è bisogno di vedere cosa sta succedendo con le risorse cloud. Il monitoraggio deve essere messo in atto per sapere se un ambiente funziona correttamente e se sono necessarie modifiche.

Effettua operazione come codice

Eseguire il provisioning, scalare e gestire l'ambiente utilizzando l'automazione e un'infrastruttura come metodologia di codice.
  • Adottare un'infrastruttura come metodologia IaC (Code)

    Automatizzare la distribuzione di carichi di lavoro e procedure operative, limitare l'interazione umana e migliorare la risposta agli eventi utilizzando l'infrastruttura come codice.

  • Definisci infrastruttura carico di lavoro

    Quando si definisce l'infrastruttura come codice, è possibile eseguire automaticamente e ripetutamente il provisioning dei carichi di lavoro su un'infrastruttura coerente. La parametrizzazione consente il riutilizzo di modelli comuni, promuovendo la standardizzazione tra ambienti e minimizzando la rielaborazione tra i team.

  • Sviluppo e distribuzione di applicazioni

    L'automazione della distribuzione del codice sull'infrastruttura esistente consente la coerenza delle applicazioni su più distribuzioni dell'infrastruttura.

  • Gestire la configurazione dell'infrastruttura

    La coerenza è fondamentale per configurare e aggiornare la configurazione dell'infrastruttura su più risorse cloud. Grazie alla gestione della configurazione, è possibile gestire la distribuzione della configurazione dell'infrastruttura durante la progettazione, l'implementazione, il test, l'applicazione delle patch e le nuove release.

Esegui distribuzioni frequenti e iterative

Ridurre al minimo i rischi utilizzando l'automazione e un processo di sviluppo iterativo durante il test e la distribuzione del codice.

  • Automatizza il processo di distribuzione dell'applicazione

    Automatizza il maggior numero possibile di processi. Se possibile, eliminare le distribuzioni manuali nella produzione, anche se ciò potrebbe essere accettabile in ambienti più bassi per promuovere velocità e flessibilità.

  • Sfrutta l'automazione per testare il codice prima della distribuzione

    I test per individuare bug, vulnerabilità di sicurezza, funzionalità, prestazioni e integrazioni sono fondamentali per ridurre al minimo i problemi rilevati dagli utenti. Gli errori di test dovrebbero impedire che il codice venga rilasciato in produzione.

  • Implementa distribuzioni iterative e incrementali

    Ridurre i rischi testando e convalidando più frequentemente le distribuzioni. Modifiche più piccole e frequenti possono portare a una minore esposizione a guasti e ritardi nell'identificazione dei problemi.

Definisci procedure operative

Definire le procedure per sfruttare gli strumenti disponibili e automatizzare le procedure.

  • Automatizza applicazione patch e gestione

    Utilizzare gli strumenti per aggiornare e applicare automaticamente patch alle istanze di calcolo, alle istanze di database e ai server che fanno parte della responsabilità di gestione dei clienti.

  • Sfrutta le utility di gestione della configurazione

    Utilizzare gli strumenti di gestione della configurazione per automatizzare e ridurre i rischi durante l'aggiornamento delle configurazioni delle risorse.

  • Monitorare le metriche delle prestazioni del sistema

    Comprendere le metriche fornite dai servizi di infrastruttura. Impostare il monitoraggio e l'alert per fornire visibilità sullo stato di tutti i carichi di lavoro e sugli indicatori proattivi di errore.

  • Documentare e testare il piano di disaster recovery

    Scrivere un piano di disaster recovery che rifletta l'impatto aziendale degli errori dell'applicazione. Comprendere le dipendenze dell'applicazione e il relativo impatto sulle applicazioni. Automatizza il processo di recupero il più possibile e documenta eventuali passaggi manuali. Eseguire regolarmente il test del processo di disaster recovery per convalidare e migliorare il piano.

  • Pianifica interazioni di supporto Oracle Cloud Infrastructure

    Prima della necessità, stabilire un processo per contattare il supporto Oracle Cloud Infrastructure.

Previsto errore e apprendimento

Errori imprevisti accadranno durante tutto il ciclo di vita di un'applicazione. Imparare da un guasto e migliorare i processi di risposta e recupero.

  • Imparare dagli errori

    Condurre processi di analisi delle cause principali e sintonizzare le operazioni per risposte migliori e più agili ai fallimenti in futuro.

  • Migliora continuamente la risposta agli incidenti

    Distribuire le lezioni apprese da guasti e problemi passati per prevenire problemi futuri e ridurre il tempo medio di riparazione.

  • Pratica per guasto

    Verifica periodicamente e prova i processi di gestione e recupero degli incidenti per ottimizzare la sintonizzazione delle risposte future.

Identificare e monitorare gli indicatori di prestazioni chiave del carico di lavoro

Identificare le prestazioni baseline e gli indicatori KPI (Key Performance Indicator) per i carichi di lavoro. Utilizzare gli indicatori KPI e i log per monitorare lo stato e le prestazioni del carico di lavoro dell'applicazione.

Per monitorare le prestazioni del carico di lavoro, effettuare le operazioni riportate di seguito.

  • Implementa tracciamento intorno alle chiamate di servizio

    I dati delle prestazioni baseline possono aiutare a fornire i dati di andamento che è possibile utilizzare per identificare in modo proattivo i problemi delle prestazioni prima che influiscano sugli utenti.

  • Implementa controlli stato

    Eseguire regolarmente controlli dello stato e sondaggi dall'esterno dell'applicazione per identificare il degrado dello stato e delle prestazioni dell'applicazione. I controlli sanitari e le sonde dovrebbero essere più di semplici test statici di pagina, dovrebbero riflettere sulla salute olistica dell'applicazione.

  • Controllare i flussi di lavoro a lungo termine

    L'acquisizione dei problemi in anticipo può ridurre al minimo la necessità di eseguire il rollback dell'intero flusso di lavoro o di eseguire più transazioni di compensazione.

  • Gestisce i log di sistema, applicazione e audit

    Utilizzare un servizio di log centralizzato per memorizzare e analizzare i log.

  • Impostare un sistema di allarme rapido

    Identificare gli indicatori KPI (Key Performance Indicators) dello stato di un'applicazione, ad esempio eccezioni transitorie e latenza di chiamata remota, e impostare i valori di soglia appropriati per ciascuno di essi. Invia un avviso alle operazioni quando viene raggiunto il valore soglia.

  • Formare più operatori per monitorare l'applicazione e per eseguire passi di recupero manuale

    Assicurarsi che sia sempre attivo almeno un operatore addestrato.

  • Crea criteri di ridimensionamento che eseguono azioni basate sugli indicatori KPI

    I criteri di scalabilità aiutano a fornire prestazioni coerenti agli utenti finali durante i periodi di elevata domanda e consentono di ridurre i costi durante i periodi di bassa domanda.

Sfrutta servizi gestiti

Utilizzare i servizi cloud gestiti per garantire che le risorse cloud vengano eseguite in modo efficiente e conveniente. L'organizzazione IT può scaricare il sollevamento pesante tattico e indifferenziato associato alla gestione delle risorse cloud in modo che possano concentrarsi sulle proprie competenze di base.

Identifica le tue responsabilità

I provider cloud documentano per che cosa è responsabile la loro piattaforma e per cosa è responsabile il cliente. Identificare le responsabilità dei clienti e assicurarsi di disporre di procedure operative per ciascuna di queste responsabilità.