Informazioni sulle best practice per gestire in modo efficiente le implementazioni cloud

L'efficienza operativa si riferisce all'identificazione di processi e procedure appropriati per automatizzare e ottimizzare il funzionamento di tutti i servizi cloud. È importante prendere in considerazione le best practice per distribuire, utilizzare e monitorare applicazioni e infrastrutture per offrire il massimo valore aziendale. Con le implementazioni quotidiane è necessario vedere cosa sta succedendo con le risorse cloud. Il monitoraggio deve essere in atto per sapere se un ambiente funziona correttamente e se sono necessari adeguamenti.

Esegui operazioni come codice

Esegui il provisioning, ridimensiona e gestisci il tuo ambiente utilizzando l'automazione e una metodologia infrastructure as code.
  • Utilizza il framework OCI Landing Zones

    Sfrutta i progetti curati da Oracle con linee guida di progettazione e modelli IaC Terraform preconfigurati adatti a varie architetture e casi d'uso per la maggior parte delle distribuzioni OCI.

  • Adotta l'infrastruttura come codice (IaC)

    Automatizza l'implementazione di carichi di lavoro e procedure operative, limita l'interazione umana e migliora la risposta agli eventi utilizzando l'infrastruttura come codice.

  • Definire l'infrastruttura del carico di lavoro

    Quando definisci l'infrastruttura come codice, è possibile eseguire automaticamente e ripetutamente il provisioning dei carichi di lavoro su un'infrastruttura coerente. La parametrizzazione consente il riutilizzo di modelli comuni, promuovendo la standardizzazione tra gli ambienti e riducendo al minimo le rilavorazioni tra i team.

  • Sviluppo e distribuzione di applicazioni

    L'automazione dello sviluppo del codice sull'infrastruttura esistente consente la coerenza delle applicazioni su più distribuzioni dell'infrastruttura.

  • Gestire la configurazione dell'infrastruttura

    La coerenza è fondamentale quando si configura e si aggiorna la configurazione dell'infrastruttura su più risorse cloud. La gestione della configurazione consente di gestire la distribuzione della configurazione dell'infrastruttura durante la progettazione, l'implementazione, il test, l'applicazione di patch e le nuove release.

Esegui distribuzioni frequenti e iterative

Riduci al minimo i rischi utilizzando l'automazione e un processo di sviluppo iterativo durante il test e l'implementazione del codice.

  • Automatizza il processo di implementazione delle applicazioni

    Automatizza il maggior numero possibile di processi. Se possibile, eliminare le implementazioni manuali nella produzione, sebbene ciò possa essere accettabile in ambienti inferiori per promuovere velocità e flessibilità.

  • Sfrutta l'automazione per testare il codice prima della distribuzione

    I test per individuare bug, vulnerabilità della sicurezza, funzionalità, prestazioni e integrazioni sono fondamentali per ridurre al minimo i problemi rilevati dagli utenti. Gli errori di test dovrebbero impedire il rilascio del codice nella produzione.

  • Implementa distribuzioni iterative e incrementali

    Riduci i rischi testando e convalidando le distribuzioni con maggiore frequenza. Cambiamenti più piccoli e più frequenti possono portare a una minore esposizione a guasti e ritardi nell'identificazione dei problemi.

Definizione procedure operative

Definisci le procedure per sfruttare gli strumenti disponibili e automatizzare le procedure.

  • Automatizza l'applicazione di patch e la gestione

    Utilizza gli strumenti per aggiornare e applicare patch automaticamente alle istanze di computazione, alle istanze di database e ai server che fanno parte della responsabilità di manutenzione del cliente.

  • Sfrutta le utility di gestione della configurazione

    Utilizza gli strumenti di gestione della configurazione per automatizzare e ridurre i rischi durante l'aggiornamento delle configurazioni delle risorse.

  • Monitorare le metriche delle prestazioni del sistema

    Comprendere le metriche fornite dai servizi dell'infrastruttura. Imposta il monitoraggio e gli avvisi per fornire visibilità sullo stato di tutti i carichi di lavoro e sugli indicatori proattivi di guasto.

  • Documentare e testare il piano di disaster recovery

    Scrivere un piano di disaster recovery che rifletta l'impatto aziendale degli errori delle applicazioni. Comprendere le dipendenze delle applicazioni e il loro impatto sulle applicazioni. Automatizza il più possibile il processo di ripristino e documenta eventuali passaggi manuali. Testare regolarmente il processo di disaster recovery per convalidare e migliorare il piano.

  • Pianifica le interazioni di supporto di Oracle Cloud Infrastructure

    Prima che si presenti la necessità, stabilisci un processo per contattare il supporto di Oracle Cloud Infrastructure.

  • Incorporare le pratiche di FinOps

    Incorpora le pratiche di FinOps nelle procedure operative per garantire che la gestione dei costi diventi parte integrante delle operazioni quotidiane.

Aspettatevi un fallimento e imparate

Si verificheranno errori imprevisti durante tutto il ciclo di vita di un'applicazione. Impara da un errore e migliora i processi di risposta e recupero.

  • Impara dagli errori

    Esegui analisi delle cause alla radice e ottimizza i processi operativi per risposte migliori e più agili ai guasti in futuro.

  • Migliora costantemente la risposta agli incidenti

    Integra le lezioni apprese da errori e problemi passati con le procedure di risposta agli incidenti esistenti per prevenire problemi futuri e ridurre il tempo medio di riparazione.

  • Pratica per il fallimento

    Testare e provare periodicamente i processi di gestione e ripristino degli incidenti per ottimizzare le risposte future.

Identificazione e monitoraggio degli indicatori prestazioni chiave del carico di lavoro

Identifica gli indicatori KPI (Key Performance Indicator) per i carichi di lavoro. Utilizza gli indicatori KPI e i log per monitorare lo stato e le prestazioni del carico di lavoro dell'applicazione.

Valutare la possibilità di utilizzare quanto riportato di seguito per monitorare le prestazioni del carico di lavoro.

  • Implementare il trace intorno alle chiamate di servizio

    I dati sulle prestazioni di base possono aiutare a fornire dati sulle tendenze che è possibile utilizzare per identificare in modo proattivo i problemi relativi alle prestazioni prima che abbiano effetto sugli utenti.

  • Implementare controlli dello stato

    Eseguire regolarmente controlli e sonde dello stato dall'esterno dell'applicazione per identificare il deterioramento dello stato e delle prestazioni dell'applicazione. I controlli di salute e le sonde dovrebbero essere più che semplici test di pagina statici, dovrebbero riflettere lo stato olistico dell'applicazione.

  • Controlla flussi di lavoro con tempi di esecuzione lunghi

    Individuare i problemi in anticipo può ridurre al minimo la necessità di eseguire il rollback dell'intero flusso di lavoro o di eseguire più transazioni di compensazione.

  • Gestione dei log di sistema, applicazione e audit

    Utilizza un servizio di log centralizzato per memorizzare e analizzare i log.

  • Impostare un sistema di allarme rapido

    Identificare gli indicatori prestazioni chiave (KPI) dello stato di integrità di un'applicazione, ad esempio le eccezioni transitorie e la latenza delle chiamate remote, nonché impostare i valori di soglia appropriati per ciascuna di esse. Inviare un avviso alle operazioni quando viene raggiunto il valore di soglia.

  • Addestrare più operatori per monitorare l'applicazione ed eseguire passaggi di ripristino manuale

    Assicurarsi che sia sempre attivo almeno un operatore qualificato.

  • Crea criteri di ridimensionamento che eseguono azioni basate su KPI

    I criteri di ridimensionamento consentono di fornire prestazioni coerenti per gli utenti finali durante i periodi di elevata domanda e consentono di ridurre i costi durante i periodi di bassa domanda.

Sfrutta i servizi gestiti

Utilizza i servizi cloud gestiti per garantire che le tue risorse cloud vengano eseguite in modo efficiente e a costi contenuti. La tua organizzazione IT può ridurre il carico di lavoro tattico e indifferenziato associato alla gestione delle risorse cloud in modo che possano concentrarsi sulle proprie competenze di base.

Identifica le tue responsabilità

I fornitori di servizi cloud documentano di cosa la loro piattaforma è responsabile e di cosa è responsabile il cliente. Identifica le responsabilità dei tuoi clienti e assicurati di avere procedure operative per ciascuna di queste responsabilità.