關於營運雲端部署效率的最佳做法
以代碼執行作業
- 採用基礎架構作為程式碼 (IaC) 方法
使用基礎架構作為程式碼,自動部署工作負載和作業程序、限制人工互動以及改善事件回應。
- 定義工作負載基礎架構
當您將基礎架構定義為程式碼時,可以在一致的基礎架構上自動並重複佈建工作負載。參數化允許重複使用一般範本、升級跨環境標準化,以及將跨團隊重工降到最低。
- 開發和部署應用程式
在現有基礎架構上自動建置程式碼可讓多個基礎架構建置的應用程式一致性。
- 管理基礎架構組態
設定及更新多個雲端資源的基礎架構組態時,一致性非常重要。透過組態管理,您可以在設計、實行、測試、修正以及新版本期間管理基礎架構組態建置。
進行經常與反覆部署
測試與部署程式碼時,使用自動化與反覆開發流程將風險降到最低。
- 自動化應用程式部署程序
儘可能自動執行多項處理。儘可能消除生產中的手動部署;雖然這在較低的環境中可能可接受,以提升速度與彈性。
- 在部署前運用自動化來測試您的程式碼
測試錯誤、安全漏洞、功能、效能以及整合對使用者發現的問題減至最少非常重要。測試失敗應防止將程式碼核發至生產環境。
- 導入反覆和增量部署
更頻繁地測試及驗證部署,以降低風險。較小、較頻繁的變更會導致較少的失敗風險並延遲識別問題。
定義作業程序
定義程序以利用可用的工具並自動化程序。
- 自動化修正和維護
運用工具自動更新及修正屬於客戶維護職責的運算執行處理、資料庫執行處理以及伺服器。
- 運用組態管理公用程式
使用組態管理工具可自動化並降低更新資源組態時的風險。
- 監督系統效能測量結果
瞭解基礎架構服務提供的測量結果。設定監督和警示,以提供所有工作負載狀態的可見性和主動失敗指標。
- 記錄和測試災害復原計畫
撰寫反映應用程式失敗之商業影響的災害復原計畫。瞭解應用程式相依性及其對應用程式的影響。儘可能自動執行復原處理作業,並記錄任何手動步驟。定期測試災害復原程序以驗證和改善計畫。
- 規劃 Oracle Cloud Infrastructure 支援互動
在需要之前,請先建立聯絡「Oracle Cloud Infrastructure 客戶服務部」的程序。
預期為失敗和學習
應用程式的整個週期中將發生未預期的失敗。瞭解失敗並改善回應與復原處理作業。
- 瞭解失敗
執行根本原因分析與調整作業流程,以獲得更佳且更加靈活的未來失敗回應。
- 持續改善事件答覆
分配失敗與過去問題中學習的課程,以防止未來發生問題並減少平均修復時間。
- 失敗的做法
定期測試並重新擷取未預期事件管理和復原處理作業,以微調未來的回應。
識別及監督工作負載重要績效指標
識別工作負載的基準績效與關鍵績效指標 (KPI)。您可以使用 KPI 和日誌來監督應用程式工作負載狀況和效能。
請考慮使用下列各項來監督工作負載效能:
- 實行服務呼叫追蹤
基準效能資料有助於提供趨勢資料,供您在影響使用者之前,主動識別效能問題。
- 實行狀況檢查
從應用程式外部定期執行狀況檢查與探測,以識別應用程式狀況與效能的降低。狀況檢查和探測不應只是靜態頁面測試,它們應該反映全面的應用程式狀況。
- 檢查長時間執行的工作流程
提早擷取問題可將回復整個工作流程的需求降至最低,或執行多個補償異動。
- 維護系統、應用程式及稽核日誌
使用集中式記錄日誌服務來儲存和分析您的日誌。
- 設定提前警告系統
識別應用程式狀況的關鍵績效指標 (KPI),例如暫時異常狀況和遠端呼叫延遲,並為每個項目設定適當的臨界值。達到臨界值時傳送警示給作業。
- 訓練多個操作員以監督應用程式及執行手動復原步驟
確定至少有一個訓練的操作員在作用中。
- 建立根據 KPI 採取動作的擴展原則
調整規模原則有助於為一般使用者提供高需求期間的一致性效能,並可協助您降低低需求期間的成本。