關於有效率地操作雲端部署的最佳做法
以代碼執行作業
- 使用 OCI 登陸區架構
利用 Oracle 策劃的藍圖以及設計指南和預先設定的 Terraform IaC 範本,這些範本適用於各種架構和使用案例,適用於大多數 OCI 部署。
- 採用基礎架構即程式碼 (IaC)
使用基礎架構即程式碼來自動部署工作負載和操作程序、限制人為互動,並改善對事件的回應。
- 定義工作負載基礎架構
將基礎架構定義為程式碼時,可以在一致的基礎架構上自動重複佈建工作負載。參數化允許重複使用一般範本、提升跨環境標準化,以及將跨團隊的重工降到最低。
- 開發和部署應用程式
在現有基礎架構上自動執行程式碼部署,可在多個基礎架構部署上實現應用程式一致性。
- 管理基礎架構組態
在多個雲端資源上設定和更新基礎架構組態時,一致性至關重要。透過組態管理,您可以在設計、導入、測試、修補和新版本期間管理基礎架構組態部署。
建立頻繁和重複的部署
測試和部署程式碼時,使用自動化和反覆開發流程將風險降到最低。
- 自動化應用程式部署程序
儘可能自動化流程。可能的話,請消除生產環境中的手動部署;雖然這在較低的環境中是可以接受的,以提升速度和彈性。
- 在部署前利用自動化測試您的程式碼
對於錯誤、安全性漏洞、功能、效能和整合進行測試,將使用者發現的問題降到最低是很重要的。測試失敗應該會讓程式碼無法釋出到實際執行中。
- 導入迭代和增量部署
透過更頻繁地測試和驗證部署來降低風險。更小、更頻繁的變更可能會導致更少的失敗風險和發現問題的延遲。
定義作業程序
定義使用可用工具和自動化程序的程序。
- 自動化修正和維護
運用工具自動更新及修正屬於客戶維護責任之一部分的運算執行個體、資料庫執行個體和伺服器。
- 運用組態管理公用程式
使用組態管理工具,在更新資源組態時自動執行並降低風險。
- 監督系統效能度量
瞭解基礎架構服務提供的度量。設定監督與警示,以提供所有工作負載狀態和失敗主動指標的可見性。
- 記錄並測試災害復原計畫
撰寫反映應用程式失敗之業務影響的災害復原計畫。瞭解應用程式相依性及其對應用程式的影響。儘可能自動執行復原處理作業,並記錄任何手動步驟。定期測試您的災害復原處理作業,以驗證並改善計畫。
- Oracle Cloud Infrastructure 支援互動的計畫
在需求開始之前,請建立聯絡 Oracle Cloud Infrastructure 支援的流程。
- 納入 FinOps 實務
將 FinOps 實務納入營運程序中,以確保成本管理成為日常營運中不可或缺的一部分。
期望失敗和學習
應用程式的整個生命週期中都將發生未預期的失敗。從故障中學習,並改善回應和復原流程。
- 瞭解失敗
執行根本原因分析和調整作業流程,以更好、更靈活地因應未來的失敗。
- 持續改善事件回應
將從故障和過去問題獲得的經驗教訓與現有的事件回應程序整合,以防止未來的問題並減少「平均修復時間」。
- 失敗的課堂練習
定期測試及重新聽取事件管理與復原程序,以微調未來回應。
識別及監控工作負載關鍵績效指標
識別工作負載的基準績效和關鍵績效指標 (KPI)。使用 KPI 和日誌來監控應用程式工作負載狀況和效能。
請考慮使用下列方法來監督工作負載效能:
- 實行服務呼叫追蹤
基準效能資料可協助提供趨勢資料,讓您在影響使用者之前,先主動識別效能問題。
- 實行狀況檢查
定期從應用程式外部執行狀況檢查和探測,以識別應用程式狀況和效能的降低。狀況檢查與探測不應只是靜態頁面測試,而是應反映整體應用程式狀況。
- 檢查長時間執行的工作流程
提早追查問題,將回復整個工作流程或執行多個補償交易的需求降到最低。
- 維護系統、應用程式和稽核記錄
使用集中式日誌記錄服務來儲存及分析日誌。
- 設定提前警告系統
識別應用程式狀況的關鍵績效指標 (KPI),例如暫時例外情況和遠端呼叫延遲,並為每個狀況設定適當的臨界值。當達到臨界值時傳送警示給作業。
- 訓練多個運算子以監督應用程式並執行手動復原步驟
請確定至少有一個受過訓練的操作員有效。
- 建立根據 KPI 採取動作的調整原則
調整規模政策有助於為終端使用者在高需求期間提供一致的效能,並協助您在低需求期間降低成本。