关于运营云部署效率的最佳做法

运营效率涉及确定适当的流程和程序,以自动和优化所有云服务的运行。必须考虑部署、操作和监视应用和基础结构的最佳做法,以提供最大的业务价值。 通过日常部署,需要查看云资源发生了什么。必须进行监测,以了解环境是否正常工作以及是否需要调整。

以代码形式执行操作

使用自动化和基础设施作为代码方法来提供、扩展和管理您的环境。
  • 采用基础结构作为代码 (IaC) 方法

    使用基础结构作为代码,自动部署工作负载和操作过程,限制人的交互,并改进对事件的响应。

  • 定义工作量基础结构

    将基础结构定义为代码时,可以在一致的基础结构上自动和重复预配工作量。参数化允许重复使用公用模板,促进跨环境标准化,并最大限度地减少团队间的返工。

  • 开发和部署应用程序

    通过在现有基础结构上自动部署代码,可以在多个基础结构部署上保持应用程序一致性。

  • 管理基础结构配置

    在配置和更新多个云资源的基础结构配置时,一致性至关重要。通过配置管理,可以在设计、实施、测试、打补丁和新发行版期间管理基础结构配置部署。

进行频繁和重复部署

在测试和部署代码时,使用自动化和迭代开发流程最大限度地降低风险。

  • 自动执行应用程序部署流程

    自动执行尽可能多的流程。如果可能,请消除生产中的手动部署;不过,这在较低的环境中可能是可以接受的,以提高速度和灵活性。

  • 利用自动化功能在部署之前测试代码

    测试 Bug、安全漏洞、功能、性能和集成对于最大限度地减少用户发现的问题至关重要。测试失败应防止代码发布到生产中。

  • 实施迭代和增量部署

    通过更频繁地测试和验证部署来降低风险。更小、更频繁地进行更改会导致较少发生故障和延迟发现问题。

定义操作过程

定义利用可用工具和自动化过程的过程。

  • 自动打补丁和维护

    利用工具自动更新和修补属于客户维护责任的计算实例、数据库实例和服务器。

  • 利用配置管理公用程序

    使用配置管理工具在更新资源配置时自动执行和降低风险。

  • 监视系统性能度量

    了解基础结构服务提供的度量。设置监视和预警以提供有关所有工作负载状态的可见性以及主动失败指示符。

  • 记录并测试灾难恢复计划

    编写反映应用程序故障的业务影响的灾难恢复计划。了解应用程序相关性及其对应用程序的影响。尽可能自动执行恢复过程,并记录任何手动步骤。定期测试灾难恢复过程以验证和改进计划。

  • 计划 Oracle Cloud Infrastructure 支持交互

    在需要之前,请建立与 Oracle Cloud Infrastructure 技术支持联系的过程。

期望失败,并学习

在应用程序的整个生命周期中将发生意外的故障。了解故障并改进响应和恢复过程。

  • 了解故障

    进行根本原因分析和优化操作流程,以便更好地、更灵活地应对将来的故障。

  • 持续改进意外事件响应

    传播从失败和过去问题中吸取的经验教训,以防止将来出现问题,并缩短平均修复时间。

  • 失败的实践

    定期测试和演练意外事件管理和恢复流程,以便对未来响应进行微调。

确定和监控工作量关键绩效指标

确定工作负载的基线性能和关键性能指标 (KPI)。使用 KPI 和日志监视应用程序工作量健康状况和性能。

考虑使用以下方法监视工作量性能:

  • 围绕服务调用实施跟踪

    基线性能数据可帮助提供可用于在性能问题影响用户之前主动识别性能问题的趋势数据。

  • 实施健康检查

    定期从应用程序外部运行健康检查和探测,以确定应用程序健康状况和性能的降级。健康检查和探测不应只是静态页面测试,而应反映整体应用程序运行状况。

  • 检查长时间运行的工作流

    提前捕获问题可以最大限度地减少回退整个工作流或执行多个补偿事务处理的需求。

  • 维护系统、应用程序和审计日志

    使用集中日志记录服务存储和分析日志。

  • 设置预警系统

    标识应用程序运行状况的关键绩效指标 (KPI),例如临时异常错误和远程调用等待时间,并为每个指标设置适当的阈值。达到阈值时向操作发送预警。

  • 培训多个操作员以监视应用程序并执行手动恢复步骤

    请确保始终至少有一个受过培训的运算符处于活动状态。

  • 创建基于 KPI 执行操作的缩放策略

    扩展策略有助于在高需求期间为最终用户提供一致的性能,并帮助您在低需求期间降低成本。

利用托管服务

使用托管云服务确保云资源以高效率、经济高效的方式运行。您的 IT 组织可以卸载与管理云资源相关联的战术和未开发的重型启动,以便他们能够专注于核心能力。

确定责任

云提供商记录其平台负责的内容以及客户负责的内容。确定客户责任,并确保每个责任都有运营过程。