了解云中的高可用性

您需要将云中的应用全天候可用;无论云基础设施出现任何中断,其负载都必须继续运行。设计高可用性服务或应用将有助于确保尽可能延长正常运行时间和可访问性。

关于高可用性

要设计高可用性架构,应考虑三个关键要素:冗余、监视和故障转移:

  • 冗余意味着多个组件可以执行同一任务。消除单点故障的问题,因为冗余组件可以接管已失败的组件执行的任务。
  • 监视意味着检查组件是否正常工作。
  • 故障转移是主组件发生故障时辅助组件成为主组件的进程。
此处介绍的最佳做法侧重于这三个关键要素。虽然可以在许多不同的级别(包括应用级别和云基础设施级别)实现高可用性,但这里我们将重点介绍云基础设施级别。

关于 Oracle Cloud 的高可用性功能

Oracle Cloud Infrastructure 区域是一个局部地理区域,由一个或多个可用性域组成,每个域由三个容错域组成。

可用性域是一个区域中的一个或多个数据中心。可用性域相互隔离,具有容错功能,不太可能同时出现故障。由于可用性域不共享物理基础设施(例如电源或冷却)或内部可用性域网络,因此影响一个可用性域的故障不太可能会影响其他可用性域的可用性。

故障域是可用性域内一组硬件和基础设施。每个可用性域都包含三个容错域。通过容错域,您可以将多个实例分布到单个可用性域内的不同物理硬件上。因此,影响一个容错域的意外硬件故障或计算硬件维护不会影响其他容错域中的实例。您可以选择在启动时为新实例指定容错域,也可以让系统为您选择一个容错域。

一个区域中的所有可用性域都通过低延迟、高带宽网络相互连接。这种可用性域之间的可预测加密互连为高可用性和灾难恢复提供构建块。

Oracle Cloud Infrastructure 资源特定于某个区域(例如虚拟云网络)或特定于可用性域(例如计算实例)。在配置云服务时,如果服务特定于可用性域,则必须利用多个可用性域或容错域来确保高可用性并防止资源故障。通过在其他可用性域或容错域中创建冗余计算实例,可以在影响主计算实例或其域的问题上避免对应用产生影响。您可以设计解决方案来包含多个区域、多个可用性域或多个容错域,具体取决于您希望防范的故障类别。