使用 Oracle Cloud 控制台进行故障排除

了解如何使用 Oracle Cloud 控制台中的度量对 OCI GoldenGate 进行故障排除。

注意:

此信息仅适用于数据复制部署。

部署信息

您可以使用“部署信息”选项卡中的以下信息来帮助您进行故障排除:

  • OCPU 计数OCI GoldenGate 部署可用于使用的 Oracle Compute 单元 (OCPU) 基数,无需自动缩放。这也是 OCI GoldenGate 的最小计量表。
  • 自动缩放:启用后, OCI GoldenGate 部署最多可以缩放为 OCPU 计数值的三倍。
  • 公共 IP :如果在创建 OCI GoldenGate 部署时启用了公共端点,则会显示公共 IP。
  • 专用 IP :可以从(客户)子网访问的专用 IP。
  • 控制台 URL :可用于通过公共或专用网络访问 OCI GoldenGate 部署控制台的 FQDN。如果为 private,则必须从专用网络访问控制台 URL。
  • OCID :在向 Oracle 技术支持提交服务请求 (SR) 时所需的部署的 Oracle Cloud 标识符 (OCID)。

度量

注意:

确保将部署升级到最新版本,以利用所有可用度量。

每五分钟收集一次每个部署的度量。生成的数据可帮助您解决可能遇到的问题。

  • CPU 占用率:所有 OCPU 的聚合。例如,如果在创建部署时指定 3 作为 OCPU 计数并启用自动缩放,则可以使用的 OCPU 总数为 9。当利用率高于 33.333% 时,表示 9 个 OCPU 中的 33.333%。
  • CPU 使用量:消耗的 OCPU 总数。例如,当 OCPU 使用率大于 9 个 OCPU 的 33.333% 时,会针对超过 33.333% 的整数值(即 4 个 OCPU)向您开票。未启用自动缩放时,将按 OCPU 基数向您开票。
  • 内存使用率:聚合内存的百分比。每个 OCPU 分配 16 GB 内存。
  • 部署总体健康状况:每个部署都有健康状况分数,即底层 OCI GoldenGate 部署流程的汇总健康状况:管理服务、分发服务、接收方服务和性能度量服务。
    • 健康:100%
    • 不良:>100%

      例如,如果四个过程中的两个是健康的,那么健康评分是 50%。

      注意:

      添加子流程(如提取或分配路径)时,可以将其指定为对部署运行状况至关重要的。如果子进程已停止,则管理服务被视为不健康。
  • 部署入站滞后:对于指定为关键的提取,滞后为上限。此度量在所有关键提取中聚合。
  • 部署出站滞后:为指定为关键的复制捕获滞后。此度量在所有关键复制中聚合。
  • 交换空间使用量:显示部署正在使用的交换空间量(以 GB 为单位)。
  • 临时空间使用量:显示部署正在使用的临时空间量(以 GB 为单位)。
  • 文件系统使用情况:显示部署正在使用的文件系统空间量(以 GB 为单位)。
  • 提取状态:显示部署人员的提取流程的整体健康状况:
    • 100% 当进程正在运行时
    • 进程异常终止或停止时为 0%
  • Replicat Status(复制状态):显示部署的复制进程的整体运行状况:
    • 100% 当进程正在运行时
    • 进程异常终止或停止时为 0%
  • 分配路径状态:显示部署的分配路径进程的整体运行状况:
    • 100% 当进程正在运行时
    • 进程异常终止或停止时为 0%
  • 接收方路径状态:显示部署的接收方路径进程的总体运行状况:
    • 100% 当进程正在运行时
    • 进程异常终止或停止时为 0%
  • 提取滞后:显示部署中提取进程的平均滞后时间(秒)。
  • 复制滞后:显示部署中复制进程的平均滞后时间(以秒为单位)。
  • 分配路径滞后:显示部署中分配路径进程的平均滞后时间(秒)。
  • 接收方路径滞后:显示部署中接收方路径进程的平均滞后时间(秒)。

有关详细信息,请参阅度量

示例:对部署运行状况进行故障排除

此示例说明如何在部署运行状况不为 100% 时进行故障排除。

要对 OCI GoldenGate 部署控制台中的部署运行状况进行故障排除,请执行以下操作:

  1. 创建预警以评估部署健康状况。

    部署健康状况低于 100% 时,您将收到通知。

  2. 从“部署详细信息”页启动 OCI GoldenGate 部署控制台并登录。
  3. OCI GoldenGate 部署控制台中,单击 Performance Metrics Service(性能度量服务)并查看每个进程的状态。

    如果像“提取”或“复制”这样的子进程停止,则会直接影响管理服务的运行状况,给出 0(不健康)的运行状况评分。因此,总体部署健康率为 75%,因为四个流程中只有三个是健康的。

日志文件也可用于每个进程。有关如何使用 OCI GoldenGate 部署控制台日志文件进行故障排除的更多信息,请参见使用部署控制台进行故障排除

示例:OCPU 占用率故障排除

此示例说明如何在 OCPU 使用率大于 90% 时进行故障排除。

提取和复制在复制数据时会消耗 OCPU 周期。并行复制为每个复制进程创建多个应用程序进程。在 OCI GoldenGate 部署控制台中查看性能指标后,可能需要将其他 OCPU 添加到 OCI GoldenGate 部署,或者在未启用时启用自动缩放。

要对 OCPU 使用率进行故障排除,请执行以下操作:

  1. 启动 OCI GoldenGate 部署控制台并登录。
  2. 单击性能度量服务
  3. 单击每个进程以查看其详细信息,然后单击线程性能以查看该进程中每个线程的状态。

    线程性能示例
    插图 threadperformance.png 的说明

    此信息可用于对每个进程进行故障排除,包括每个线程的 CPU 消耗。