アップグレード失敗後のFailed状態の管理エージェントfor Kubernetes (OCMA)

管理エージェントに指定されたDockerイメージURLがoci-kubernetes-monitoringチャートのHelmアップグレード中に正しくないかアクセスできない場合、管理エージェント・ポッドはfailed状態のままになります。

In this state, performing a subsequent Helm upgrade with the correct image version does not recover the pod automatically, as Kubernetes does not automatically restart pods that remain in a Failed state after an image pull error.

この問題を解決するには:

  1. 正しくアクセス可能なイメージURLを使用してHelmリリースをアップグレードします:
    helm upgrade <release-name> --values <path-to-override-values.yaml> <path-to-helm-chart>
  2. 失敗したポッドを削除して、Kubernetesが正しいイメージ・バージョンで再作成できるようにします:
    kubectl delete pod oci-onm-mgmt-agent-0 -n oci-onm

削除後、Kubernetesは修正された構成を使用してポッドを自動的に再作成し、ポッドは正常に起動します。