Envoi d'une interruption de diagnostic

Vous pouvez envoyer une interruption de diagnostic pour résoudre le problème d'une instance de machine virtuelle de calcul non réactive ou inaccessible.

Attention

Cette fonctionnalité s'adresse aux utilisateurs avancés. L'envoi d'une interruption de diagnostic à un système actif peut entraîner une altération des données ou une panne du système.

L'interruption de diagnostic entraîne le blocage et le redémarrage du système d'exploitation de l'instance. Avant d'envoyer une interruption de diagnostic, vous devez configurer le système d'exploitation pour générer un fichier dump d'incident (également appelé fichier dump de mémoire) en cas de blocage. Le fichier dump d'incident capture des informations sur l'état du système d'exploitation au moment de l'incident. Une fois le système d'exploitation redémarré, vous pouvez analyser le fichier dump d'incident pour identifier et résoudre le problème.

Conseil

Pour plus d'informations sur le dépannage à l'aide de vidages sur incident, reportez-vous à Collecte de vidages sur incident à l'aide de l'utilitaire Kdump.

Stratégie IAM requise

Pour utiliser Oracle Cloud Infrastructure, un administrateur doit être membre d'un groupe auquel un administrateur de location a accordé un accès de sécurité dans une stratégie . Cet accès est requis, que vous utilisiez la console ou l'API REST avec un kit SDK, une interface de ligne de commande ou un autre outil. Si un message vous informe que vous n'avez pas d'autorisation ou que vous n'êtes pas autorisé, vérifiez auprès de l'utilisateur le type d'accès qui vous est accordé et le compartiment dans lequel vous travaillez.

Pour les administrateurs : la stratégie dans Autoriser les utilisateurs à lancer des instances de calcul inclut la possibilité d'envoyer une interruption de diagnostic à une instance. Si le groupe spécifié n'a pas besoin de lancer des instances ou d'attacher des volumes, vous pouvez simplifier cette stratégie pour inclure uniquement manage instance-family et supprimer les instructions impliquant volume-family et virtual-network-family.

Si vous ne connaissez pas les stratégies, reportez-vous à Gestion des domaines d'identité et à Stratégies courantes. Afin d'obtenir des documents de référence sur l'écriture de stratégies pour des instances, des réseaux cloud ou d'autres ressources d'API de services de base, reportez-vous à Détails des services de base.

Avant de commencer

Le système d'exploitation de l'instance doit être configuré pour générer un fichier dump d'incident.
L'instance doit être en cours. Pour plus d'informations, reportez-vous à Arrêt, démarrage ou redémarrage d'une instance.
Aucune action en cours n'affecte l'instance, comme des volumes de blocs ou des cartes d'interface réseau virtuelles secondaires en cours d'attachement ou de détachement.

Configuration du système d'exploitation pour la génération d'un fichier dump d'incident

Avant d'envoyer une interruption de diagnostic à une instance, vous devez configurer le système d'exploitation afin de générer un fichier dump d'incident en cas de blocage. L'interruption de diagnostic est reçue en tant qu'interruption non masquable sur l'instance cible.

La procédure dépend du système d'exploitation.

Linux

Remarque

Sur les images de plate-forme Oracle Linux, le système d'exploitation est entièrement ou partiellement configuré pour générer un fichier dump d'incident, en fonction de la date de publication de l'image.

Oracle Linux 8

Images publiées en août 2020 ou ultérieurement : l'image est entièrement configurée pour générer un fichier dump d'incident.
Images antérieures : le noyau pour la capture du fichier dump est installé et configuré, mais vous devez effectuer les autres étapes de configuration.

Oracle Linux 7

Images publiées en août 2020 ou ultérieurement : l'image est entièrement configurée pour générer un fichier dump d'incident.
Images antérieures : le noyau pour la capture du fichier dump est installé et configuré, mais vous devez effectuer les autres étapes de configuration.

Se connecter à l'instance.
Installez et configurez le noyau pour la capture du fichier dump :
1. Installez kdump et kexec en exécutant la commande suivante :
```
sudo yum install kexec-tools
```
2. Réservez de la mémoire sur le noyau pour enregistrer le fichier dump d'incident. Procédez comme suit :
  1. Ouvrez le fichier etc/default/grub dans un éditeur de texte.
  2. Dans la ligne commençant par GRUB_CMDLINE_LINUX_DEFAULT, ajoutez le paramètre crashkernel=<mémoire-à-réserver>. Par exemple, pour réserver 100 Mo, ajoutez crashkernel=100M.
  3. Enregistrez les modifications et fermez le fichier.
  4. Reconstruisez le fichier GRUB en exécutant la commande suivante :
```
sudo grub2-mkconfig -o /boot/grub2/grub.cfg
```
Configurez le noyau pour qu'il se bloque lorsqu'il reçoit une interruption de diagnostic. Pour ce faire, ouvrez le fichier /etc/sysctl.conf dans un éditeur de texte et ajoutez la ligne suivante :
```
kernel.unknown_nmi_panic=1
```
Appliquez la modification à /etc/sysctl.conf en exécutant la commande suivante :
```
sysctl -p
```

Windows Server - Image de plate-forme

Si vous utilisez une image de plate-forme Windows Server publiée en avril 2020 ou ultérieurement, l'image est déjà configurée pour générer un fichier dump d'incident.

Si vous utilisez une image publiée avant avril 2020, procédez comme suit :

Se connecter à l'instance.
Téléchargez les pilotes Oracle VirtIO pour Microsoft Windows.
Installez les pilotes, puis redémarrez l'instance.

Windows Server - Image fournie par le client

Pour plus d'informations, reportez-vous à la documentation tierce associée à votre système d'exploitation.