Déployer IBM Spectrum LSF avec un connecteur de ressource configuré pour OCI

Résolvez le problème d'affectation de ressources fixes en ajustant dynamiquement le nombre de ressources affectées à une charge de travail en fonction de la demande réelle grâce à l'ajustement automatique du connecteur de ressource IBM Spectrum LSF. Optimisez l'utilisation des ressources, réduisez les coûts et améliorez l'efficacité globale dans les environnements de calcul de haute performance.

IBM Spectrum LSF (Load Sharing Facility) est une plate-forme de gestion de la charge de travail utilisée pour les environnements informatiques répartis. Il permet aux utilisateurs de gérer et de planifier des travaux informatiques sur un réseau d'ordinateurs ou de grappes de calcul, en veillant à ce que les travaux soient exécutés efficacement et sans interruption.

Le connecteur de ressource pour la fonction IBM Spectrum LSF (précédemment appelée usine hôte) permet aux grappes LSF d'emprunter des ressources à des fournisseurs de ressources pris en charge. Lorsque la charge de travail est faible, le LSF utilise le connecteur de ressources pour réduire le nombre de ressources allouées, économiser des coûts et améliorer l'utilisation. Lorsque la charge de travail est élevée, davantage de ressources sont demandées au fournisseur de services en nuage.

Veuillez noter que des privilèges d'administration sont requis pour le déploiement de cette architecture.

Architecture

Cette architecture de référence présente la grappe IBM Spectrum LSF déployée dans un sous-réseau existant avec un hôte principal, des noeuds de grappe (créés sur demande lorsque le connecteur de ressource appelle l'API OCI) et un service d'hôte bastion.

L'hôte principal LSF nécessite l'autorisation instance_principal pour interagir avec l'API OCI et a une configuration par défaut (VM.Standard.E4). Champ flexible / 2 OCPU/ 8 Go) pouvant être ajustés lors de la création de la pile.

Le LSF resource_connector est préconfiguré pour la file d'attente dynamique et peut demander à l'API OCI deux types de ressources de calcul (amd2 - VM.Standard.E3). Flex / 2 OCPU / 4 Go et amd4 - VM.Standard.E4. Champ flexible / 2 OCPU / 8 Go) selon les exigences de la tâche. Les modèles disponibles pour resource_connector peuvent être modifiés dans les fichiers de configuration LSF (<lsf_top>/conf/resource_connector/oci/conf/oci_config.json et <lsf_top>/conf/resource_connector/oci/conf/ociprov_templates.json) et recharger la configuration de grappe, en rechargant la configuration de grappe à l'aide des commandes suivantes :

$ lsadmin reconfig
$ badmin reconfig
$ badmin mbdrestart

Le nombre maximal par défaut d'hôtes que resource_connector peut demander à partir d'OCI est de huit pour chaque modèle disponible (maxNumber peut être modifié dans le fichier <lsf_top>/conf/resource_connector/oci/conf/ociprov_templates.json si d'autres noeuds sont requis).

L'approche de déploiement recommandée utilise le lien de déploiement en un clic au moyen d'Oracle Cloud Infrastructure Resource Manager.

Le diagramme suivant illustre cette architecture de référence.



oci-ibm-lfs-architecture-oracle.zip

L'architecture comprend les composants suivants :

  • Location

    Une location est une partition sécurisée et isolée qu'Oracle configure dans Oracle Cloud lors de votre inscription à Oracle Cloud Infrastructure. Vous pouvez créer, organiser et administrer vos ressources dans Oracle Cloud au sein de votre location. Une location est synonyme d'une société ou d'une organisation. Habituellement, une société aura une seule location et reflétera sa structure organisationnelle au sein de cette location. Une seule location est généralement associée à un seul abonnement, et un seul abonnement n'a généralement qu'une seule location.

  • Région

    Une région Oracle Cloud Infrastructure est une zone géographique localisée qui contient un ou plusieurs centres de données, appelés domaines de disponibilité. Les régions sont indépendantes les unes des autres, et de grandes distances peuvent les séparer (dans différents pays ou continents).

  • Compartiment

    Les compartiments sont des partitions logiques inter-régions dans une location Oracle Cloud Infrastructure. Utilisez des compartiments pour organiser, contrôler l'accès et définir des quotas d'utilisation pour vos ressources Oracle Cloud. Dans un compartiment donné, vous définissez des politiques qui contrôlent l'accès et définissent des privilèges pour les ressources.

  • Domaines de disponibilité

    Les domaines de disponibilité sont des centres de données indépendants et autonomes dans une région. Les ressources physiques de chaque domaine de disponibilité sont isolées des ressources des autres domaines de disponibilité, ce qui garantit la tolérance aux pannes. Les domaines de disponibilité ne partagent pas les éléments d'infrastructure (alimentation ou refroidissement, par exemple) ni le réseau de domaines de disponibilité interne. Par conséquent, une défaillance d'un domaine de disponibilité ne devrait pas affecter les autres domaines de disponibilité de la région.

  • Domaines d'erreur

    Un domaine d'erreur est un regroupement de matériel et d'infrastructure au sein d'un domaine de disponibilité. Chaque domaine de disponibilité comporte trois domaines d'erreur avec une puissance et un matériel indépendants. Lorsque vous répartissez des ressources entre plusieurs domaines d'erreur, vos applications peuvent tolérer les pannes physiques de serveur, la maintenance du système et les pannes d'alimentation au sein d'un domaine d'erreur.

  • Réseau en nuage virtuel (VCN) et sous-réseau

    Un VCN est un réseau défini par logiciel personnalisable que vous avez configuré dans une région Oracle Cloud Infrastructure. Comme les réseaux en nuage virtuels traditionnels, ils vous offrent un contrôle sur votre environnement de réseau. Un VCN peut disposer de plusieurs blocs CIDR sans chevauchement que vous pouvez modifier après avoir créé le VCN. Vous pouvez segmenter un VCN en sous-réseaux, dont la portée peut concerner une région ou un domaine de disponibilité. Un sous-réseau est constitué d'un intervalle contigu d'adresses qui ne chevauchent pas les autres sous-réseaux dans le réseau en nuage virtuel. Vous pouvez modifier la taille d'un sous-réseau après sa création. Un sous-réseau peut être public ou privé.

  • Liste de sécurité

    Pour chaque sous-réseau, vous pouvez créer des règles de sécurité qui spécifient la source, la destination et le type de trafic qui doivent être autorisés à entrer et à sortir du sous-réseau.

  • Passerelle de traduction d'adresses de réseau (NAT)

    Une passerelle NAT permet aux ressources privées d'un VCN d'accéder à des hôtes sur Internet, sans les exposer aux connexions Internet entrantes.

  • Passerelle de service

    La passerelle de service fournit l'accès d'un VCN à d'autres services, tels qu'Oracle Cloud Infrastructure Object Storage. Le trafic entre le réseau VCN et le service Oracle circule sur la matrice réseau Oracle et ne passe pas par Internet.

  • Passerelle Internet

    La passerelle Internet permet le trafic entre les sous-réseaux publics d'un VCN et l'Internet public.

  • Service d'hôte bastion

    Oracle Cloud Infrastructure Bastion fournit un accès sécurisé restreint et limité dans le temps aux ressources qui n'ont pas de points d'extrémité publics et qui nécessitent des contrôles d'accès stricts aux ressources, tels que les machines sans système d'exploitation et virtuelles, Oracle MySQL Database Service, Autonomous Transaction Processing (ATP), Oracle Cloud Infrastructure Kubernetes Engine (OKE) et toute autre ressource qui autorise l'accès au protocole SSH. Avec le service Hôte bastion OCI, vous pouvez permettre l'accès à des hôtes privés sans déployer et tenir à jour un hôte de saut. En outre, vous bénéficiez d'une meilleure sécurité grâce à des autorisations basées sur l'identité et à une session SSH centralisée, auditée et limitée dans le temps. Le service Hôte bastion OCI élimine le besoin d'une adresse IP publique pour l'accès bastion, éliminant ainsi les tracas et la surface d'attaque potentielle lors de la fourniture d'un accès distant.

  • Service de gestion des identités et des accès (GIA)

    Oracle Cloud Infrastructure Identity and Access Management (IAM) est le plan de contrôle d'accès pour Oracle Cloud Infrastructure (OCI) et Oracle Cloud Applications. L'API IAM et l'interface utilisateur vous permettent de gérer les domaines d'identité et les ressources du domaine d'identité. Chaque domaine d'identité IAM OCI représente une solution autonome de gestion des identités et des accès ou une population d'utilisateurs différente.

  • Gestionnaire de ressources d'Oracle Cloud Infrastructure

    Le gestionnaire de ressources OCI automatise le déploiement et les opérations pour toutes les ressources OCI. À l'aide du modèle d'infrastructure en tant que code (IaC), le service est basé sur Terraform.

Recommandations

Utilisez les recommandations suivantes comme point de départ pour assurer l'évolutivité et la disponibilité de la grappe LSF :Vos exigences peuvent différer de l'architecture décrite ici.
  • VCN et sous-réseaux

    Lorsque vous sélectionnez un sous-réseau existant, vous devez prendre en compte un bloc CIDR suffisamment grand pour prendre en charge toutes les ressources de calcul demandées par le connecteur de ressource LSF.

    Utilisez des sous-réseaux régionaux (dans le cas de régions multi-annonces).

    Autoriser toutes les communications dans le sous-réseau (ajouter à la liste de sécurité du sous-réseau une règle autorisant toutes les connexions entrantes du bloc CIDR du sous-réseau à tous les ports de destination).

Points à considérer

Lors du provisionnement, tenez compte des aspects suivants.

  • Binaires IBM Spectrum LSF

    Les fichiers binaires et la licence requise pour installer/exécuter LSF ne sont pas inclus. Ce déploiement a été testé avec LSF version 10.1 et patch version 601088.

    Avant le déploiement, vous pouvez télécharger les fichiers ci-dessous à partir du portail de soutien IBM, les charger dans un seau de magasin d'objets OCI et créer des demandes préauthentifiées.

    • lsf10.1_lsfinstall.tar.Z
    • lsf10.1_lnx310-lib217-x86_64.tar.Z
    • lsf10.1_lnx310-lib217-x86_64-601088.tar.Z
    • lsf_entitlement.dat
  • VCN

    La résolution DNS doit être activée pour le VCN et le sous-réseau utilisés pour le noeud principal LSF.

Déployez

Le code Terraform pour déployer la solution est disponible dans GitHub.

  1. Allez à GitHub.
  2. Clonez ou téléchargez le référentiel sur votre ordinateur local.
  3. Suivez les instructions du document README.

Informations complémentaires

Apprenez-en davantage sur IBM Spectrium LSF, IBM Spectrium LSF Resource Connector et OCI.

Vérifiez les ressources supplémentaires suivantes :

Confirmation

Authors: Chandrashekar Avadhani, Andrei Ilas

Contributors: John Sulyok