Déployer IBM Spectrum LSF avec le connecteur de ressource configuré pour OCI

Résolvez le problème de l'allocation fixe de ressources en ajustant dynamiquement le nombre de ressources allouées à une charge globale en fonction de la demande réelle avec le redimensionnement automatique du connecteur de ressources IBM Spectrum LSF. Optimisez l'utilisation des ressources, réduisez les coûts et améliorez l'efficacité globale dans les environnements de calcul hautes performances.

IBM Spectrum LSF (Load Sharing Facility, utilitaire de partage de charge) est une plate-forme de gestion de charge de travail utilisée pour les environnements informatiques distribués. Il permet aux utilisateurs de gérer et de planifier des tâches informatiques sur un réseau d'ordinateurs ou de clusters de calcul, en veillant à ce que les tâches soient effectuées efficacement et sans interruption.

Le connecteur de ressource pour la fonctionnalité IBM Spectrum LSF (anciennement appelée fabrique d'hôtes) permet aux clusters LSF d'emprunter des ressources à des fournisseurs de ressources pris en charge. Lorsque la charge de travail est faible, le LSF utilise un connecteur de ressource pour réduire le nombre de ressources allouées, ce qui permet d'économiser des coûts et d'améliorer l'utilisation. Lorsque la charge de travail est élevée, davantage de ressources sont demandées au fournisseur de cloud.

Notez que des privilèges d'administration sont requis pour le déploiement de cette architecture.

Architecture

Cette architecture de référence présente le cluster IBM Spectrum LSF déployé dans un sous-réseau existant avec un hôte principal, des noeuds de cluster (créés à la demande lorsque le connecteur de ressource appelle l'API OCI) et un service de bastion.

L'hôte principal LSF requiert l'autorisation instance_principal pour interagir avec l'API OCI et dispose d'une configuration par défaut (VM.Standard.E4). Flex / 2 OCPU / 8 Go) pouvant être ajustés lors de la création de la pile.

Le LSF resource_connector est préconfiguré pour la file d'attente dynamique et peut demander à l'API OCI deux types de ressources de calcul (amd2 - VM.Standard.E3). Flex / 2 OCPU / 4 Go et amd4 - VM.Standard.E4. Flex / 2 OCPU / 8 Go) en fonction des exigences de la tâche. Les modèles disponibles pour resource_connector peuvent être modifiés dans les fichiers de configuration LSF (<lsf_top>/conf/resource_connector/oci/conf/oci_config.json et <lsf_top>/conf/resource_connector/oci/conf/ociprov_templates.json) et recharger la configuration en cluster, en rechargant la configuration en cluster à l'aide des commandes suivantes :

$ lsadmin reconfig
$ badmin reconfig
$ badmin mbdrestart

Le nombre maximal d'hôtes par défaut que resource_connector peut demander à OCI est de huit pour chaque modèle disponible (maxNumber peut être modifié dans le fichier <lsf_top>/conf/resource_connector/oci/conf/ociprov_templates.json si d'autres noeuds sont requis).

L'approche de déploiement recommandée consiste à utiliser le lien de déploiement en un clic via Oracle Cloud Infrastructure Resource Manager.

Le schéma suivant illustre cette architecture de référence.



oci-ibm-lfs-architecture-oracle.zip

L'architecture comprend les composants suivants :

  • Tenancy

    Une location est une partition sécurisée et isolée configurée par Oracle dans Oracle Cloud lors de votre inscription à Oracle Cloud Infrastructure. Vous pouvez créer, organiser et administrer vos ressources dans Oracle Cloud au sein de votre location. Une location est synonyme d'entreprise ou d'organisation. En général, une entreprise dispose d'une seule location et reflète sa structure organisationnelle au sein de cette location. Une location unique est généralement associée à un seul abonnement, et un seul abonnement n'a généralement qu'une seule location.

  • Région

    Une région Oracle Cloud Infrastructure est une zone géographique précise, incluant un ou plusieurs centres de données, appelés domaines de disponibilité. Les régions sont indépendantes les unes des autres et de grandes distances peuvent les séparer (entre pays, voire continents).

  • Compartiment

    Les compartiments sont des partitions logiques inter-régionales au sein d'une location Oracle Cloud Infrastructure. Utilisez des compartiments afin d'organiser, de contrôler l'accès et de définir des quotas d'utilisation pour les ressources Oracle Cloud. Dans un compartiment donné, vous définissez des stratégies qui contrôlent l'accès et définissent des privilèges pour les ressources.

  • Domaines de disponibilité

    Les domaines de disponibilité sont des centres de données autonomes indépendants au sein d'une région. Les ressources physiques de chaque domaine de disponibilité sont isolées de celles des autres, ce qui garantit la tolérance aux pannes. Les domaines de disponibilité ne partagent ni infrastructure (par exemple, alimentation, système de refroidissement), ni réseau de domaine de disponibilité interne. Par conséquent, une panne sur un domaine de disponibilité ne doit pas affecter les autres domaines de disponibilité de la région.

  • Domaines de pannes

    Un domaine de pannes est un regroupement de matériel et d'infrastructures au sein d'un domaine de disponibilité. Chaque domaine de disponibilité comporte trois domaines de pannes avec du matériel et une alimentation indépendants. Lorsque vous répartissez les ressources entre plusieurs domaines de pannes, vos applications peuvent tolérer les pannes physiques du serveur, la maintenance du système et les pannes d'alimentation au sein d'un domaine de pannes.

  • Réseau cloud virtuel (VCN) et sous-réseaux

    Un VCN est un réseau personnalisable défini par logiciel que vous configurez dans une région Oracle Cloud Infrastructure. Comme les réseaux de centre de données traditionnels, les réseaux cloud virtuels vous donnent le contrôle sur l'environnement réseau. Un réseau cloud virtuel peut comporter plusieurs blocs CIDR qui ne se chevauchent pas et que vous pouvez modifier après l'avoir créé. Vous pouvez segmenter un réseau cloud virtuel en plusieurs sous-réseaux ciblant une région ou un domaine de disponibilité. Chaque sous-réseau est composé d'une plage contiguë d'adresses qui ne chevauchent pas celles des autres sous-réseaux du réseau cloud virtuel. Vous pouvez modifier la taille d'un sous-réseau après sa création. Un sous-réseau peut être public ou privé.

  • Liste de sécurité

    Pour chaque sous-réseau, vous pouvez créer des règles de sécurité qui indiquent la source, la destination et le type de trafic qui doivent être autorisés à entrer et à sortir du sous-réseau.

  • Passerelle NAT (Network Address Translation)

    Une passerelle NAT permet aux ressources privées d'un VCN d'accéder aux hôtes sur Internet, sans les exposer aux connexions Internet entrantes.

  • Passerelle de service

    La passerelle de service fournit un accès à partir d'un VCN à d'autres services, tels qu'Oracle Cloud Infrastructure Object Storage. Le trafic entre le VCN et le service Oracle passe par la structure du réseau Oracle et ne traverse pas Internet.

  • Passerelle Internet

    La passerelle Internet autorise le trafic entre les sous-réseaux publics d'un VCN et le réseau Internet public.

  • Service Bastion

    Oracle Cloud Infrastructure Bastion fournit un accès sécurisé limité et limité dans le temps aux ressources qui n'ont pas d'adresses publiques et qui nécessitent des contrôles stricts d'accès aux ressources, tels que les machines virtuelles et Bare Metal, Oracle MySQL Database Service, Autonomous Transaction Processing (ATP), Oracle Cloud Infrastructure Kubernetes Engine (OKE), ainsi que toute autre ressource autorisant l'accès SSH (Secure Shell Protocol). Avec le service OCI Bastion, vous pouvez activer l'accès aux hôtes privés sans déployer et gérer un hôte de saut. En outre, vous bénéficiez d'une meilleure posture de sécurité avec des droits d'accès basés sur l'identité et une session SSH centralisée, auditée et limitée dans le temps. OCI Bastion élimine la nécessité d'une adresse IP publique pour l'accès au bastion, éliminant ainsi les tracas et la surface d'attaque potentielle lors de la fourniture d'un accès à distance.

  • Identity and Access Management (IAM)

    Oracle Cloud Infrastructure Identity and Access Management (IAM) est le plan de contrôle d'accès pour Oracle Cloud Infrastructure (OCI) et Oracle Cloud Applications. L'API IAM et l'interface utilisateur vous permettent de gérer les domaines d'identité et les ressources au sein du domaine d'identité. Chaque domaine d'identité OCI IAM représente une solution autonome de gestion des identités et des accès ou une population d'utilisateurs différente.

  • Oracle Cloud Infrastructure Resource Manager

    OCI Resource Manager automatise le déploiement et les opérations pour toutes les ressources OCI. A l'aide du modèle Infrastructure-as-Code (IaC), le service est basé sur Terraform.

Recommandations

Utilisez les recommandations suivantes comme point de départ pour garantir l'évolutivité et la disponibilité du cluster LSF : vos exigences peuvent différer de l'architecture décrite ici.
  • VCN et sous-réseaux

    Lorsque vous sélectionnez un sous-réseau existant, vous devez considérer un bloc CIDR suffisamment grand pour prendre en charge toutes les ressources de calcul demandées par le connecteur de ressource LSF.

    Utilisez des sous-réseaux régionaux (dans le cas de régions multiad).

    Autoriser toutes les communications au sein du sous-réseau (ajoutez à la liste de sécurité du sous-réseau une règle autorisant toutes les connexions entrantes du bloc CIDR de sous-réseau vers tous les ports de destination).

Points à prendre en compte

Lors du provisionnement, tenez compte des aspects suivants.

  • Binaires IBM Spectrum LSF

    Les fichiers binaires et la licence requise pour installer/exécuter LSF ne sont pas inclus. Ce déploiement a été testé avec la version LSF 10.1 et le patch 601088.

    Avant le déploiement, vous pouvez télécharger les fichiers ci-dessous à partir du portail de support IBM, les charger dans un bucket de banque d'objets OCI et créer des demandes pré-authentifiées.

    • lsf10.1_lsfinstall.tar.Z
    • lsf10.1_lnx310-lib217-x86_64.tar.Z
    • lsf10.1_lnx310-lib217-x86_64-601088.tar.Z
    • lsf_entitlement.dat
  • VCN

    La résolution DNS doit être activée pour le VCN et le sous-réseau utilisés pour le noeud maître LSF.

Déployez

Le code Terraform pour déployer la solution est disponible dans GitHub.

  1. Accédez à GitHub.
  2. Clonez ou téléchargez le référentiel sur votre ordinateur local.
  3. Suivez les instructions du document README.

En savoir plus

En savoir plus sur IBM Spectrium LSF, le connecteur de ressource IBM Spectrium LSF et OCI.

Consultez les ressources supplémentaires suivantes :

Accusés de réception

Authors: Chandrashekar Avadhani, Andrei Ilas

Contributors: John Sulyok