A propos du déploiement de systèmes de fichiers Lustre

Avec les besoins croissants de formation AI/ML, d'inférence et de calcul haute performance, vous devez envisager une solution de système de fichiers entièrement gérée qui évolue. Découvrez comment déployer un système de fichiers robuste basé sur le cloud qui prend en charge la croissance future.

Oracle Cloud Infrastructure (OCI) File Storage avec Lustre automatise les tâches de déploiement, de mise à l'échelle et de maintenance, ce qui vous permet de vous concentrer sur les applications plutôt que sur la gestion de l'infrastructure Lustre. Le service dans OCI implémente l'open source Lustre en tant que service. Le système de fichiers Lustre peut évoluer pour fournir des vitesses de plusieurs téraoctets par seconde pour un traitement de données rapide et un débit élevé.

Vous pouvez utiliser la console OCI, les API, les kits SDK, l'interface de ligne de commande et les mesures pour créer, gérer et surveiller le système de fichiers Lustre. Le client Lustre installé dans vos systèmes communique avec le système de fichiers Lustre, en particulier les serveurs de stockage Lustre utilisant vos sous-réseaux. Vous êtes responsable de la gestion des listes de sécurité, des tables de routage, des groupes de sécurité et d'autres configurations liées au VCN.

Ce manuel de solutions détaille les meilleures pratiques pour OCI File Storage avec Lustre avec des instructions pour créer, monter et surveiller le système de fichiers Lustre. L'objectif est de commencer à utiliser le système de fichiers Lustre et d'y accéder à partir d'un client Lustre.

Avant de commencer

Avant de commencer, consultez la documentation Lustre pour en savoir plus sur OCI File Storage avec Lustre.

Architecture

Cette architecture présente les communications Lustre au sein d'un réseau cloud virtuel (VCN). Tous les composants Lustre sont déployés dans le même domaine de disponibilité sur plusieurs domaines de pannes à des fins de haute disponibilité. Les systèmes de fichiers Lustre peuvent être montés à partir d'instances de calcul OCI (machines virtuelles et instances Bare Metal) et d'environnements en conteneur tels qu'Oracle Cloud Infrastructure Kubernetes Engine (OKE).

Le diagramme suivant illustre l'architecture de haut niveau des composants Lustre sous-jacents déployés et gérés par Oracle Cloud, ainsi que les composants gérés par le client.



lustre-file-system-oci-arch.zip

L'architecture comporte les composants OCI suivants :

  • Région

    Une région Oracle Cloud Infrastructure est une zone géographique localisée contenant des centres de données hébergeant des domaines de disponibilité. Les régions sont indépendantes les unes des autres et de grandes distances peuvent les séparer (entre les pays ou même les continents).

  • Domaines de disponibilité

    Les domaines de disponibilité sont des centres de données autonomes indépendants au sein d'une région. Les ressources physiques de chaque domaine de disponibilité sont isolées de celles des autres, ce qui garantit la tolérance aux pannes. Les domaines de disponibilité ne partagent ni infrastructure (par exemple, alimentation, système de refroidissement), ni réseau de domaine de disponibilité interne. Par conséquent, une panne sur un domaine de disponibilité ne doit pas affecter les autres domaines de disponibilité de la région.

    OCI File Storage avec Lustre est déployé dans un seul domaine de disponibilité.

  • Domaines de pannes

    Un domaine de pannes est un regroupement de matériel et d'infrastructures au sein d'un domaine de disponibilité. Chaque domaine de disponibilité dispose de trois domaines de pannes avec du matériel et une alimentation indépendants. Lorsque vous répartissez les ressources entre plusieurs domaines de pannes, vos applications peuvent tolérer les pannes physiques du serveur, la maintenance du système et les pannes d'alimentation au sein d'un domaine de pannes.

    OCI File Storage avec des composants Lustre sont déployés dans plusieurs domaines de pannes pour assurer la redondance et la haute disponibilité.

  • Réseau cloud virtuel (VCN) et sous-réseaux

    Un VCN est un réseau personnalisable défini par logiciel que vous configurez dans une région Oracle Cloud Infrastructure. Comme les réseaux de centre de données traditionnels, les réseaux cloud virtuels vous donnent le contrôle sur l'environnement réseau. Un réseau cloud virtuel peut comporter plusieurs blocs CIDR qui ne se chevauchent pas et que vous pouvez modifier après l'avoir créé. Vous pouvez segmenter un réseau cloud virtuel en plusieurs sous-réseaux ciblant une région ou un domaine de disponibilité. Chaque sous-réseau est composé d'une plage contiguë d'adresses qui ne chevauchent pas celles des autres sous-réseaux du réseau cloud virtuel. Vous pouvez modifier la taille d'un sous-réseau après sa création. Un sous-réseau peut être public ou privé.

    OCI File Storage avec Lustre est accessible via VCN et est déployé dans un sous-réseau géré par le client.

L'architecture comporte les composants Lustre suivants. Tous les composants, à l'exception de MGT, sont ajoutés car davantage de capacité est nécessaire :

  • Volume de stockage Lustre (cible de stockage d'objet ou OST)

    Il s'agit des volumes dans lesquels les données de fichier sont stockées.

  • Volume de métadonnées (cible de métadonnées ou terminal mobile)

    Les métadonnées de fichier telles que les noms de fichier et les attributs sont stockées sur ces volumes.

  • Volume de gestion Lustre (cible de gestion ou MGT)

    Il n'existe qu'un seul système de fichiers. Il s'agit d'un volume utilisé pour stocker les informations de configuration du système de fichiers Lustre.

  • Serveur de stockage hébergeant une ou plusieurs cibles de stockage (OSS)

    Il s'agit d'instances de calcul virtuelles ou Bare Metal.

  • Serveur de métadonnées hébergeant une ou plusieurs cibles de métadonnées (MDS)

    Il s'agit d'instances de calcul virtuelles ou Bare Metal.

  • LNet (mise en réseau élégante)

    LNet est une couche de réseau virtuel qui permet aux noeuds Lustre (y compris les clients) de communiquer entre eux. LNet masque la complexité des protocoles réseau sous-jacents, ce qui permet à Lustre de fonctionner de manière transparente sur divers types de réseau tels qu'Ethernet et InfiniBand.

  • VCN et sous-réseaux

    La communication de données de base du système de fichiers Lustre repose sur des réseaux cloud virtuels et des sous-réseaux. Cela inclut la communication entre le client et les serveurs, ainsi qu'entre le serveur et le serveur.

A propos des services et stratégies requis

Cette solution requiert les services et stratégies suivants :

  • Oracle Cloud Infrastructure File Storage avec Lustre
  • Oracle Cloud Infrastructure Identity and Access Management
  • Réseau cloud virtuel Oracle Cloud Infrastructure

Les stratégies requises pour chaque service sont répertoriées ci-dessous. Pour démarrer rapidement, vous pouvez envisager d'implémenter les stratégies et règles de sécurité suivantes dans le sous-réseau. Pour respecter le principe du moindre privilège, les stratégies spécifiques nécessaires varient en fonction des besoins de sécurité de votre organisation. Reportez-vous à la documentation Lustre pour obtenir la liste complète des stratégies requises pour gérer les systèmes de fichiers Lustre dans OCI.

Nom de service : groupe de stratégies OCI IAM Requis pour...
Oracle Cloud Infrastructure File Storage avec Lustre : lustre-admin-group
  • Créez et gérez le système de fichiers Lustre.
  • Utilisez et accédez aux ressources VCN.
  • Gérer des composants tels que des cartes d'interface réseau virtuelles et OCI Vault et y accéder.
  • Accéder aux clés OCI Vault lorsque le cryptage au repos est requis.

Les droits d'accès suivants sont requis pour File Storage avec Lustre :

allow service lustrefs to use virtual-network-family in tenancy

La règle suivante est requise pour l'entrée de liste de sécurité :

Stateful ingress from source workload subnet CIDR, source port 512-1023 and destination Lustre subnet CIDR, destination TCP port 988

La règle suivante est requise pour la sortie de liste de sécurité :

Egress to 0.0.0.0/0 to all protocols

Reportez-vous à Produits, solutions et services Oracle pour obtenir ce dont vous avez besoin.

A propos d'OCI File Storage avec modèle de responsabilité partagée Lustre

OCI fournit des API, des kits SDK, une interface de ligne de commande, la console OCI et des mesures de système de fichiers pour gérer les systèmes de fichiers Lustre.

OCI File Storage avec Lustre vous permet de créer, de gérer et de surveiller le système de fichiers. Le service automatisera le provisionnement et la gestion des composants Lustre requis, tels que les serveurs de stockage Lustre et les cibles de stockage Lustre. OCI est responsable du provisionnement et de la gestion des composants back-end tels que les serveurs de stockage et les volumes de stockage. Comme illustré dans le diagramme d'architecture, les serveurs de stockage sont interconnectés à l'aide du sous-réseau d'un client pour la communication Lustre. Les listes de sécurité, les tables de routage, les groupes de sécurité et autres configurations liées au VCN sont gérés par vous, le client.

Remarques concernant les listes de sécurité de sous-réseau, les stratégies IAM et les clients Lustre

Lors de l'implémentation de File Storage avec Lustre, prenez en compte les points suivants. Ceux-ci doivent être en place avant de créer des systèmes de fichiers Lustre.
  • Capacité de stockage et limites de service

    Assurez-vous que votre location dispose d'un quota de limite de service pour prendre en charge la création de systèmes de fichiers.

  • Adresses IP suffisantes

    Assurez-vous que le sous-réseau Lustre dispose d'adresses IP suffisantes à affecter aux ressources du système de fichiers. Pour en savoir plus, reportez-vous à la section Configurer la connectivité Lustre.

  • Sécurité de sous-réseau et stratégies IAM

    Si les éléments suivants ne sont pas configurés correctement, la création du système de fichiers échouera après expiration lors de la phase de provisionnement.

    • Les règles de sécurité et/ou les groupes de sécurité doivent être configurés pour permettre la communication du port 988 entre les serveurs Lustre et les clients.
    • Assurez-vous que lustrefs dispose des droits d'accès permettant d'utiliser virtual-network-family dans la location.

    Pour en savoir plus, reportez-vous à la section A propos des services et des stratégies requis.

  • Forfaits client Lustre

    Utilisez le client Lustre version 2.15.5 avec Ubuntu exécutant le noyau 5.14.x et Oracle Linux 8 ou 9 exécutant la version 4.18.x ou 5.15.x d'un noyau compatible Redhat (RHCK). Les modules Lustre DKLM rendent le package client Lustre flexible pour s'exécuter dans différentes versions de noyau. Si vous avez des questions sur le client Lustre, contactez le support technique OCI.

  • Pare-feu sur les clients Lustre

    Par défaut, Oracle Linux et Ubuntu exécutent des pare-feu sur les clients. Assurez-vous que le port 988 est ouvert pour la communication bidirectionnelle. Le client Lustre écoute également sur le port 988 et ce port doit être ouvert avec la capacité du client à parler au port 988 sur le serveur. Lors d'un test, vous pouvez arrêter le pare-feu et vider les règles de pare-feu pour éviter toute interférence des règles de pare-feu sur le client. Suivez toujours vos meilleures pratiques en matière de sécurité. Pour toute question, contactez le support technique OCI.