À propos du déploiement des systèmes de fichiers Lustre

Compte tenu des besoins croissants en formation sur l'intelligence artificielle et l'apprentissage automatique, en inférence et en calcul de haute performance, vous devez envisager une solution de système de fichiers entièrement gérée qui s'adapte. Voyez comment déployer un système de fichiers en nuage robuste qui prend en charge la croissance future.

Oracle Cloud Infrastructure (OCI) File Storage avec Lustre automatise les tâches de déploiement, d'évolutivité et de maintenance, vous permettant de vous concentrer sur les applications plutôt que sur la gestion de l'infrastructure Lustre. Le service dans OCI met en oeuvre le service Lustre en tant que service à code source libre. Le système de fichiers Lustre peut s'adapter pour fournir des vitesses de plusieurs téraoctets par seconde pour un traitement rapide des données et un débit élevé.

Vous pouvez utiliser la console OCI, les API, les trousses SDK, l'interface de ligne de commande et les mesures pour créer, gérer et surveiller le système de fichiers Lustre. Le client Lustre installé dans vos systèmes communique avec le système de fichiers Lustre, en particulier les serveurs de stockage Lustre utilisant vos sous-réseaux. Vous êtes responsable de la gestion des listes de sécurité, des tables de routage, des groupes de sécurité et d'autres configurations liées au VCN.

Ce livre de jeu de solution détaille les meilleures pratiques pour le service de stockage de fichiers pour OCI avec Lustre avec des instructions pour créer, monter et surveiller le système de fichiers Lustre. L'objectif est de démarrer avec le système de fichiers Lustre et d'y accéder à partir d'un client Lustre.

Étapes préliminaires

Avant de commencer, consultez la documentation de Lustre pour en savoir plus sur le service de stockage de fichiers OCI avec Lustre.

Architecture

Cette architecture présente les communications Lustre au sein d'un réseau en nuage virtuel (VCN). Tous les composants Lustre sont déployés dans le même domaine de disponibilité dans plusieurs domaines d'erreur pour assurer une haute disponibilité. Les systèmes de fichiers Lustre peuvent être montés à partir d'instances de calcul OCI (machines virtuelles et instances sans système d'exploitation) et d'environnements conteneurisés tels qu'Oracle Cloud Infrastructure Kubernetes Engine (OKE).

Le diagramme suivant illustre l'architecture de haut niveau des composants Lustre sous-jacents déployés et gérés par Oracle Cloud et des composants gérés par le client.



lustre-file-system-oci-arch.zip

L'architecture comporte les composants OCI suivants :

  • Région

    Une région Oracle Cloud Infrastructure est une zone géographique précise qui contient un ou plusieurs centres de données et qui héberge des domaines de disponibilité. Les régions sont indépendantes les unes des autres, et de grandes distances peuvent les séparer (à travers les pays ou même les continents).

  • Domaines de disponibilité

    Les domaines de disponibilité sont des centres de données indépendants et autonomes dans une région. Les ressources physiques de chaque domaine de disponibilité sont isolées des ressources des autres domaines de disponibilité, ce qui garantit la tolérance aux pannes. Les domaines de disponibilité ne partagent pas les éléments d'infrastructure (alimentation ou refroidissement, par exemple) ni le réseau de domaines de disponibilité interne. Ainsi, une défaillance d'un domaine de disponibilité ne doit pas avoir d'incidence sur les autres domaines de disponibilité de la région.

    OCI File Storage avec Lustre est déployé dans un seul domaine de disponibilité.

  • Domaines d'erreur

    Un domaine d'erreur est un regroupement de matériel et d'infrastructure au sein d'un domaine de disponibilité. Chaque domaine de disponibilité comporte trois domaines d'erreur dotés d'une alimentation électrique et d'un matériel indépendants. Lorsque vous répartissez des ressources sur plusieurs domaines d'erreur, vos applications peuvent tolérer la défaillance physique de serveur, la maintenance du système et les pannes de courant dans un domaine d'erreur.

    OCI File Storage avec composants Lustre sont déployés dans plusieurs domaines d'erreur pour fournir la redondance et la haute disponibilité.

  • Réseau en nuage virtuel (VCN) et sous-réseaux

    Un réseau VCN est un réseau défini par logiciel personnalisable que vous configurez dans une région Oracle Cloud Infrastructure. Comme les réseaux de centre de données traditionnels, les réseaux en nuage virtuels vous permettent de contrôler votre environnement de réseau. Un VCN peut disposer de plusieurs blocs CIDR sans chevauchement que vous pouvez modifier après avoir créé le VCN. Vous pouvez segmenter un VCN en sous-réseaux, dont la portée peut concerner une région ou un domaine de disponibilité. Un sous-réseau est constitué d'un intervalle contigu d'adresses qui ne chevauchent pas les autres sous-réseaux dans le réseau en nuage virtuel. Vous pouvez modifier la taille d'un sous-réseau après sa création. Un sous-réseau peut être public ou privé.

    OCI File Storage with Lustre est accessible au moyen du VCN et est déployé dans un sous-réseau géré par le client.

L'architecture comporte les composants Lustre suivants. Tous les composants, à l'exception de MGT, sont ajoutés car une plus grande capacité est nécessaire :

  • Volume de stockage Lustre (cible de stockage d'objets ou OST)

    Il s'agit des volumes où les données de fichier sont stockées.

  • Volume de métadonnées (cible de métadonnées ou MDT)

    Les métadonnées de fichier telles que les noms de fichier et les attributs sont stockées sur ces volumes.

  • Volume de gestion Lustre (cible de gestion ou MGT)

    Un seul système de fichiers existe. Il s'agit d'un volume utilisé pour stocker les informations de configuration du système de fichiers Lustre.

  • Serveur de stockage hébergeant une ou plusieurs cibles de stockage (OSS)

    Il s'agit d'instances de calcul virtuelles ou sans système d'exploitation.

  • Serveur de métadonnées hébergeant une ou plusieurs cibles de métadonnées (MDS)

    Il s'agit d'instances de calcul virtuelles ou sans système d'exploitation.

  • LNet (Réseau Lustre)

    LNet est une couche de réseau virtuel qui permet aux noeuds Lustre (y compris les clients) de communiquer entre eux. LNet masque les complexités des protocoles réseau sous-jacents, permettant à Lustre de fonctionner de manière transparente sur différents types de réseau tels qu'Ethernet et InfiniBand.

  • VCN et sous-réseaux

    La communication de données de base du système de fichiers Lustre repose sur des réseaux en nuage virtuels et des sous-réseaux. Cela inclut la communication entre le client et les serveurs ainsi que le serveur vers le serveur.

À propos des services et politiques requis

Cette solution requiert les services et politiques suivants :

  • Le service de stockage de fichiers d'Oracle Cloud Infrastructure avec Lustre
  • Service de gestion des identités et des accès pour Oracle Cloud Infrastructure
  • Réseau en nuage virtuel Oracle Cloud Infrastructure

Les politiques requises pour chaque service sont répertoriées ci-dessous. Pour démarrer rapidement, vous pouvez envisager de mettre en oeuvre les politiques et règles de sécurité suivantes dans le sous-réseau. Pour respecter le principe du privilège minimal, les politiques spécifiques nécessaires varient en fonction des besoins de sécurité de votre organisation. Consultez la documentation Lustre pour obtenir la liste complète des politiques requises pour gérer les systèmes de fichiers Lustre dans OCI.

Nom du service : Groupe de politiques pour l'OCI IAM Requis pour...
Service de stockage de fichiers d'Oracle Cloud Infrastructure avec Lustre : lustre-admin-group
  • Créer et gérer le système de fichiers Lustre.
  • Utiliser et accéder aux ressources du VCN.
  • Gérer les composants tels que les cartes vNIC et la chambre forte OCI et y accéder.
  • Accédez aux clés du service de chambre forte OCI lorsque le chiffrement au repos est requis.

Les autorisations suivantes sont requises pour le service de stockage de fichiers avec Lustre :

allow service lustrefs to use virtual-network-family in tenancy

La règle suivante est requise pour le trafic entrant de liste de sécurité :

Stateful ingress from source workload subnet CIDR, source port 512-1023 and destination Lustre subnet CIDR, destination TCP port 988

La règle suivante est requise pour le trafic sortant de la liste de sécurité :

Egress to 0.0.0.0/0 to all protocols

Voir Produits, solutions et services Oracle pour obtenir ce dont vous avez besoin.

À propos du stockage de fichiers OCI avec le modèle de responsabilité partagée Lustre

OCI fournit des API, des trousses SDK, une interface de ligne de commande, la console OCI et des mesures de système de fichiers pour gérer les systèmes de fichiers Lustre.

OCI File Storage avec Lustre vous permet de créer, de gérer et de surveiller le système de fichiers. Le service automatisera le provisionnement et la gestion des composants Lustre requis, tels que les serveurs de stockage Lustre et les cibles de stockage Lustre. OCI est responsable de l'approvisionnement et de la gestion des composants dorsaux tels que les serveurs de stockage et les volumes de stockage. Comme illustré dans le diagramme d'architecture, les serveurs de stockage sont interconnectés à l'aide du sous-réseau d'un client pour la communication Lustre. Les listes de sécurité, les tables de routage, les groupes de sécurité et d'autres configurations liées au VCN sont gérés par vous, le client.

Considérations relatives aux listes de sécurité de sous-réseau, aux politiques IAM et aux clients Lustre

Lors de l'implémentation de File Storage avec Lustre, examinez les considérations suivantes. Ceux-ci doivent être en place avant la création des systèmes de fichiers Lustre.
  • Capacité de stockage et limites de service

    Assurez-vous que votre location dispose d'un quota de limite de service pour la prise en charge de la création de nouveaux systèmes de fichiers.

  • Adresses IP suffisantes

    Assurez-vous que le sous-réseau Lustre a suffisamment d'adresses IP à affecter aux ressources du système de fichiers. Pour en savoir plus, consultez la section Configure Lustre Connectivity.

  • Politiques de sécurité de sous-réseau et IAM

    Si les éléments suivants ne sont pas configurés correctement, la création du système de fichiers échouera après la temporisation lors de l'étape de provisionnement.

    • Les règles de sécurité et/ou les groupes de sécurité doivent être configurés pour permettre la communication du port 988 entre les serveurs Lustre et les clients.
    • Assurez-vous que lustrefs est autorisé à utiliser virtual-network-family dans la location.

    Pour en savoir plus, consultez la section À propos des services et des politiques requis.

  • Ensembles clients Lustre

    Utilisez le client Lustre version 2.15.5 avec Ubuntu exécutant le noyau 5.14.x et Oracle Linux 8 ou 9 exécutant un noyau compatible Redhat (RHCK) version 4.18.x ou 5.15.x. Les modules Lustre DKLM rendent le package client Lustre flexible pour s'exécuter dans différentes versions du noyau. Si vous avez des questions sur le client Lustre, communiquez avec le soutien OCI.

  • Pare-feu sur les clients Lustre

    Par défaut, Oracle Linux et Ubuntu exécutent des pare-feu sur les clients. Assurez-vous que le port 988 est ouvert pour la communication bidirectionnelle. Le client Lustre écoute également sur le port 988 et ce port doit être ouvert avec la capacité du client à parler au port 988 sur le serveur. À titre de test, vous pouvez arrêter le pare-feu et vider les règles de pare-feu pour éviter toute interférence des règles de pare-feu sur le client. Respectez toujours vos meilleures pratiques en matière de sécurité. Si vous avez des questions, communiquez avec le soutien OCI.