Sobre a Implantação de Sistemas de Arquivos Lustre

Com as crescentes necessidades de treinamento de IA/ML, inferência e necessidades de computação de alto desempenho, você precisa considerar uma solução de sistema de arquivos totalmente gerenciada que seja dimensionada. Saiba como implementar um sistema de arquivos robusto baseado em nuvem que suporte crescimento futuro.

O Oracle Cloud Infrastructure (OCI) File Storage com Lustre automatiza tarefas de implantação, dimensionamento e manutenção, permitindo que você se concentre em aplicativos em vez do gerenciamento de infraestrutura Lustre. O serviço na OCI implementa o Lustre como serviço de código-fonte aberto. O sistema de arquivos Lustre pode ser dimensionado para fornecer velocidades de vários terabytes por segundo para processamento rápido de dados e alto rendimento.

Você pode usar a Console do OCI, APIs, SDKs, interface de linha de comando (CLI) e métricas para criar, gerenciar e monitorar o sistema de arquivos Lustre. O cliente Lustre instalado em seus sistemas se comunica com o sistema de arquivos Lustre, especificamente os servidores de armazenamento Lustre usando suas sub-redes. Você é responsável por gerenciar listas de segurança, tabelas de roteamento, grupos de segurança e outras configurações relacionadas à VCN.

Este manual de soluções detalha as melhores práticas para o OCI File Storage com o Lustre com instruções para criar, montar e monitorar o sistema de arquivos Lustre. O objetivo é começar a usar o sistema de arquivos Lustre e acessá-lo a partir de um cliente Lustre.

Antes de Começar

Antes de começar, analise a documentação do Lustre para saber mais sobre o OCI File Storage com o Lustre.

Arquitetura

Essa arquitetura mostra comunicações Lustre em uma rede virtual na nuvem (VCN). Todos os componentes Lustre são implantados no mesmo domínio de disponibilidade em vários domínios de falha para alta disponibilidade. Os sistemas de arquivos Lustre podem ser montados a partir de instâncias de computação da OCI (máquinas virtuais e instâncias bare metal) e ambientes em contêineres, como o Oracle Cloud Infrastructure Kubernetes Engine (OKE).

O diagrama a seguir ilustra a arquitetura de alto nível dos componentes Lustre subjacentes implantados e gerenciados pelo Oracle Cloud e os componentes gerenciados pelo cliente.



lustre-arquivo-sistema-oci-arch.zip

A arquitetura tem os seguintes componentes do OCI:

  • Região

    Uma região do Oracle Cloud Infrastructure é uma área geográfica localizada que contém um ou mais data centers, hospedando domínios de disponibilidade. As regiões são independentes de outras regiões, e grandes distâncias podem separá-las (entre países ou até mesmo continentes).

  • Domínios de disponibilidade

    Domínios de disponibilidade são data centers stand-alone e independentes dentro de uma região. Os recursos físicos de cada domínio de disponibilidade são isolados dos recursos de outros domínios de disponibilidade, o que oferece tolerância a falhas. Os domínios de disponibilidade não compartilham infraestrutura como energia ou refrigeração ou a rede interna do domínio de disponibilidade. Portanto, uma falha em um domínio de disponibilidade não deve afetar os outros domínios de disponibilidade na região.

    O OCI File Storage com Lustre é implantado em um único domínio de disponibilidade.

  • Domínios de falha

    Um domínio de falha é um agrupamento de hardware e infraestrutura dentro de um domínio de disponibilidade. Cada domínio de disponibilidade tem três domínios de falha com energia e hardware independentes. Quando você distribui recursos entre vários domínios de falha, seus aplicativos podem tolerar falha no servidor físico, manutenção do sistema e falhas de energia dentro de um domínio de falha.

    O OCI File Storage com componentes Lustre é implantado em vários domínios de falha para fornecer redundância e alta disponibilidade.

  • Rede virtual na nuvem (VCN) e sub-redes

    Uma VCN é uma rede personalizável definida por software que você configura em uma região do Oracle Cloud Infrastructure. Como as redes tradicionais de data center, as VCNs oferecem controle sobre seu ambiente de rede. Uma VCN pode ter vários blocos CIDR não sobrepostos que você pode alterar após a criação da VCN. Você pode segmentar uma VCN em sub-redes, com escopo definido para uma região ou para um domínio de disponibilidade. Cada sub-rede consiste em um intervalo contíguo de endereços que não se sobrepõem a outras sub-redes da VCN. Você pode alterar o tamanho de uma sub-rede após a criação. Uma sub-rede pode ser pública ou privada.

    O OCI File Storage com Lustre é acessado por meio da VCN e implantado em uma sub-rede gerenciada pelo cliente.

A arquitetura tem os seguintes componentes Lustre. Todos os componentes, exceto MGT, são adicionados à medida que mais capacidade é necessária:

  • Volume de armazenamento de brilho (destino de armazenamento de objeto ou OST)

    Estes são os volumes nos quais os dados do arquivo são armazenados.

  • Volume de metadados (meta-alvo de dados ou MDT)

    Metadados de arquivos, como nomes de arquivos e atributos, são armazenados nesses volumes.

  • Volume de gerenciamento Lustre (alvo de gerenciamento ou MGT)

    Existe apenas um para um sistema de arquivos. Este é um volume usado para armazenar informações de configuração do sistema de arquivos Lustre.

  • Servidor de armazenamento que hospeda um ou mais destinos de armazenamento (OSS)

    Essas são instâncias de computação virtuais ou bare metal.

  • Servidor de metadados que hospeda um ou mais alvos de metadados (MDS)

    Essas são instâncias de computação virtuais ou bare metal.

  • LNet (Rede brilhante)

    LNet é uma camada de rede virtual que permite que os nós Lustre (incluindo clientes) se comuniquem entre si. LNet oculta as complexidades dos protocolos de rede subjacentes, permitindo que o Lustre opere de forma transparente em vários tipos de rede, como Ethernet e InfiniBand.

  • VCN e sub-redes

    A comunicação de dados principal do sistema de arquivos Lustre depende de VCNs e sub-redes. Isso inclui a comunicação entre cliente e servidores, bem como servidor para servidor.

Sobre Serviços e Políticas Obrigatórios

Esta solução requer os seguintes serviços e políticas:

  • Oracle Cloud Infrastructure File Storage com Lustre
  • Oracle Cloud Infrastructure Identity and Access Management
  • Rede em Nuvem Virtual do Oracle Cloud Infrastructure

As políticas necessárias para cada serviço estão listadas abaixo. Para começar rapidamente, você pode considerar a implementação das políticas e regras de segurança a seguir na sub-rede. Para aderir ao princípio do privilégio mínimo, as políticas específicas necessárias variarão de acordo com as necessidades de segurança da sua organização. Consulte a documentação da Lustre para obter uma lista completa de políticas necessárias para gerenciar sistemas de arquivos Lustre na OCI.

Nome do Serviço: Grupo de Políticas do OCI IAM Obrigatório para...
Oracle Cloud Infrastructure File Storage com Lustre: lustre-admin-group
  • Crie e gerencie o sistema de arquivos Lustre.
  • Usar e acessar recursos da VCN.
  • Gerencie e acesse componentes como VNICs e OCI Vault.
  • Acesse as chaves do OCI Vault quando a criptografia em repouso for necessária.

As seguintes permissões são necessárias para o File Storage com Lustre:

allow service lustrefs to use virtual-network-family in tenancy

A seguinte regra é necessária para a entrada da lista de segurança:

Stateful ingress from source workload subnet CIDR, source port 512-1023 and destination Lustre subnet CIDR, destination TCP port 988

A seguinte regra é necessária para saída da lista de segurança:

Egress to 0.0.0.0/0 to all protocols

Consulte Produtos, Soluções e Serviços Oracle para obter o que você precisa.

Sobre o OCI File Storage com o Modelo de Responsabilidade Compartilhada Lustre

O OCI fornece APIs, SDKs, uma interface de linha de comando, a Console do OCI e métricas do sistema de arquivos para gerenciar sistemas de arquivos Lustre.

O OCI File Storage com Lustre permite criar, gerenciar e monitorar o sistema de arquivos. O serviço automatizará o provisionamento e o gerenciamento dos componentes necessários do Lustre, como servidores de armazenamento Lustre e destinos de armazenamento Lustre. A OCI é responsável pelo provisionamento e gerenciamento dos componentes de back-end, como servidores de armazenamento e volumes de armazenamento. Como ilustrado no diagrama de arquitetura, os servidores de armazenamento são interconectados usando a sub-rede de um cliente para comunicação Lustre. As listas de segurança, tabelas de roteamento, grupos de segurança e outras configurações relacionadas à VCN são gerenciadas por você, o cliente.

Considerações para Listas de Segurança de Sub-rede, Políticas do Serviço IAM e Clientes Lustre

Ao implementar o File Storage com o Lustre, revise as considerações a seguir. Eles devem estar em vigor antes da criação dos sistemas de arquivos Lustre.
  • Limites de capacidade de armazenamento e serviço

    Certifique-se de que sua tenancy tenha cota de limite de serviço para suportar a criação de novos sistemas de arquivos.

  • Endereços IP suficientes

    Certifique-se de que a sub-rede Lustre tenha endereços IP suficientes para designar aos recursos do sistema de arquivos. Consulte a seção Configurar Conectividade Lustre para saber mais.

  • Segurança de sub-rede e políticas de IAM

    Se as opções a seguir não estiverem configuradas corretamente, a criação do sistema de arquivos falhará após o timeout durante o estágio de provisionamento.

    • As regras de segurança e/ou os grupos de segurança devem ser configurados para permitir a comunicação da porta 988 entre os servidores e os clientes Lustre.
    • Certifique-se de que lustrefs tenha permissões para usar virtual-network-family na tenancy.

    Consulte a seção Sobre Serviços e Políticas Necessários para saber mais.

  • Pacotes de clientes Lustre

    Use o cliente Lustre versão 2.15.5 com o Ubuntu executando o kernel 5.14.x e o Oracle Linux 8 ou 9 executando um RHCK (Redhat Compatible Kernel) versão 4.18.x ou 5.15.x. Os módulos Lustre DKLM tornam o pacote cliente Lustre flexível para ser executado em diferentes versões do kernel. Se você tiver dúvidas sobre o cliente Lustre, entre em contato com o suporte da OCI.

  • Firewalls em clientes Lustre

    Por padrão, o Oracle Linux e o Ubuntu executam firewalls nos clientes. Verifique se a porta 988 está aberta para comunicação bidirecional. O cliente Lustre também escuta na porta 988 e essa porta deve estar aberta junto com a capacidade do cliente de falar com a porta 988 no servidor. Como teste, você pode interromper o firewall e descarregar as regras de firewall para evitar qualquer interferência das regras de firewall no cliente. Sempre siga suas melhores práticas de segurança. Em caso de dúvida, entre em contato com o suporte da OCI.