Lustre 파일 시스템 배치 정보

AI/ML 교육, 추론 및 고성능 컴퓨팅 요구 사항이 증가함에 따라 확장 가능한 완전 관리형 파일 시스템 솔루션을 고려해야 합니다. 향후 성장을 지원하는 강력한 클라우드 기반 파일 시스템을 배포하는 방법을 알아봅니다.

Oracle Cloud Infrastructure(OCI) File Storage with Lustre는 배포, 확장 및 유지 관리 작업을 자동화하여 Lustre 인프라 관리가 아닌 애플리케이션에 집중할 수 있도록 합니다. OCI의 서비스는 오픈 소스 Lustre를 서비스로 구현합니다. Lustre 파일 시스템은 빠른 데이터 처리와 높은 처리량을 위해 초당 여러 테라바이트의 속도를 제공하도록 확장할 수 있습니다.

OCI 콘솔, API, SDK, CLI(명령행 인터페이스) 및 측정 단위를 사용하여 Lustre 파일 시스템을 생성, 관리 및 모니터링할 수 있습니다. 시스템에 설치된 Lustre 클라이언트는 Lustre 파일 시스템, 특히 서브넷을 사용하는 Lustre 스토리지 서버와 통신합니다. 보안 목록, 라우팅 테이블, 보안 그룹 및 기타 VCN 관련 구성을 관리해야 합니다.

이 솔루션 플레이북에서는 Lustre 파일 시스템을 생성, 마운트 및 모니터링하는 지침과 함께 OCI File Storage with Lustre의 모범 사례에 대해 자세히 설명합니다. 목표는 Lustre 파일 시스템을 시작하고 Lustre 클라이언트에서 액세스하는 것입니다.

시작하기 전에

시작하기 전에 Lustre 설명서를 검토하여 OCI File Storage with Lustre에 대해 자세히 알아보십시오.

구조

이 아키텍처는 VCN(가상 클라우드 네트워크) 내의 Lustre 통신을 보여줍니다. 모든 Lustre 구성요소는 고가용성을 위해 여러 장애 도메인의 동일한 가용성 도메인에 배포됩니다. Lustre 파일 시스템은 OCI 컴퓨트 인스턴스(가상 머신 및 베어메탈 인스턴스 모두) 및 Oracle Cloud Infrastructure Kubernetes Engine(OKE)과 같은 컨테이너화된 환경에서 마운트할 수 있습니다.

다음 다이어그램은 Oracle Cloud에서 배포 및 관리하는 기본 Lustre 구성요소와 고객 관리 구성요소의 상위 레벨 아키텍처를 보여 줍니다.



lustre-file-system-oci-arch.zip

아키텍처에는 다음과 같은 OCI 구성요소가 있습니다.

  • 지역

    Oracle Cloud Infrastructure 리전은 하나 이상의 데이터 센터, 호스팅 가용성 도메인을 포함하는 지역화된 지리적 영역입니다. 지역은 다른 지역과 독립적이며, 먼 거리가 그들을 분리 할 수 있습니다 (국가 또는 대륙에 걸쳐).

  • 가용성 도메인

    가용성 도메인은 한 지역 내의 독립형 독립 데이터 센터입니다. 각 가용성 도메인의 물리적 리소스는 결함 허용을 제공하는 다른 가용성 도메인의 리소스와 격리됩니다. 가용성 도메인은 전원 또는 냉각과 같은 인프라 또는 내부 가용성 도메인 네트워크를 공유하지 않습니다. 따라서 한 가용성 도메인의 장애가 해당 영역의 다른 가용성 도메인에 영향을 미치지 않아야 합니다.

    OCI File Storage with Lustre는 단일 가용성 도메인에 배포됩니다.

  • 결함 도메인

    장애 도메인은 하나의 가용성 도메인에 있는 하드웨어와 인프라 그룹입니다. 각 가용성 도메인에는 독립적인 전원 및 하드웨어를 갖춘 3개의 장애 도메인이 있습니다. 여러 결함 도메인에 리소스를 분배할 때 응용 프로그램은 결함 도메인 내의 물리적 서버 오류, 시스템 유지 관리 및 전원 오류를 허용할 수 있습니다.

    OCI File Storage with Lustre 구성요소는 리던던시 및 고가용성을 제공하기 위해 여러 장애 도메인에 배포됩니다.

  • VCN(가상 클라우드 네트워크) 및 서브넷

    VCN은 Oracle Cloud Infrastructure 지역에서 설정한 맞춤형 소프트웨어 정의 네트워크입니다. 기존의 데이터 센터 네트워크와 마찬가지로 VCN을 통해 네트워크 환경을 제어할 수 있습니다. VCN에는 VCN 생성 후 변경할 수 있는 겹치지 않는 CIDR 블록이 여러 개 있을 수 있습니다. VCN을 서브넷으로 분할할 수 있습니다. 서브넷은 지역 또는 가용성 도메인으로 범위가 지정될 수 있습니다. 각 서브넷은 VCN의 다른 서브넷과 겹치지 않는 연속적인 주소 범위로 구성됩니다. 생성 후 서브넷의 크기를 변경할 수 있습니다. 서브넷은 공용 또는 전용일 수 있습니다.

    OCI File Storage with Lustre는 VCN을 통해 액세스되며 고객 관리 서브넷에 배포됩니다.

아키텍처에는 다음과 같은 Lustre 구성 요소가 있습니다. MGT를 제외한 모든 구성 요소는 용량이 더 필요하므로 추가됩니다.

  • Lustre 저장 영역 볼륨(객체 저장 영역 대상 또는 OST)

    파일 데이터가 저장되는 볼륨입니다.

  • 메타 데이터 볼륨(메타 데이터 대상 또는 MDT)

    파일 이름 및 속성과 같은 파일 메타 데이터는 이러한 볼륨에 저장됩니다.

  • Lustre 관리 볼륨(관리 대상 또는 MGT)

    파일 시스템에 대해 하나만 존재합니다. Lustre 파일 시스템의 구성 정보를 저장하는 데 사용되는 볼륨입니다.

  • 하나 이상의 저장소 대상(OSS)을 호스트하는 저장소 서버

    가상 또는 베어메탈 컴퓨트 인스턴스입니다.

  • 하나 이상의 메타 데이터 대상(MDS)을 호스트하는 메타 데이터 서버

    가상 또는 베어메탈 컴퓨트 인스턴스입니다.

  • LNet(Lustre 네트워킹)

    LNet는 Lustre 노드(클라이언트 포함)가 서로 통신할 수 있는 가상 네트워킹 계층입니다. LNet는 기본 네트워크 프로토콜의 복잡성을 숨기므로 Lustre가 이더넷 및 InfiniBand와 같은 다양한 네트워크 유형에서 투명하게 작동할 수 있습니다.

  • VCN 및 서브넷

    Lustre 파일 시스템의 핵심 데이터 통신은 VCN 및 서브넷에 의존합니다. 여기에는 클라이언트와 서버 간 통신과 서버 간 통신이 포함됩니다.

필수 서비스 및 정책 정보

이 솔루션에는 다음과 같은 서비스 및 정책이 필요합니다.

  • Oracle Cloud Infrastructure File Storage(Lustre 포함)
  • Oracle Cloud Infrastructure Identity and Access Management
  • Oracle Cloud Infrastructure 가상 클라우드 네트워크

각 서비스에 필요한 정책은 다음과 같습니다. 빠르게 시작하려면 서브넷에서 다음 정책 및 보안 규칙 구현을 고려할 수 있습니다. 최소 권한 원칙을 준수하기 위해 필요한 특정 정책은 조직의 보안 요구 사항에 따라 달라집니다. OCI에서 Lustre 파일 시스템을 관리하는 데 필요한 전체 정책 목록은 Lustre 설명서를 참조하십시오.

서비스 이름: OCI IAM 정책 그룹 필수...
Lustre가 포함된 Oracle Cloud Infrastructure File Storage: lustre-admin-group
  • Lustre 파일 시스템을 만들고 관리합니다.
  • VCN 리소스를 사용하고 액세스합니다.
  • VNIC 및 OCI Vault 같은 구성요소를 관리하고 액세스합니다.
  • 유휴 시 암호화가 필요한 경우 OCI Vault 키에 액세스합니다.

Lustre가 있는 파일 스토리지에 필요한 권한은 다음과 같습니다.

allow service lustrefs to use virtual-network-family in tenancy

보안 목록 수신에는 다음 규칙이 필요합니다.

Stateful ingress from source workload subnet CIDR, source port 512-1023 and destination Lustre subnet CIDR, destination TCP port 988

보안 목록 송신에는 다음 규칙이 필요합니다.

Egress to 0.0.0.0/0 to all protocols

필요한 것을 얻으려면 Oracle 제품, 솔루션 및 서비스를 참조하십시오.

Lustre 공유 책임 모델이 있는 OCI File Storage 정보

OCI는 Lustre 파일 시스템을 관리하기 위한 API, SDK, 명령행 인터페이스, OCI 콘솔 및 파일 시스템 메트릭을 제공합니다.

OCI File Storage with Lustre를 사용하면 파일 시스템을 생성, 관리 및 모니터링할 수 있습니다. 이 서비스는 Lustre 스토리지 서버 및 Lustre 스토리지 대상과 같은 필수 Lustre 구성요소의 프로비저닝 및 관리를 자동화합니다. OCI는 스토리지 서버 및 스토리지 볼륨과 같은 백엔드 구성요소의 프로비저닝 및 관리를 담당합니다. 아키텍처 다이어그램에 나와 있는 것처럼 스토리지 서버는 Lustre 통신을 위해 고객의 서브넷을 사용하여 상호 연결됩니다. 고객사는 보안 목록, 라우팅 테이블, 보안 그룹 및 기타 VCN 관련 구성을 관리합니다.

서브넷 보안 목록, IAM 정책 및 Lustre 클라이언트에 대한 고려 사항

File Storage with Lustre를 구현하는 경우 다음 고려 사항을 검토하십시오. 이들은 Lustre 파일 시스템을 만들기 전에 제자리에 있어야 합니다.
  • 스토리지 용량 및 서비스 제한

    새 파일 시스템 생성을 지원하기 위해 테넌시에 서비스 제한 할당량이 있는지 확인하십시오.

  • 충분한 IP 주소

    Lustre 서브넷에 파일 시스템 리소스에 지정할 IP 주소가 충분한지 확인합니다. 자세한 내용은 Configure Lustre Connectivity 절을 참조하십시오.

  • 서브넷 보안 및 IAM 정책

    다음 항목이 올바르게 구성되지 않은 경우 프로비전 단계 중 시간 초과 후 파일 시스템 생성이 실패합니다.

    • 보안 규칙 및/또는 보안 그룹은 Lustre 서버와 클라이언트 간의 포트 988 통신을 허용하도록 구성해야 합니다.
    • lustrefs에 테넌시에서 virtual-network-family을 사용할 수 있는 권한이 있는지 확인합니다.

    자세한 내용은 필요한 서비스 및 정책 정보 섹션을 참조하십시오.

  • Lustre 클라이언트 패키지

    5.14.x 커널을 실행하는 Ubuntu 및 RHCK(Redhat Compatible Kernel) 버전 4.18.x 또는 5.15.x를 실행하는 Oracle Linux 8 또는 9에서 Lustre 클라이언트 버전 2.15.5를 사용합니다. Lustre DKLM 모듈은 Lustre 클라이언트 패키지를 다른 커널 버전에서 실행할 수 있도록 유연하게 만듭니다. Lustre 클라이언트에 대해 궁금한 점이 있으면 OCI 고객지원센터에 문의하십시오.

  • Lustre 클라이언트의 방화벽

    기본적으로 Oracle Linux와 Ubuntu는 모두 클라이언트에서 방화벽을 실행합니다. 양방향 통신을 위해 포트 988이 열려 있는지 확인합니다. Lustre 클라이언트는 또한 포트 988에서 수신하며 이 포트는 서버의 포트 988과 통신할 수 있는 클라이언트의 기능과 함께 열려 있어야 합니다. 테스트로 방화벽을 중지하고 방화벽 규칙을 플러시하여 클라이언트에서 방화벽 규칙의 간섭을 방지할 수 있습니다. 항상 보안 모범 사례를 따르십시오. 질문이 있으시면, OCI 고객지원센터에 문의하십시오.