OCI용으로 구성된 리소스 커넥터를 사용하여 IBM Spectrum LSF 배치
IBM Spectrum LSF 리소스 커넥터 자동 크기 조정을 통해 실제 수요에 따라 작업 부하에 할당된 리소스 수를 동적으로 조정하여 고정 리소스 할당 문제를 해결합니다. 고성능 컴퓨팅(HPC) 환경에서 리소스 사용을 최적화하고 비용을 절감하며 전반적인 효율성을 향상시킵니다.
IBM Spectrum LSF(Load Sharing Facility)는 분산 컴퓨팅 환경에 사용되는 작업 로드 관리 플랫폼입니다. 이를 통해 사용자는 컴퓨터 또는 컴퓨팅 클러스터 네트워크에서 컴퓨터 작업을 관리하고 일정을 잡을 수 있으므로 작업을 중단 없이 효율적으로 완료할 수 있습니다.
IBM Spectrum LSF 기능(이전의 호스트 팩토리)에 대한 리소스 커넥터를 사용하면 LSF 클러스터가 지원되는 리소스 공급자로부터 리소스를 차용할 수 있습니다. 작업 로드가 적을 때 LSF는 리소스 커넥터를 사용하여 할당된 리소스 수를 줄이고 비용을 절감하며 활용도를 향상시킵니다. 작업 로드가 높으면 클라우드 공급자로부터 더 많은 리소스를 요청합니다.
이 구조를 배치하려면 관리 권한이 필요합니다.
구조
이 참조 아키텍처는 기본 호스트, 클러스터 노드(리소스 커넥터가 OCI API를 호출할 때 요청 시 생성됨) 및 배스천 서비스가 있는 기존 서브넷에 배치된 IBM Spectrum LSF 클러스터를 보여줍니다.
LSF 기본 호스트는 OCI API와 상호 작용하고 기본 구성(VM.Standard.E4)을 가지려면 instance_principal 권한 부여가 필요합니다. 스택 생성 중 조정할 수 있는 가변/OCPU 2개/8GB.
LSF resource_connector는 동적 대기열에 대해 미리 구성되어 있으며 OCI API에서 두 가지 유형의 컴퓨트 리소스(amd2 - VM.Standard.E3)를 요청할 수 있습니다. Flex/OCPU 2개/4GB 및 amd4 - VM.Standard.E4작업 요구사항에 따라 가변/OCPU 2개/8GB) resource_connector에 사용 가능한 템플리트는 LSF 구성 파일(<lsf_top>/conf/resource_connector/oci/conf/oci_config.json
및 <lsf_top>/conf/resource_connector/oci/conf/ociprov_templates.json
)에서 수정하고 클러스터 구성을 다시 로드한 후 다음 명령을 사용하여 클러스터 구성을 다시 로드할 수 있습니다.
$ lsadmin reconfig
$ badmin reconfig
$ badmin mbdrestart
resource_connector가 OCI에서 요청할 수 있는 기본 최대 호스트 수는 사용 가능한 각 템플리트에 대해 8개입니다(노드가 더 필요한 경우 <lsf_top>/conf/resource_connector/oci/conf/ociprov_templates.json
파일에서 maxNumber를 변경할 수 있음).
권장되는 배포 접근 방식은 Oracle Cloud Infrastructure Resource Manager를 통해 원클릭 배포 링크를 사용하는 것입니다.
다음 다이어그램은 이 참조 아키텍처를 보여 줍니다.
구조에는 다음과 같은 구성 요소가 있습니다.
- Tenancy
테넌시는 Oracle Cloud Infrastructure에 등록할 때 Oracle이 Oracle Cloud 내에서 설정하는 격리된 보안 분할영역입니다. 테넌시 내 Oracle Cloud에서 리소스를 생성, 구성 및 관리할 수 있습니다. 테넌시는 회사 또는 조직과 동의어입니다. 일반적으로 회사는 단일 테넌시를 가지며 해당 테넌시 내의 조직 구조를 반영합니다. 단일 테넌시는 대개 단일 구독과 연관되며, 단일 구독에는 일반적으로 하나의 테넌시만 포함됩니다.
- 지역
Oracle Cloud Infrastructure 리전은 가용성 도메인이라고 하는 데이터 센터가 하나 이상 포함된 지역화된 지리적 영역입니다. 지역은 다른 지역과 독립적이며, 먼 거리가 그들을 분리 할 수 있습니다 (국가 또는 대륙에 걸쳐).
- 구획
구획은 Oracle Cloud Infrastructure 테넌시 내의 지역 간 논리적 파티션입니다. 구획을 사용하여 Oracle Cloud 리소스에 대한 사용 할당량을 구성, 제어 및 설정할 수 있습니다. 지정된 구획에서 액세스를 제어하고 리소스에 대한 권한을 설정하는 정책을 정의합니다.
- 가용성 도메인
가용성 도메인은 한 지역 내의 독립형 독립 데이터 센터입니다. 각 가용성 도메인의 물리적 리소스는 결함 허용을 제공하는 다른 가용성 도메인의 리소스와 격리됩니다. 가용성 도메인은 전원, 냉각 또는 내부 가용성 도메인 네트워크와 같은 인프라를 공유하지 않습니다. 따라서 한 가용성 도메인의 장애가 해당 영역의 다른 가용성 도메인에 영향을 미치지 않아야 합니다.
- 결함 도메인
장애 도메인은 가용성 도메인 내의 하드웨어 및 인프라 그룹입니다. 가용성 도메인에는 독립적인 전원 및 하드웨어를 갖춘 3개의 장애 도메인이 있습니다. 여러 결함 도메인에 리소스를 분배할 때 응용 프로그램은 결함 도메인 내의 물리적 서버 오류, 시스템 유지 관리 및 전원 오류를 허용할 수 있습니다.
- VCN(가상 클라우드 네트워크) 및 서브넷
VCN은 Oracle Cloud Infrastructure 지역에서 설정한 맞춤형 소프트웨어 정의 네트워크입니다. 기존의 데이터 센터 네트워크와 마찬가지로 VCN을 통해 네트워크 환경을 제어할 수 있습니다. VCN에는 VCN 생성 후 변경할 수 있는 겹치지 않는 CIDR 블록이 여러 개 있을 수 있습니다. VCN을 서브넷으로 분할할 수 있습니다. 서브넷은 지역 또는 가용성 도메인으로 범위가 지정될 수 있습니다. 각 서브넷은 VCN의 다른 서브넷과 겹치지 않는 연속적인 주소 범위로 구성됩니다. 서브넷 생성 후 크기를 변경할 수 있습니다. 서브넷은 공용 또는 전용일 수 있습니다.
- 보안 목록
각 서브넷에 대해 서브넷에 들어오고 나가도록 허용해야 하는 트래픽의 소스, 대상 및 유형을 지정하는 보안 규칙을 생성할 수 있습니다.
- NAT(Network Address Translation) 게이트웨이
NAT 게이트웨이를 사용하면 VCN의 전용 리소스가 수신 인터넷 연결에 이러한 리소스를 노출시키지 않고 인터넷의 호스트에 액세스할 수 있습니다.
- 서비스 게이트웨이
서비스 게이트웨이는 VCN에서 Oracle Cloud Infrastructure Object Storage와 같은 다른 서비스로의 액세스를 제공합니다. VCN에서 Oracle 서비스로의 트래픽은 Oracle 네트워크 패브릭을 통해 이동하며 인터넷을 순회하지 않습니다.
- 인터넷 게이트웨이
인터넷 게이트웨이는 VCN의 공용 서브넷과 공용 인터넷 간의 트래픽을 허용합니다.
- 배스천 서비스
Oracle Cloud Infrastructure Bastion은 퍼블릭 엔드포인트가 없고 베어메탈 및 가상 머신, Oracle MySQL Database Service, Autonomous Transaction Processing(ATP), Oracle Cloud Infrastructure Kubernetes Engine(OKE) 및 SSH(Secure Shell Protocol) 액세스를 허용하는 기타 리소스와 같은 엄격한 리소스 액세스 제어가 필요한 리소스에 대해 제한적이고 시간 제한적인 보안 액세스를 제공합니다. OCI Bastion 서비스를 사용하면 점프 호스트를 배포 및 유지 관리하지 않고도 개인 호스트에 대한 액세스를 활성화할 수 있습니다. 또한 ID 기반 권한과 중앙 집중식, 감사 및 시간 제한 SSH 세션을 통해 보안 상태를 개선할 수 있습니다. OCI Bastion은 배스천 액세스를 위한 공용 IP가 필요하지 않으므로 원격 액세스를 제공할 때 번거롭고 잠재적인 공격 표면을 제거합니다.
- IAM(ID 및 액세스 관리)
Oracle Cloud Infrastructure Identity and Access Management(IAM)는 Oracle Cloud Infrastructure(OCI) 및 Oracle Cloud Applications의 액세스 제어 플레인입니다. IAM API 및 사용자 인터페이스를 통해 ID 도메인 및 ID 도메인 내의 리소스를 관리할 수 있습니다. 각 OCI IAM ID 도메인은 독립형 ID 및 액세스 관리 솔루션 또는 다른 사용자 모집단을 나타냅니다.
- Oracle Cloud Infrastructure Resource Manager
OCI Resource Manager는 모든 OCI 리소스에 대한 배포 및 운영을 자동화합니다. 이 서비스는 코드형 인프라(IaC) 모델을 사용하여 Terraform을 기반으로 합니다.
권장사항
- VCN 및 서브넷
기존 서브넷을 선택할 경우 LSF 리소스 커넥터가 요청한 모든 컴퓨트 리소스를 수용할 수 있을 만큼 큰 CIDR 블록을 고려해야 합니다.
지역 서브넷(다중 광고 지역의 경우)을 사용합니다.
서브넷 내의 모든 통신을 허용합니다(서브넷 CIDR 블록에서 모든 대상 포트로의 모든 수신 연결을 허용하는 규칙을 서브넷의 보안 목록에 추가).
고려사항
프로비저닝 시 다음 사항을 고려하십시오.
- IBM Spectrum LSF 바이너리
LSF를 설치/실행하는 데 필요한 바이너리 및 라이센스는 포함되지 않습니다. 이 배치는 LSF 버전 10.1 및 패치 버전 601088에서 테스트되었습니다.
배치하기 전에 IBM 지원 포털에서 아래 파일을 다운로드하여 OCI 객체 저장소 버킷으로 로드하고 사전 인증된 요청을 생성할 수 있습니다.
lsf10.1_lsfinstall.tar.Z
lsf10.1_lnx310-lib217-x86_64.tar.Z
lsf10.1_lnx310-lib217-x86_64-601088.tar.Z
lsf_entitlement.dat
- VCN
LSF 마스터 노드에 사용된 VCN 및 서브넷에 대해 DNS 확인을 사용으로 설정해야 합니다.
배치
솔루션 배포를 위한 Terraform 코드는 GitHub에서 확인할 수 있습니다.
- GitHub로 이동합니다.
- 저장소를 복제하거나 로컬 컴퓨터에 다운로드합니다.
README
문서의 지침을 따릅니다.