1 재해 복구 소개

기업 DR(재해 복구)을 위한 모범 사례는 기본적으로 재해 발생 시에도 계속 작동할 수 있고("비즈니스 연속성"), 정상 작업을 재개할 수 있으며("비즈니스 재개"), 작업자의 개입을 최소화하고, 이상적으로는 데이터 손실이 전혀 발생하지 않는 내결함성 하드웨어 및 소프트웨어를 설계하고 구현하는 과정으로 이뤄집니다. 기업 DR 목표와 실제 예산 제약 조건을 충족시키기 위한 내결함성 환경을 구축하려면 비용과 시간이 많이 들며, 경영진의 강력한 지원 약속이 필요합니다.

DR 계획은 일반적으로 다음과 같은 유형의 재해 중 하나 이상을 해결할 수 있어야 합니다.

자연적인 재해(지진, 폭풍, 홍수 등) 또는 기타 원인(화재, 파괴, 절도 등)으로 인한 광범위한 또는 확장된 IT 설비의 손상
정전, 냉각 또는 네트워크 액세스 손실 등과 같은 IT 설비의 핵심 서비스의 확장된 손실
주요 작업자 손실

DR 계획 프로세스는 기업이 반드시 견뎌내야 하고 업무를 재개할 수 있어야 하는 재해 유형을 식별하고 분류하는 것으로부터 시작됩니다. 계획 프로세스에서는 필요한 내결함성 정도를 포함해서 높은 레벨의 BC(비즈니스 연속성)와 BR(비즈니스 재개) 요구사항이 식별됩니다. DR 계획의 결과물은 설정된 제약 조건에 따라 이러한 요구사항이 충족될 수 있도록 지원하는 내결함성 시스템, 응용 프로그램 및 데이터를 위한 복구 및 재개 아키텍처입니다. 일반적인 DR 제약 조건에는 RTO(복구 시간 목표), RPO(복구 지점 목표) 및 사용 가능한 예산이 포함됩니다. 비즈니스 제약 조건과 함께 DR 아키텍처는 전반적인 DR 프로세스에 대해 예측 가능한 결과를 보장할 수 있도록 진정한 "종단간" 방식으로 모든 시스템 요소를 통합하는 DR 절차로 이어집니다.

내결함성 시스템은 일반적으로 중복성을 통해 성능 및 복원성을 얻을 수 있습니다. 종종 상당한 비용을 통해 얻게 되는 완전히 중복된 시스템은 해당 아키텍처 내에서 단일 장애 지점이 존재하지 않으며, 해당 한도 내에서 가장 심각한 재해가 발생하더라도 계속 작동할 수 있으며, 업무를 재개할 수 있습니다. 우주 왕복선과 비행 제어 시스템은 완전히 중복된 시스템의 좋은 예입니다. 중요도가 높지 않은 IT 응용 프로그램의 경우에는 일반적으로 이보다 낮은 중복성을 통해 조금 덜 강력한 시스템을 사용할 수 있습니다. 이러한 시스템은 구축하는 데 비용이 덜 소비되며, 필연적으로 재해 발생 후 서비스 중단이 발생할 수 있으며, 이 기간 동안 기업은 복구 가능한 시스템, 응용 프로그램 및 데이터를 복원해야 합니다.

궁극적으로 DR 요구사항을 정하는 데 있어서 핵심은 비즈니스 특성과 고객 요구사항 및 DR에 사용 가능한 예산이라고 볼 수 있습니다. 비용이 많이 들더라도 반드시 포괄적인 DR 솔루션을 구축할 수 있어야 합니다. 재해가 발생했을 경우 비용과 하드웨어 및 소프트웨어를 모두 잃어버리고 단순히 업무를 재개할 수 있기를 바랄 수만은 없습니다. 하지만 지능적으로 DR을 계획 및 설계할 경우에는 완전히 서비스를 재개할 수 있을 때까지 중단이 길어지고 서비스 레벨이 저하되더라도, 제한적이지만 의존할 수 있는 DR 솔루션을 준비할 수 있습니다.

하지만 발생 가능한 모든 DR 시나리오를 예상하고 대응할 수 있는 계획은 어디에도 존재하지 않는다는 것을 이해해야 합니다. 예를 들어, 특정 시스템에서 사소한 문제로 시작된 것이 시간이 지남에 따라 여러 가지 방식으로 다른 시스템으로 확산되면서 결국에는 복구 시나리오가 준비되지 않은 재해로 발전할 수도 있습니다. 이와 비슷하게, 핵심 부품 또는 서비스를 사용할 수 없게 되거나 DR 공급자의 제공 성능이 광고한 만큼 강력하지 않은 경우와 같이 주요 가정이 실제와 다를 경우 서비스 계약 이행이 어려울 수 있습니다. 하지만 실제로 중요한 핵심은 계획했던 가장 최악의 시나리오를 초월하는 재해가 발생한 경우, 복구가 가능하지 않게 될 수 있다는 것입니다.

RTO(복구 시간 목표) 정의

RTO는 재해가 발생한 후 원하는 작업 성능에 도달하기 위해 걸리는 시간에 대한 서비스 레벨 목표입니다. 예를 들어, DR 기능이 존재하지 않을 경우 1시간 이상 지속될 수 있는 계획되지 않은 작동 중단이 발생할 경우에도 비즈니스 요구사항에 따라 30분 이내에 모든 프로덕션 시스템이 작동되어 재해 이전 성능의 80%로 실행되도록 RTO를 지정할 수 있습니다. RTO 목표를 설정하는 데에는 재해 발생 후에 필요한 RPO 처리 시간, 공인된 IT 직원 가용성 및 수동적인 IT 프로세스의 복잡성 등의 제약 조건이 있을 수 있습니다. 완전한 내결함성 시스템의 경우에는 재해 발생 중 및 재해 발생 후 어떠한 서비스 개입도 없이 절대적으로 시스템이 복구되기 때문에 RTO가 적용되지 않습니다.

DR 계획자는 정의된 BC 요구사항의 일부 또는 전체에 대해 RTO를 서로 다른 방식으로 설정할 수 있습니다. 비즈니스 업무 유형이 다르면 필요한 RTO도 달라질 수 있습니다. 예를 들어, 온라인 시스템과 일괄 처리 작업은 필요한 RTO가 서로 다를 수 있습니다. 또한 각 단계에 정의된 RTO가 포함되는 단계별 DR 계획의 단계에 다른 RTO가 적용될 수 있습니다. 또한 복구 가능한 응용 프로그램은 각각의 여러 서비스 레벨에 대해 RTO가 서로 다를 수 있습니다.

BC 데이터 가용성 요구사항은 RTO를 계획하는 데 있어서 매우 중요합니다. DR 복구 프로세스에 입력으로 사용되어야 하는 데이터가 재해 복구 사이트에 없을 경우, 온사이트로 데이터를 가져오는 데 걸리는 시간으로 인해 RTO가 지연됩니다. 예를 들어, 오프사이트 스토리지 보관소에 있는 데이터를 가져오려면 시간이 소요됩니다. 재해 복구 작업이 시작되기 전에 최신 입력 데이터가 복구 사이트에 복제되어 있는 경우에는 복구를 신속하게 진행할 수 있습니다.

RPO(복구 지점 목표) 정의

RPO는 재해 복구 프로세스로 모든 복구 가능한 시스템이 복원된 다음 도달해야 하는 비즈니스 상태 또는 비즈니스 현재성을 기술하는 비즈니스 연속성 목표입니다. 개념적으로 RPO는 재해 발생 이전의 알려진 상태로의 "롤백" 또는 동기화 목표 상태를 의미합니다. 즉, RPO는 중단된 복구 가능한 응용 프로그램에서 처리를 재개할 수 있는 재해 이후 복구 지점입니다. RPO와 재해 시점 사이의 기간 중에 발생하는 모든 트랜잭션은 복구할 수 없습니다. 완전한 내결함성 시스템의 경우에는 재해가 발생해도 이러한 시스템의 비즈니스 연속성에 영향을 주지 않기 때문에 RPO가 적용되지 않습니다.

그림 1-1에서는 DR 계획자가 고려해야 할 여러 가지 복구 지점 제안을 통해 RPO 개념을 보여줍니다. 계획 시에는 원하는 RPO가 선택한 RTO와 서로 비슷한 수준으로 유지될 수 있도록 해야 합니다. 일반적으로 재해 복구 계획 시 재해 발생 시점과 근접한 RPO를 요구할수록 보다 뛰어난 내결함성이 요구되며, 간격이 큰 RPO에 비해 구현 비용이 높아질 수 밖에 없습니다. RTO에서와 같이 DR 계획자는 여러 가지 BC 요구사항에 따라 서로 다른 RPO, DR 계획 단계 또는 응용 프로그램 서비스 레벨을 설정할 수 있습니다.

그림 1-1 복구 지점 목표

설명 그림 1-1 복구 지점 목표

보다 일반적으로, RPO 계획에는 데이터, 메타데이터, 응용 프로그램, 플랫폼, 설비 및 인력 등을 포함해서 각 복구 가능한 시스템을 복원하기 위해 준비되어야 하는 모든 지원 요소가 식별되어야 합니다. 또한 계획 시에는 이러한 요소들이 복구를 위해 필요한 비즈니스 현재성 레벨에서 제공될 수 있도록 보장해야 합니다. BC 데이터 현재성 요구사항은 RPO를 계획하는 데 있어서 특히 중요합니다. 예를 들어, BC 요구사항에 따라 1시간 RPO가 지정된 경우 복구 프로세스에 공급하는 데이터 또는 메타데이터가 RPO에 대해 최신 상태여야 하며, 그렇지 않으면 RPO를 달성할 수 없습니다. 조직의 DR 프로세스에는 지정된 RTO 내에서 정의된 모든 RPO를 달성하기 위한 절차가 지정되어야 합니다.

RPO 복구를 위해 필요한 시스템 메타데이터에는 OS 카탈로그 구조 및 테이프 관리 시스템 정보가 포함됩니다. 이러한 항목은 선택한 모든 RPO를 사용으로 설정하기 위해 재해 복구 프로세스 중에 업데이트되어야 합니다. 예를 들어, DR 복구 프로세스에 대한 여러 메타데이터 입력 간의 일관성을 보장하기 위해서는 RPO에 다시 생성되는 기존 데이터 세트가 카탈로그화 취소되어야 하며, RPO와 재해 시점 사이에 업데이트된 데이터 세트는 RPO 또는 이전에 존재하던 버전으로 복원되어야 하며, 테이프 관련 카탈로그 변경사항이 있을 경우 테이프 관리 시스템과 동기화되어야 합니다.

일시적인 작동 중단 처리

재해 복구는 프로덕션 사이트를 장기간 사용할 수 없게 만드는 매우 장기적인 작동 중단에 대한 해결책을 제공합니다. 이 소개 섹션의 남은 부분에서는 재해 복구 방식에 대해 설명하지만, 비교적 일시적인 작동 중단이 발생할 경우 이러한 문제가 처리되기 전까지 프로덕션에 부정적 영향을 줄 수 있으므로, 이를 완화하기 위한 절차를 개발하는 것도 마찬가지로 중요한 일이 될 수 있습니다. 예를 들어, 특정 하드웨어 또는 네트워크 설비를 한 두 시간 정도 사용할 수 없지만, 일시적으로 신속한 조정을 통해 "성능 저하 모드"로 프로덕션이 계속 작동할 수 있는 서비스 중단 상태가 발생했다고 가정해보십시오. 일시적인 작동 중단 절차에는 문제를 격리시키는 방법, 변경할 사항, 알림을 제공할 대상 직원 및 서비스 복원 후 정상 작동 환경으로 복원하는 방법이 기술되어야 합니다.

핵심 개념: 동기화 지점 복구

실제 재해 복구 및 DR 테스트 중에 수행되는 핵심 활동은 정의된 RPO로 프로덕션 응용 프로그램을 다시 시작하는 일입니다. 복원력이 가장 뛰어난 DR 환경에서는 아웃소싱 또는 내부 개발에 관계없이 모든 복구 가능한 응용 프로그램이 핵심 DR 요구사항을 강제 적용하도록 보장합니다. 즉, 응용 프로그램이 동기화 지점이라고 부르는 계획된 시점으로부터 다시 시작되어, 응용 프로그램 실행 중 일정이 잡히지 않은 중단으로 인한 영향을 완화할 수 있도록 설계됩니다. 중단된 응용 프로그램이 동기화 지점에서 다시 시작될 경우, 결과는 해당 응용 프로그램이 작동 중지되지 않았을 때와 동일하게 나타납니다.

복구 가능한 응용 프로그램의 다시 시작 절차는 응용 프로그램 및 해당 입력의 특성에 따라 달라집니다. 실제 재해 복구 또는 DR 테스트에 대한 응용 프로그램 다시 시작 절차는 정상적인 프로덕션 실행 중 응용 프로그램이 실패할 경우 응용 프로그램을 다시 시작하기 위해 사용되는 절차와 동일합니다. 가능한 경우에는 실제 재해 복구 또는 DR 테스트를 위한 프로덕션 다시 시작 절차를 재사용함으로써 DR 절차의 생성 및 유지 관리를 간소화하고, 이러한 입증된 절차를 활용할 수 있습니다. 가장 단순하게 봤을 때 복구 가능한 응용 프로그램은 해당 단계에서 호출되는 프로그램의 시작 지점인 동기화 지점이 하나만 포함된 단일 작업 단계입니다. 이 경우, 복구 절차는 중단된 작업을 다시 제출하는 것만큼 간단할 수 있습니다. 이보다 조금 더 복잡한 다시 시작 절차에는 마지막 실행 중에 응용 프로그램에서 생성된 모든 출력 데이터 세트를 카탈로그화 취소한 후 응용 프로그램을 다시 시작하는 과정이 포함될 수 있습니다.

선택 가능한 여러 개의 내부 동기화 지점이 포함된 응용 프로그램의 다시 시작 절차는 그렇게 단순하지 않을 수 있습니다. 이러한 동기화 지점을 구현하기 위해 체크포인트/다시 시작 기법을 사용하는 응용 프로그램은 진행 상태를 주기적으로 기록하고 중단 전에 기록된 마지막 내부 동기화 지점에서 다시 시작할 수 있도록 기록된 체크포인트 정보를 사용합니다. 다시 시작 절차는 각 동기화 지점의 요구사항을 따릅니다. 체크포인트가 사용 중이면, 체크포인트가 응용 프로그램 복구에 대해 유효한 상태로 유지되는 동안 체크포인트와 연관된 데이터 세트가 만료되거나 카탈로그화 취소되거나, 스크래치되지 않은 상태여야 합니다. 기존 입력 데이터 세트를 수정하는 작업 단계에 대해 동기화 지점을 간단하게 설정하기 위해서는 해당 단계를 실행하기 전에 수정 가능한 각 데이터 세트의 백업 복사본을 만들면 됩니다. 이러한 수정 가능한 입력 데이터 세트는 DD 문 또는 동적 할당 요청에서 JCL 속성 DISP=MOD를 검색하여 쉽게 식별할 수 있습니다. 작업 단계가 실패하거나 중단될 경우, 수정된 입력 데이터 세트를 단순히 폐기하고, 백업 복사본에서 입력 데이터 세트를 복원하여, 복원된 복사본으로부터 단계를 다시 시작하면 됩니다. 이러한 백업 복사본은 원본이 만료, 카탈로그화 취소 또는 스크래치된 실패 또는 중단된 작업 단계를 다시 시작하는 데에도 유용합니다.

RPO를 동기화 지점 복구와 연결

RPO가 동기화 지점과 일치할 경우 이 동기화 지점에 대해 개발된 응용 프로그램 다시 시작 절차를 수행하면 중단이 발생하지 않은 것처럼 이 원점에서 응용 프로그램이 재개됩니다(그림 1-2). 이 RPO부터 재해 발생 시점까지 처리된 모든 트랜잭션은 복구할 수 없는 것으로 간주됩니다.

그림 1-2 동기화 지점의 RPO

설명 그림 1-2 동기화 지점의 RPO

다른 시점에서는 BC 요구사항에 따라 동기화 지점 사이에 RPO 배치를 조정할 수 있습니다. 이러한 경우, 동기화 지점 내부의 복구는 가장 최근의 동기화 지점이 설정된 후 발생하는 모든 중요 응용 프로그램 상태 변경 또는 이벤트를 기술하는 보완 데이터에 의존합니다. 예를 들어, RPO가 재해 발생 전 1분이라고 가정해보십시오. 복구 가능한 응용 프로그램이 해당 진행 상태를 기록하기 위해 체크포인트를 사용하도록 설계되었지만, 이러한 체크포인트를 1분 단위로 작성하기 위한 오버헤드가 허용될 수 없는 수준이라고 가정해보십시오. 이 경우 한 가지 해결 방법은 체크포인트 작성 간격을 더 늘리고 체크포인트 간에 커밋되는 모든 트랜잭션을 기록하는 것입니다. 그러면 체크포인트 복구 프로세스가 최근의 동기화 지점을 넘어서 RPO에서 다시 시작하기 위해 트랜잭션 로그를 보완적인 입력 데이터로 사용할 수 있습니다. 이 예제에서 응용 프로그램 다시 시작 절차는 최근의 체크포인트 데이터를 액세스하고 체크포인트 이후 및 RPO 이전에 처리된 모든 커밋된 트랜잭션을 복원하기 위해 보완적인 트랜잭션 로그를 적용합니다(그림 1-3). 이러한 방식으로 동기화 지점 복구는 여러 소스로부터의 입력 데이터를 사용해서 목표 RPO를 달성할 수 있습니다. RPO부터 재해 발생 시점까지 처리된 모든 트랜잭션은 복구할 수 없는 것으로 간주됩니다.

그림 1-3 동기화 지점 사이의 RPO

설명 그림 1-3 동기화 지점 사이의 RPO

데이터 고가용성(D-HA) 계획

데이터는 종종 기업이 갖고 있는 가장 중요한 자산 중 하나입니다. 많은 기업들이 업무에 중요한 데이터가 손실되지 않도록 보호하고 필요한 경우 의도된 목적으로 데이터를 사용할 수 있도록 보장하기 위해 많은 노력과 추가 비용을 투자하고 있습니다. 중요 데이터 손실 문제에 적절하게 대응할 수 없는 회사는 막대한 손실을 입게 될 수도 있습니다. 데이터 손실로부터 기업을 보호하기 위한 가장 일반적인 방법은 중요 데이터의 복사본을 서로 다른 스토리지 매체 또는 부속 시스템에 저장하고 이들 중 일부는 물리적으로 떨어진 위치에 보관하는 방법입니다. 마그네틱 카트리지 테이프, CD-ROM 및 DVD를 비롯한 이동식 스토리지 매체에 저장된 복사본은 일반적으로 멀리 떨어진 오프사이트 스토리지 위치에 원격으로 저장됩니다. 또한 응용 프로그램에서 해당 데이터를 처리할 수 있도록 IT 설비 내에도 추가 복사본이 온사이트로 저장됩니다. 중요 데이터 복사본을 만들고 저장하면 데이터 중복성이 늘어나고 데이터 내결함성이 향상됩니다. 이동식 매체의 경우, 특히 마그네틱 카트리지 테이프와 같은 경우에는 단순히 데이터 중복성만 늘린다고 해서 응용 프로그램에서 데이터를 사용할 수 있도록 보장하는 데이터 가용성을 얻기에 충분하지 않을 수 있습니다. 예를 들어, 메인프레임 가상 테이프를 위한 Oracle VSM 시스템에서는 MVC라고 부르는 물리적 테이프 볼륨에 데이터를 저장합니다. VSM은 MVC 복사본으로 자동으로 작성하여 데이터 중복성을 향상시키고 매체 오류 또는 잘못 배치된 테이프 카트리지로 인한 위험을 줄여줍니다. 프로덕션 VSM 시스템은 여러 개의 특수화된 하드웨어 구성요소를 사용해서 VTSS 버퍼 장치, 자동화된 테이프 라이브러리 및 VTSS 버퍼 장치에도 연결되는 RTD라고 부르는 라이브러리에 연결된 테이프 장치를 포함해서 MVC에 저장된 데이터를 검색합니다. 호스트 응용 프로그램은 MVC에서 데이터를 검색하기 위해 함께 작동하는 이러한 모든 VSM 구성요소에 의존합니다. 단일 구성요소 오류를 지진으로 인해 전체 데이터 센터를 잃는 것과 동일한 재해로 볼 수 있는 사람은 없겠지만, 아무리 많은 중복된 MVC 복사본이 존재하더라도 백업 없이 단일 VSM에서 중요 구성요소 오류가 발생한다면 어떠한 MVC 데이터라도 복원하는 것이 불가능하게 될 수 있습니다. 따라서 MVC 복사본을 만드는 방식이 취약성과 위험을 완화하기 위한 입증된 모범 사례이지만, 결함 발생 시 데이터 고가용성(D-HA)을 항상 충분히 보장하지는 않습니다. D-HA 요구사항은 DR 계획을 위한 핵심적인 비즈니스 연속성 요구사항입니다. D-HA는 일반적으로 스토리지 시스템 결함 중 응용 프로그램이 데이터에 액세스할 수 없도록 방해하는 단일 오류 지점을 제거하기 위해 중복성을 늘림으로써 얻을 수 있습니다. 예를 들어, 중복된 구성요소가 포함된 VSM 시스템은 VSM 시스템 내결함성을 향상시켜 줍니다. 여러 개의 VTSS 장치, 중복된 SL8500 HandBot 및 여러 개의 RTD를 설치하는 목적은 MVC에 저장된 중요 데이터에 대한 응용 프로그램의 데이터 경로와 함께 VSM의 단일 오류 지점을 없애기 위한 것입니다. VSM 아키텍처는 내결함성을 높이고 D-HA를 향상시키기 위해 중복된 구성요소 추가를 지원하도록 설계됩니다.

고가용성 물리적 테이프

Oracle의 메인프레임 테이프 자동화 솔루션은 tapeplex 내에서, 즉 단일 CDS로 매핑되는 테이프 컴플렉스 내에서 여러 ACS에 중복 데이터 복사본을 저장하여 물리적 테이프 응용 프로그램의 D-HA를 지원합니다. 예를 들어, 단일 tapeplex가 있는 IT 설비에서 실행되는 응용 프로그램은 해당 tapeplex 내에 있는 하나 이상의 ACS에 중복된 테이프 데이터 세트 복사본을 쉽게 저장할 수 있습니다. 이러한 기법은 중복 매체, 테이프 전송 및 자동화된 테이프 라이브러리를 추가함으로써 D-HA를 향상시켜 줍니다. 간단한 경우에, 응용 프로그램은 중복된 전자 설비, 각 레일의 이중 HandBot, 각 레일에서 데이터 세트 매체와 호환되는 2개 이상의 라이브러리 연결 테이프 전송 장치를 사용해서 단일 SL8500 라이브러리에 있는 2개의 서로 다른 카트리지 테이프에 중요 데이터 세트의 중복 복사본을 저장합니다. SL8500 라이브러리가 잠재적으로 단일 오류 지점이 되지 않도록 하기 위해서는 중요 데이터 세트의 중복 복사본을 더 많이 저장할 수 있도록 두번째 SL8500이 ACS에 추가됩니다. IT 설비 자체가 단일 오류 지점이 되지 않도록 방지하기 위해서는 중복된 데이터 세트 복사본을 오프사이트에 원격으로 저장하거나, 채널 확장 테이프 전송이 포함된 원격 ACS에 만들 수 있습니다(그림 1-4).

그림 1-4 FD-HA 물리적 테이프 구성

설명 그림 1-4 FD-HA 물리적 테이프 구성

또한 각 위치가 고유한 독립 CDS를 포함하는 경우, 즉 각 위치의 하드웨어가 개별 tapeplex를 제공하는 경우 서로 다른 물리적 위치에 2개 이상의 물리적 테이프 복사본을 만들 수 있습니다. SMC 클라이언트/서버 기능을 사용하고 데이터 세트 복사본을 원격 tapeplex에 연결하는 정책을 정의하면 JCL을 변경하지 않고도 다른 tapeplex에 있는 ACS에 테이프 복사본을 만들 수 있습니다.

고가용성 가상 테이프

VSM은 메인프레임 가상 테이프에 대해 D-HA를 사용으로 설정하기 위해 MVC N-다중화 및 클러스터화 기술을 제공합니다. VSM N-다중화에는 중복성 향상을 위해 하나 이상의 ACS에서 여러 개의 MVC 복사본(예: 이중 또는 사중)을 만드는 과정이 포함됩니다(그림 1-5). N-다중화 복사본을 수신하는 ACS는 로컬 라이브러리이거나 채널 확장 테이프 전송이 포함된 원격 ACS일 수 있습니다. VSM 마이그레이션 정책은 로컬 또는 원격 MVC로 이동되는 VTSS 버퍼 상주 VTV를 제어합니다. 이러한 VTV는 오프사이트 원격 저장소로 순환될 수 있습니다.

그림 1-5 D-HA VSM N-다중화 구성

설명 그림 1-5 D-HA VSM N-다중화 구성

VSM 클러스터는 통신 링크(CLINK)를 통해 데이터 상호 변경을 위해 네트워크로 연결된 2개 이상의 VTSS 장치(노드)로 구성됩니다. CLINK는 단방향 또는 양방향 채널입니다. 가장 단순한 VSM 클러스터 구성은 단방향 CLINK로 연결된 동일 tapeplex에 있는 2개의 VTSS 노드로 구성되지만, 양방향 CLINK가 일반적으로 배치됩니다(그림 1-6). 각 클러스터 노드는 서로 다른 사이트에 배치될 수 있습니다. VSM 단방향 스토리지 정책은 단방향 CLINK를 통해 VTSS A에서 VTSS B로 자동 복제되는 VTV(가상 테이프 볼륨)를 제어합니다. 양방향 스토리지 정책 및 양방향 CLINK는 VTSS A가 VTSS B로 복제하거나 그 반대로 복제할 수 있도록 합니다.

그림 1-6 D-HA VSM 클러스터 구성

설명 그림 1-6 D-HA VSM 클러스터 구성

VSM 확장 클러스터화는 더 높은 데이터 가용성을 얻기 위해 tapeplex에서 3개 이상의 VTSS 장치 간의 다대다 연결을 지원합니다(그림 1-7). 표시된 대로 tapeplex 내에 있는 2개 이상의 사이트에서 VTSS 클러스터 장치를 설치하면 각 사이트의 단일 오류 지점을 없앰으로써 중복성이 향상됩니다.

그림 1-7 D-HA 확장된 클러스터 구성(오프사이트 원격 저장소는 표시되지 않음)

설명 그림 1-7 D-HA 확장된 클러스터 구성(오프사이트 원격 저장소는 표시되지 않음)

Oracle LCM 제품은 원격 저장소와 프로덕션 라이브러리 사이의 재사용 프로세스를 관리해서 MVC 볼륨에 대한 오프사이트 원격 저장 프로세스를 효율적으로 수행합니다. LCM 원격 저장 기능은 만료된 데이터 양이 지정된 임계값을 초과할 때 원격 저장된 MVC 볼륨 반환에 대한 일정을 잡습니다.

VSM CTR 클러스터(Tapeplex 간 복제 클러스터)는 VTSS 클러스터 장치가 서로 다른 tapeplex에 상주하도록 허용하고 하나의 tapeplex에서 하나 이상의 다른 tapeplex로 VTV를 복제하는 기능을 제공함으로써, 단방향 또는 양방향 CLINK에 대해 다대다 클러스터 복제 모델을 사용할 수 있도록 지원합니다(그림 1-8). 송신 및 수신 tapeplex는 서로 다른 사이트에 배치될 수 있습니다. 복제된 VTV는 수신 tapeplex에 대한 CDS에 읽기 전용 볼륨으로 넣습니다. 이를 통해 수신 tapeplex에서 실행되는 응용 프로그램이 수정할 수 없도록 강력한 데이터 보호 기능을 제공합니다. 수신 tapeplex에 대한 CDS는 또한 CTR 복제 VTV 복사본이 송신 tapeplex의 소유임을 나타내며, 추가된 보호에 따라 CTR은 tapeplex가 소유하지 않는 VTV를 수정할 수 없도록 보장합니다.

그림 1-8 D-HA VSM Tapeplex 간 복제 구성

설명 그림 1-8 D-HA VSM Tapeplex 간 복제 구성

D-HA 및 동기화 지점 복구

물리적 볼륨(MVC 또는 비MVC)의 복사본을 여러 개 만들면 데이터 중복성이 향상되지만 이러한 복사본은 동기화 지점 복구에 있어서 특별히 고려해야 할 사항이 있습니다. 동기화 지점 복구에서 가장 중요한 부분은 동기화 지점에서 생성되는 데이터가 재해 복구 용도로 유효한 상태로 남아 있는 동안은 읽기 전용 상태로 유지되도록 보장해야 한다는 것입니다. 즉, 재해 복구에 사용될 수 있는 물리적 테이프 볼륨은 읽기 전용 상태로 유지되어야 합니다. 이를 위한 한 가지 방법은 이러한 복사본을 테이프 처리 기능이 존재하지 않는 오프 사이트 원격 저장소 위치로 보내는 것입니다. 보호되지 않은 상태로 수정된 복사본은 컨텐츠가 업데이트되어 더 이상 연관된 동기화 지점을 반영하지 않으므로 동기화 지점 복구에 사용할 수 없게 됩니다. 가상 테이프 환경은 동기화 지점 복구를 위한 여러 개의 볼륨 복사본을 관리하기 위한 추가적인 차원을 제공합니다. VTV 복사본은 항상 동일한 시간에 여러 개의 VSM 버퍼 및 여러 개의 MVC에 존재할 수 있습니다. 제공된 VTV에 대한 모든 MVC가 오프사이트에 원격으로 저장된 경우라도, VSM 버퍼에서 온사이트로 유지되는 VTV 복사본은 수정될 수 있습니다. 업데이트된 버퍼 상주 VTV 복사본은 이 VTV가 재해 복구 용도로 원격으로 저장된 오프사이트 복사본을 무효화하는 새로운 동기화 지점에 속하지 않는 한 동기화 지점 복구에 사용되지 않아야 합니다.

실질적인 재해 복구 수행

실질적인 재해 복구 작업의 성공 여부는 적절한 DR 사이트, 교육을 받은 직원, 입증된 DR 절차, 정의된 RPO를 충족할 수 있는 동기화 지점이 포함된 복구 가능한 프로덕션 작업 로드, 이러한 RPO를 유지하는 데 필요한 모든 입력 데이터 및 시스템 메타데이터에 의존합니다. 입력 데이터 및 시스템 메타데이터는 필요할 때 DR 사이트에서 액세스할 수 있어야 하며, 필요한 현재성 레벨에서 사용할 수 있어야 합니다. 신중한 계획과, 철저한 준비 및 잘 리허설된 실행 방식을 포함하는 실질적인 재해 복구 작업은 정의된 RPO 및 RTO를 얻기 위한 계획에 따라 효율적으로 진행될 수 있습니다. DR 사이트에서 생성되는 프로덕션 데이터는 DR 사이트가 프로덕션 사이트로 작동하는 동안 적절하게 보호되어야 합니다. 예를 들어, D-HA 아키텍처에 중복 데이터 복사본을 3개의 원격 사이트에 복제해야 하는 프로덕션 작업 로드가 필요하고, DR 사이트는 재해 이전 이러한 원격 복제 사이트 중 하나라고 가정해보십시오. 프로덕션 사이트에 재해가 발생하고 해당 작업 로드가 DR 사이트로 이전되면, DR 사이트는 더 이상 해당 사이트에서 현재 실행되고 있는 프로덕션 작업 로드를 위한 원격 복제 사이트 기능을 수행할 수 없습니다. 3개의 원격 복제 사이트라는 D-HA 요구사항을 충족시키기 위해서는 프로덕션이 해당 DR 사이트에서 유지되는 동안 새로운 세번째 원격 복제 사이트를 온라인으로 전환해야 합니다. 이 예제에서는 D-HA 요구사항에 대한 철저한 분석을 통해 프로덕션이 DR 사이트로 이전될 때 충족되어야 하는 모든 중요한 D-HA 요구사항을 DR 계획자가 해결할 수 있는 방법을 보여줍니다. 포괄적인 DR 계획에는 DR 사이트에서 프로덕션을 복원하기 위한 작업은 물론, DR 사이트가 프로덕션에 대한 유일한 임시 대체 사이트라고 가정할 때 프로덕션 사이트가 복구되는 시점에 해당 DR 사이트를 비우기 위한 프로세스까지 포함됩니다. 예를 들어, 프로덕션 사이트가 작업을 재개할 준비가 되면 해당 사이트에서 프로덕션 데이터를 복원해야 합니다. 이를 위한 방법에는 프로덕션 작업이 DR 사이트에서 실행되는 시간을 충분히 허용해서 데이터 복제를 통해 이전 프로덕션 사이트를 다시 채울 수 있게 해주는 DR 사이트와 프로덕션 사이트 간의 양방향 클러스터링이 포함됩니다. 하지만 단순히 물리적 MVC를 복원된 프로덕션 사이트로 전송하는 방법이 필요하거나, 시간 및 효율상으로 더 뛰어날 수 있습니다. 어떤 방법을 선택할지는 재해 이후 복구 요구사항에 따라 달라질 수 있습니다.

DR 테스트 계획

실제로 재해 복구가 준비되었는지 여부를 평가하기 위해서는 지정된 DR 테스트 사이트에서 프로덕션 작업 로드를 복구하여 DR 시스템 및 절차의 효율성 및 효과를 테스트해야 합니다. DR 테스트 환경은 전용 DR 테스트 플랫폼일 수 있지만 일반적으로 프로덕션 및 DR 테스트 시스템 간의 리소스를 공유하는 것이 보다 경제적입니다. 프로덕션과 병렬로 수행되고 프로덕션과 공유된 리소스를 사용하는 DR 테스트를 동시 DR 테스트라고 부릅니다. 응용 프로그램이 프로덕션 및 DR 테스트 시스템에서 병렬로 실행되어야 할 경우, DR 계획자는 이러한 응용 프로그램의 두 인스턴스가 동시에 실행되는 동안 서로 간섭하지 않도록 보장해야 합니다. 일반적으로 별도의 LPAR에서 프로덕션 및 DR 테스트 시스템을 격리하고, DR 테스트 시스템에서 프로덕션 데이터에 액세스하지 못하도록 제한하기만 해도 충분한 격리 수준을 제공할 수 있습니다. DR 테스트는 전체 프로덕션 환경에 대한 복구를 모두 한 번에 테스트하기 보다는 서로 다른 시간대에 여러 응용 프로그램을 대상별로 테스트하도록 허용하여 점차적으로 수행되는 경우가 많습니다. 대상화된 테스트는 DR 테스트 시스템에 필요한 전용 하드웨어를 줄이기 위한 핵심입니다. 예를 들어, 복구 가능한 응용 프로그램에 대한 DR 테스트에 소량의 VSM 리소스 하위 세트만 필요한 경우, 이러한 리소스는 프로덕션 및 DR 테스트 시스템 간에 공유될 수 있으며, DR 테스트 주기 동안 DR 테스트 시스템에 다시 지정될 수 있습니다. 이러한 접근 방식은 DR 테스트가 실행되는 동안 프로덕션 시스템 성능에 영향을 줄 위험이 있지만 DR 테스트 시스템 하드웨어 비용을 줄여줍니다. 하지만 일반적으로 DR 테스트 주기에는 공유 리소스 중 소량의 비율만 DR 테스트 시스템에 제공되며, 리소스가 줄어든 프로덕션 환경에서 병렬로 처리되는 DR 테스트로 인한 영향이 크지 않습니다. 그렇더라도, 일부 조직에서는 DR 테스트 지원을 위해 프로덕션에 영향을 주거나 환경을 바꾸는 것에 대해 반대되는 정책을 갖고 있을 수 있습니다. 감사자에 따라 DR 복구 프로세스 인증을 위해 DR 테스트 결과와 프로덕션 결과 사이의 정확한 일치가 요구될 수도 있습니다. 이러한 요구사항을 충족시킬 수 있는 한 가지 방법은 일정이 잡힌 프로덕션 실행에 앞서서 동기화 지점을 설정하고, 프로덕션 결과 복사본을 저장하고, DR 테스트 사이트의 이 동기화 지점에서 프로덕션 실행을 복구하고, 저장된 프로덕션 결과에 대해 출력을 비교하는 방법입니다. 결과 사이에 다른 점이 있는 경우, 이러한 격차는 바로 조사되어야 할 사항입니다. 적정 시간 내에 이러한 격차를 해결하지 못하면 조직의 실질적인 재해 복구 성능이 위험에 처하게 될 수 있습니다. DR 테스트가 복잡한 작업 로드 또는 단일 응용 프로그램을 복구하도록 설계되었는지에 관계없이 DR 테스트 프로세스는 실제 재해 복구에 사용되는 것과 동일한 절차를 사용해서 수행되어야 합니다. DR 테스트가 성공적인지를 나타내기 위한 유일한 방법은 이것 뿐입니다.

DR 테스트를 위한 데이터 이동

DR 테스트 사이트에서 DR 테스트를 위해 응용 프로그램 데이터를 준비하기 위한 방법은 물리적 데이터 이동과 전자식 데이터 이동의 두 가지 방법이 있습니다. 물리적 데이터 이동에는 아래의 물리적 내보내기/가져오기 프로세스에 설명된 대로 물리적 테이프 카트리지를 DR 테스트 사이트로 보내는 과정이 포함됩니다. 전자식 데이터 이동 방법에서는 원격 테이프 드라이브, 원격 RTD 또는 VSM 클러스터 기법을 사용해서 DR 테스트 사이트에서 응용 프로그램 데이터의 복사본을 만듭니다. 이러한 두 가지 데이터 이동 방법 모두 DR 테스트에 사용할 수 있지만, 전자식 데이터 이동은 물리적인 데이터 이동을 방지하며, 테이프 분실 등의 잠재적 문제가 발생하지 않습니다. 또한 전자식 이동은 실제 재해 복구에 필요한 위치에 데이터를 배치하고 DR 테스트 주기 전에 VSM 버퍼에 데이터를 준비함으로써 데이터에 액세스하는 데 걸리는 시간을 줄여줍니다. 가상 볼륨에 대한 전자식 데이터 이동은 VSM 확장된 클러스터화를 사용해서 단일 tapeplex 내에서 수행되거나 Tapeplex 간 복제를 사용해서 두 개의 tapeplex 간에 수행될 수 있습니다. 단일 tapeplex 내에 있는 데이터의 경우, Oracle CDRT(Concurrent Disaster Recovery Test) 소프트웨어는 DR 테스트를 효율적으로 진행하는 데 도움이 됩니다.

물리적 내보내기/가져오기를 사용한 DR 테스트

가상 테이프 및 물리적 테이프를 사용하는 프로덕션 응용 프로그램에 대해 DR 테스트를 수행한다고 가정해보십시오. 목표는 최근의 프로덕션 실행을 반복하고 테스트 출력이 최근의 프로덕션 출력과 일치하는지 확인하여 DR 테스트 사이트에서 이 응용 프로그램을 테스트하는 것입니다. 준비 과정에서는 프로덕션 실행에 사용된 입력 데이터 세트의 복사본 및 비교를 위한 프로덕션 출력의 복사본을 저장해야 합니다. DR 테스트 사이트는 격리되어 있고 프로덕션 환경과 어떠한 장비도 공유하지 않는다고 가정합니다. 이러한 DR 테스트는 다음과 같은 물리적 내보내기/가져오기 프로세스를 사용해서 수행할 수 있습니다.

프로덕션 사이트:

필요한 VTV 및 물리적 볼륨의 복사본을 만듭니다.
이러한 VTV 복사본을 내보냅니다.
프로덕션 ACS에서 연관된 MVC 복사본 및 물리적 볼륨 복사본을 꺼냅니다.
꺼낸 MVC 및 물리적 볼륨을 DR 테스트 사이트로 이동합니다.

DR 테스트 사이트:

운반된 볼륨을 DR ACS에 넣습니다.
OS 카탈로그 및 테이프 관리 시스템을 넣은 볼륨과 동기화합니다.
VTV/MVC 데이터를 가져옵니다.
응용 프로그램을 실행합니다.
결과를 비교합니다.
이 테스트를 위해 넣은 모든 볼륨을 꺼냅니다.
꺼낸 볼륨을 다시 프로덕션 사이트로 운반합니다.

프로덕션 사이트:

운반된 볼륨을 다시 프로덕션 ACS에 넣습니다.

이러한 프로세스는 DR 테스트 시스템이 프로덕션 시스템과 격리되어 있기 때문에 DR 테스트를 프로덕션 환경과 병렬로 안전하게 진행할 수 있게 해줍니다. DR 테스트 시스템은 고유 CDS를 갖고 있으며, DR 테스트 프로세스는 위와 같이 볼륨 정보를 DR 테스트를 위해 준비된 DR 테스트 CDS에 넣습니다. 이러한 방식은 복구된 응용 프로그램이 프로덕션에 사용하는 것과 동일한 볼륨 및 데이터 세트 이름을 사용해서 테스트를 수행할 수 있게 해줍니다. 가상 테이프 데이터 세트의 경우, Oracle LCM 소프트웨어 원격 저장 기능은 VTV를 MVC에 배치하는 과정을 간소화하고, 위에서 프로덕션 사이트의 볼륨을 내보내서 꺼내고, 이러한 볼륨을 DR 테스트 사이트로 가져오고, 프로덕션 사이트로 다시 이동하기 위해 볼륨을 꺼내는 일련의 단계들을 효율적으로 진행할 수 있게 해줍니다. 물리적 내보내기/가져오기를 수행하기 위해서는 물리적 테이프 취급을 위한 사이트 비용 및 프로덕션과 DR 테스트 사이트 간의 테이프 카트리지 운반 비용 등이 발생합니다. 민감한 데이터의 경우 암호화된 테이프 카트리지를 통해 운반되어야 합니다. DR 테스트 시간은 운반 시간과 사이트 간 이동되는 테이프 카트리지 취급 시간에 따라 영향을 받습니다.

CDRT를 사용한 DR 테스트

적절한 계획이 있고 프로덕션 및 DR 사이트에 충분한 하드웨어가 있는 경우, 전자식 데이터 이동과 결합된 CDRT 방식은 물리적 테이프 카트리지를 DR 사이트로 이동할 필요가 없으며, 격리된 전용 DR 테스트 사이트를 유지 관리하는 것보다 훨씬 경제적인 방식으로 DR 테스트를 동시에 실행할 수 있게 해줍니다. CDRT 방식에서는 거의 모든 프로덕션 작업 로드, 구성, RPO 또는 RTO에 대해 DR 테스트를 수행할 수 있습니다. DR 테스트 절차에는 CDRT를 시작하고 DR 테스트 후 정리를 위한 몇 가지 추가 단계가 포함됩니다. CDRT를 사용해서 DR 테스트를 실행하기 전에 DR 테스트 사이트에 테스트에 필요한 모든 응용 프로그램 데이터 및 시스템 메타데이터(OS 카탈로그 정보 및 테이프 관리 시스템 정보)를 전자식으로 이동해야 합니다. VSM 클러스터화를 사용하거나 DR 사이트에서 MVC에 VTV 복사본을 마이그레이션하는 방식으로 응용 프로그램 데이터를 전자식으로 이동할 수 있습니다. 그런 다음에는 CDRT를 사용해서 프로덕션 CDS를 미러링하는 DR 테스트 시스템용의 특별 CDS를 만듭니다. 프로덕션 및 DR 테스트 시스템은 별도의 환경이며, DR 테스트 환경에서는 프로덕션 CDS 대신 특별한 DR 테스트 CDS가 사용됩니다. CDRT는 프로덕션 CDS에 있는 정보로부터 DR 테스트 CDS를 만들기 때문에 여기에는 DR 테스트 이전에 DR 테스트 사이트로 전자식으로 이동된 모든 볼륨에 대한 메타데이터가 포함됩니다. 따라서 DR 테스트 응용 프로그램은 프로덕션에 사용되는 것과 동일한 볼륨 일련 번호 및 테이프 데이터 세트 이름을 사용할 수 있습니다. CDRT는 DR 환경이 프로덕션 환경을 간섭하지 않도록 DR 테스트 시스템에서 운영 상의 제한 사항을 강제로 적용합니다. ELS VOLPARM/POOLPARM 기능을 사용해서 MVC에 대해 개별적인 volser 범위를 정의하고 CDRT에서만 사용되도록 VTV를 스크래치하면 이러한 보호 수준을 강화시킬 수 있습니다. CDRT는 DR 테스트 시스템이 프로덕션 MVC에서 읽기를 수행하고 각 DR 테스트 주기 후 논리적으로 지워지는 고유한 전용 MVC 풀에 쓰기를 수행할 수 있게 해줍니다. 가상 테이프 응용 프로그램의 경우, CDRT에는 DR 테스트 주기 중 최소한 하나의 전용 VTSS 장치가 필요합니다. 이러한 전용 VTSS는 DR 테스트 지원을 위해 프로덕션에서 일시적으로 다시 지정할 수 있으며, DR 테스트 VSM 시스템은 프로덕션 작업 로드와 병렬로 프로덕션 ACS에 액세스할 수 있습니다. 그림 1-9 및 그림 1-10에서는 클러스터 장치를 CDRT DR 테스트 시스템으로 빌려오기 위해 프로덕션 VSM 클러스터를 분할하는 방법을 보여줍니다(이 경우는 DR 테스트 사이트의 VTSS2). 이 클러스터를 분할할 때, VTSS1이 ACS01의 DR 사이트에서 중복 VTV 복사본을 만들어 클러스터가 분할된 동안 VTSS1이 용량까지 꽉차지 않도록 프로덕션 정책을 수정하여 복제용 마이그레이션을 대체해야 합니다. VTSS2는 프로덕션에 대해 오프라인으로 전환되고, DR 테스트 LPAR에 대해 온라인으로 전환됩니다. 그림 1-9에서 CDRT는 프로덕션 CDS의 원격 복사본에서 DR 테스트 CDS를 만들었습니다. 프로덕션 시스템만 DR 테스트 주기 전반에 걸쳐 VTSS1 및 ACS00에 있는 볼륨에 액세스할 수 있으며, DR 테스트 시스템만 VTSS2에 액세스할 수 있습니다. 프로덕션 및 DR 테스트 시스템은 ACS01의 볼륨에 대한 동시 액세스를 공유합니다. 그림 1-9 및 그림 1-10에서는 실제 재해 복구 용도로 최신 프로덕션 CDS를 DR 사이트에서 사용할 수 있도록 보장하기 위해 원격 미러링과 같은 방식으로 DR 테스트 사이트에서 프로덕션 CDS의 원격 복사본을 유지 관리합니다. 하지만 원격 CDS 복사본으로부터 CDRT에 의해 생성된 DR 테스트 CDS는 이 CDRT에서만 사용하기 위한 프로덕션 CDS의 특별한 DR 테스트 버전입니다. DR 테스트 주기가 종료된 후 프로덕션 클러스터를 다시 형성하려면 먼저 VTSS2에 VTSS1에도 존재하는 VTV의 새 버전이 포함되었을 경우 발생할 수 있는 프로덕션 데이터 손실을 방지하기 위해 먼저 DR VTSS를 비워야 합니다. 또한 클러스터가 다시 형성되었으면 마이그레이션에서 복제로 되돌리도록 프로덕션 정책을 수정해야 합니다. 여기에 표시된 것처럼 프로덕션 클러스터를 분할할 수 없는 경우에는 대신 DR 테스트 전용으로 DR 사이트에서 별도의 VTSS를 유지 관리할 수 있습니다. 이 경우에는 테스트에 필요한 VTV가 MVC 복사본에서 회수됩니다.

그림 1-9 DR 테스트 사이트에 원격 클러스터 노드 VTSS2가 있는 프로덕션 클러스터

설명 그림 1-9 DR 테스트 사이트에 원격 클러스터 노드 VTSS2가 있는 프로덕션 클러스터

그림 1-10 CDRT DR 테스트를 위해 빌려온 VTSS2가 있는 프로덕션 구성

설명 그림 1-10 CDRT DR 테스트를 위해 빌려온 VTSS2가 있는 프로덕션 구성

VSM 테이프 간 복제를 사용한 DR 테스트

VSM Tapeplex 간 복제는 CDRT를 사용하지 않고, DR 테스트 전용 VTSS 하드웨어가 필요하지 않으며, DR 테스트를 위해 프로덕션 환경을 수정하지 않는 DR 테스트 지원을 위한 대칭적이고, 클러스터화된 프로덕션 tapeplex 디자인을 지원합니다. 예를 들어, CTR은 각 프로덕션 tapeplex가 동일한 CTR 클러스터에 있는 다른 프로덕션 tapeplex에 데이터를 복제할 수 있게 해줍니다. 프로덕션 CTR 피어 투 피어 클러스터는 전용 DR 테스트 사이트에 대한 요구를 없앨 수 있습니다. CTR은 여러 유형의 클러스터화된 tapeplex 설계를 지원하고 적절한 RPO 또는 RTO로 모든 프로덕션 작업 로드 또는 구성에서 DR 테스트를 수행할 수 있게 해줍니다. 간단한 예로, 양방향 CTR 클러스터는 2개의 프로덕션 tapeplex를 대칭적으로 연결하고, 각 tapeplex는 데이터를 다른 TapePlex에 복제합니다(그림 1-11). 수신 tapeplex는 복제된 VTV를 CDS에 읽기 전용 상태로 넣고, VTV가 송신 tapeplex의 소유인 것으로 표시합니다. 이 예제에서 tapeplex A 응용 프로그램에 대한 DR 테스트에는 tapeplex B에서 응용 프로그램 데이터를 복제하고 tapeplex B에서 응용 프로그램을 복구하는 과정이 포함됩니다.

그림 1-11 DR 테스트를 위한 대칭적 프로덕션 CTR 클러스터

설명 그림 1-11 DR 테스트를 위한 대칭적 프로덕션 CTR 클러스터

이 피어형 CTR 클러스터 대칭 디자인은 피어 사이트에서 테스트 중인 복구된 응용 프로그램이 프로덕션 중과 마찬가지로 DR 테스트 중에도 동일하게 실행됨을 의미합니다. 피어 CDS에는 프로덕션과 병렬로 진행되는 DR 테스트에 필요한 모든 복제된 볼륨 정보가 포함되며, 동일한 VTSS 하드웨어에서 프로덕션 및 DR 테스트 작업 로드에서 동시에 사용할 수 있도록 지원됩니다. 프로덕션 VTSS 클러스터는 각 TapePlex 내에 존재할 수 있으며, DR 테스트를 위해 tapeplex 간에 하드웨어를 공유하기 위해 분할할 필요가 없습니다. 응용 프로그램 DR 테스트가 수행되는 프로덕션 tapeplex는 CTR에서 복제된 VTV를 수정할 수 없으므로, DR 테스트 주기 동안 모든 복제된 프로덕션 데이터가 완전하게 보호됩니다. 특히, CTR 기반 DR 테스트는 검증된 DR 테스트 절차가 실제 재해 복구 중에도 동일한 결과를 제공하도록 보장합니다. CTR 복제 VTV를 업데이트하려는 시도가 있으면 SMC 호스트 소프트웨어에서 메시지가 발생하여, 기존 입력 데이터 세트를 수정하는 응용 프로그램을 식별할 수 있습니다. 위와 같이 동기화 지점 관리를 위한 모범 사례를 따르면, 동기화 지점 복구를 위해 백업 복사본이 필요한 경우, 응용 프로그램이 이를 수정하기 전에 프로덕션 환경에서 이 데이터 세트의 복사본을 제공할 수 있도록 보장할 수 있습니다.