운영 클라우드 배포 효율성을 위한 모범사례 정보

운영 효율성은 모든 클라우드 서비스의 작업을 자동화하고 최적화하기 위해 적절한 프로세스 및 절차를 식별하는 것과 관련이 있습니다. 애플리케이션 및 인프라를 배치, 운영 및 모니터링하여 최대 비즈니스 가치를 제공하는 모범 사례를 고려해야 합니다. 일상적인 배포와 함께 클라우드 리소스의 상황을 확인할 필요가 있습니다. 환경이 올바르게 작동하는지 여부 및 조정이 필요한지 여부를 파악하려면 모니터링이 필요합니다.

코드로 공정 수행

자동화와 코드 방법론으로 인프라를 사용하여 환경을 프로비저닝, 확장 및 관리합니다.
  • 코드형 인프라(IaC) 방법론 채택

    코드형 인프라를 사용하여 워크로드 및 운영 절차의 배포를 자동화하고 인적 상호 작용을 제한하며 이벤트에 대한 응답을 개선합니다.

  • 작업 로드 기반 구조 정의

    IaC(Infrastructure as code)를 정의하면 일관된 인프라에서 워크로드를 반복적으로 프로비저닝할 수 있습니다. 매개변수를 사용하면 공통 템플릿을 재사용하여 환경 간 표준화를 촉진하고 팀 간 재작업을 최소화할 수 있습니다.

  • 애플리케이션 개발 및 배치

    기존 인프라에서 코드 배포를 자동화함으로써 여러 인프라 구축 시 애플리케이션 일관성을 유지할 수 있습니다.

  • Infrastructure 구성 관리

    여러 클라우드 리소스에서 인프라 구성을 구성하고 업데이트할 때는 일관성이 중요합니다. 구성 관리를 통해 설계, 구현, 테스트, 패치 적용 및 새 릴리스 중에 인프라 구성 배포를 관리할 수 있습니다.

정기적이고 반복적인 배포

코드를 테스트하고 배포할 때 자동화 및 반복적인 개발 프로세스를 사용하여 위험을 최소화합니다.

  • 애플리케이션 배포 프로세스 자동화

    최대한 많은 프로세스를 자동화합니다. 가능하면 운영 환경에서 수동 배포를 제거합니다. 하지만 이 작업은 더 낮은 환경에서 수용할 수 있어 속도와 유연성을 향상시킬 수 있습니다.

  • 자동화를 활용하여 배포 전에 코드 테스트

    버그, 보안 취약점, 기능, 성능 및 통합 테스트는 사용자가 검색하는 문제를 최소화하는 데 중요합니다. 테스트 실패는 코드가 운용 환경으로 해제되는 것을 방지해야 합니다.

  • 반복 및 증분 배치 구현

    배포를 더 자주 테스트하고 검증하여 위험을 줄입니다. 변경 사항이 작을수록 실패 발생 가능성이 줄어들고 문제 식별이 지연될 수 있습니다.

운영 프로시저 정의

프로시저를 정의하여 사용 가능한 도구를 활용하고 프로시저를 자동화합니다.

  • 패치 작업 및 유지 관리 자동화

    툴을 활용하여 고객 유지 관리 책임의 일부인 컴퓨트 인스턴스, 데이터베이스 인스턴스 및 서버를 자동으로 업데이트하고 패치를 적용할 수 있습니다.

  • 구성 관리 유틸리티 활용

    구성 관리 툴을 사용하여 리소스 구성을 업데이트할 때 위험을 자동화하고 줄일 수 있습니다.

  • 시스템 성능 측정항목 모니터링

    Infrastructure 서비스에서 제공되는 metrics를 이해합니다. 모든 작업 로드의 상태와 사전(Proactive) 장애 표시등을 확인할 수 있도록 모니터링 및 경고 기능을 설정합니다.

  • 재해 복구 계획 문서화 및 테스트

    응용 프로그램 실패의 업무 영향을 반영하는 재해 복구 계획을 작성합니다. 애플리케이션 종속성 및 애플리케이션에 미치는 영향 파악 복구 프로세스를 최대한 자동화하고 모든 수동 단계를 문서화합니다. 정기적으로 재해 복구 프로세스를 테스트하여 계획을 검증하고 개선합니다.

  • Oracle Cloud Infrastructure 지원 상호 작용 계획

    요구사항이 생기기 전에 Oracle Cloud Infrastructure 지원 센터에 문의하는 프로세스를 설정하십시오.

실패 예상 및 학습

예상치 않은 오류는 응용 프로그램의 수명 주기 동안 발생합니다. 장애 요인을 알아보고 대응 및 복구 프로세스를 개선합니다.

  • 장애로부터 학습

    근본 원인 분석을 수행하고 향후 실패에 더욱 민첩하고 대응하기 위해 운영 프로세스를 조정합니다.

  • 사고 대응을 지속적으로 개선

    장애 및 과거 문제로부터 배운 교훈을 배포하여 향후 문제를 방지하고 평균 수리 시간을 단축합니다.

  • 실패에 대한 연습

    정기적으로 사고 관리 및 복구 프로세스를 테스트하고 재계산하여 향후 응답에 맞게 미세 조정합니다.

업무 주요 성능 지표 식별 및 모니터링

워크로드에 대한 기본 성능 및 KPI(주요 성능 표시기)를 식별합니다. KPI 및 로그를 사용하여 애플리케이션 워크로드 상태 및 성능을 모니터링합니다.

작업 로드 성능을 모니터하려면 다음을 사용하십시오.

  • 서비스 요청에 대한 추적 구현

    Baseline 성능 데이터는 사용자에게 영향을 미치기 전에 성능 문제를 사전에 파악하는 데 사용할 수 있는 추세 데이터를 제공하는 데 도움이 됩니다.

  • 상태 검사 구현

    애플리케이션 외부의 상태 확인 및 프로브를 정기적으로 실행하여 애플리케이션 상태 및 성능 저하를 식별합니다. 건전성 검사 및 프로브는 정적 페이지 테스트보다 커야 하며 전체 응용 프로그램 상태의 반사가 되어야 합니다.

  • 장기 실행 워크플로우 확인

    문제를 조기에 포착하면 전체 워크플로우를 롤백하거나 여러 개의 보정 트랜잭션을 실행할 필요성을 최소화할 수 있습니다.

  • 시스템, 애플리케이션 및 감사 로그 유지 관리

    중앙 집중식 로깅 서비스를 활용하여 로그를 저장하고 분석합니다.

  • 조기 경고 시스템 설정

    일시적인 예외 및 원격 호출 대기 시간과 같은 응용 프로그램 상태의 KPI(주요 성능 표시기)를 식별하고 각 항목에 대해 적절한 임계값을 설정합니다. 임계값에 도달하면 작업에 경고를 보냅니다.

  • 여러 작업자가 응용 프로그램을 모니터하고 수동 복구 단계를 수행하도록 교육

    항상 하나 이상의 학습된 연산자가 활성화되어 있는지 확인하십시오.

  • KPI를 기반으로 조치를 수행하는 확장 정책 생성

    정책을 확장하면 최종 사용자가 높은 수요 기간 동안 일관된 성능을 제공할 수 있으며 수요가 적은 기간 동안 비용을 절감할 수 있습니다.

관리형 서비스 활용

관리형 클라우드 서비스를 이용해 클라우드 리소스가 효과적이고 비용 효율적인 방식으로 실행되도록 보장. IT 조직은 클라우드 리소스 관리와 관련한 전술적이고 차별화된 무비를 분산하여 핵심 역량에 집중할 수 있습니다.

책임 파악

클라우드 제공자는 해당 플랫폼의 책임 대상 및 고객이 담당하는 작업을 문서화합니다. 고객의 책임을 이해하고 각 책임에 대한 운영 절차를 확인합니다.