운영 클라우드 배포 효율성을 위한 모범사례 정보

운영 효율성은 모든 클라우드 서비스의 작업을 자동화하고 최적화하기 위해 적절한 프로세스 및 절차를 식별하는 것과 관련이 있습니다. 애플리케이션 및 인프라를 배치, 운영 및 모니터링하여 최대 비즈니스 가치를 제공하는 모범 사례를 고려해야 합니다. 일상적인 배포와 함께 클라우드 리소스의 상황을 확인할 필요가 있습니다. 환경이 올바르게 작동하는지 여부 및 조정이 필요한지 여부를 파악하려면 모니터링이 필요합니다.

코드로 공정 수행

자동화와 코드 방법론으로 인프라를 사용하여 환경을 프로비저닝, 확장 및 관리합니다.

코드형 인프라(IaC) 방법론 채택
코드형 인프라를 사용하여 워크로드 및 운영 절차의 배포를 자동화하고 인적 상호 작용을 제한하며 이벤트에 대한 응답을 개선합니다.
작업 로드 기반 구조 정의
IaC(Infrastructure as code)를 정의하면 일관된 인프라에서 워크로드를 반복적으로 프로비저닝할 수 있습니다. 매개변수를 사용하면 공통 템플릿을 재사용하여 환경 간 표준화를 촉진하고 팀 간 재작업을 최소화할 수 있습니다.
애플리케이션 개발 및 배치
기존 인프라에서 코드 배포를 자동화함으로써 여러 인프라 구축 시 애플리케이션 일관성을 유지할 수 있습니다.
Infrastructure 구성 관리
여러 클라우드 리소스에서 인프라 구성을 구성하고 업데이트할 때는 일관성이 중요합니다. 구성 관리를 통해 설계, 구현, 테스트, 패치 적용 및 새 릴리스 중에 인프라 구성 배포를 관리할 수 있습니다.

정기적이고 반복적인 배포

코드를 테스트하고 배포할 때 자동화 및 반복적인 개발 프로세스를 사용하여 위험을 최소화합니다.

애플리케이션 배포 프로세스 자동화
최대한 많은 프로세스를 자동화합니다. 가능하면 운영 환경에서 수동 배포를 제거합니다. 하지만 이 작업은 더 낮은 환경에서 수용할 수 있어 속도와 유연성을 향상시킬 수 있습니다.
자동화를 활용하여 배포 전에 코드 테스트
버그, 보안 취약점, 기능, 성능 및 통합 테스트는 사용자가 검색하는 문제를 최소화하는 데 중요합니다. 테스트 실패는 코드가 운용 환경으로 해제되는 것을 방지해야 합니다.
반복 및 증분 배치 구현
배포를 더 자주 테스트하고 검증하여 위험을 줄입니다. 변경 사항이 작을수록 실패 발생 가능성이 줄어들고 문제 식별이 지연될 수 있습니다.

운영 프로시저 정의

프로시저를 정의하여 사용 가능한 도구를 활용하고 프로시저를 자동화합니다.

패치 작업 및 유지 관리 자동화
툴을 활용하여 고객 유지 관리 책임의 일부인 컴퓨트 인스턴스, 데이터베이스 인스턴스 및 서버를 자동으로 업데이트하고 패치를 적용할 수 있습니다.
구성 관리 유틸리티 활용
구성 관리 툴을 사용하여 리소스 구성을 업데이트할 때 위험을 자동화하고 줄일 수 있습니다.
시스템 성능 측정항목 모니터링
Infrastructure 서비스에서 제공되는 metrics를 이해합니다. 모든 작업 로드의 상태와 사전(Proactive) 장애 표시등을 확인할 수 있도록 모니터링 및 경고 기능을 설정합니다.
재해 복구 계획 문서화 및 테스트
응용 프로그램 실패의 업무 영향을 반영하는 재해 복구 계획을 작성합니다. 애플리케이션 종속성 및 애플리케이션에 미치는 영향 파악 복구 프로세스를 최대한 자동화하고 모든 수동 단계를 문서화합니다. 정기적으로 재해 복구 프로세스를 테스트하여 계획을 검증하고 개선합니다.
Oracle Cloud Infrastructure 지원 상호 작용 계획
요구사항이 생기기 전에 Oracle Cloud Infrastructure 지원 센터에 문의하는 프로세스를 설정하십시오.

실패 예상 및 학습

예상치 않은 오류는 응용 프로그램의 수명 주기 동안 발생합니다. 장애 요인을 알아보고 대응 및 복구 프로세스를 개선합니다.

장애로부터 학습
근본 원인 분석을 수행하고 향후 실패에 더욱 민첩하고 대응하기 위해 운영 프로세스를 조정합니다.
사고 대응을 지속적으로 개선
장애 및 과거 문제로부터 배운 교훈을 배포하여 향후 문제를 방지하고 평균 수리 시간을 단축합니다.
실패에 대한 연습
정기적으로 사고 관리 및 복구 프로세스를 테스트하고 재계산하여 향후 응답에 맞게 미세 조정합니다.

업무 주요 성능 지표 식별 및 모니터링

워크로드에 대한 기본 성능 및 KPI(주요 성능 표시기)를 식별합니다. KPI 및 로그를 사용하여 애플리케이션 워크로드 상태 및 성능을 모니터링합니다.

작업 로드 성능을 모니터하려면 다음을 사용하십시오.

서비스 요청에 대한 추적 구현
Baseline 성능 데이터는 사용자에게 영향을 미치기 전에 성능 문제를 사전에 파악하는 데 사용할 수 있는 추세 데이터를 제공하는 데 도움이 됩니다.
상태 검사 구현
애플리케이션 외부의 상태 확인 및 프로브를 정기적으로 실행하여 애플리케이션 상태 및 성능 저하를 식별합니다. 건전성 검사 및 프로브는 정적 페이지 테스트보다 커야 하며 전체 응용 프로그램 상태의 반사가 되어야 합니다.
장기 실행 워크플로우 확인
문제를 조기에 포착하면 전체 워크플로우를 롤백하거나 여러 개의 보정 트랜잭션을 실행할 필요성을 최소화할 수 있습니다.
시스템, 애플리케이션 및 감사 로그 유지 관리
중앙 집중식 로깅 서비스를 활용하여 로그를 저장하고 분석합니다.
조기 경고 시스템 설정
일시적인 예외 및 원격 호출 대기 시간과 같은 응용 프로그램 상태의 KPI(주요 성능 표시기)를 식별하고 각 항목에 대해 적절한 임계값을 설정합니다. 임계값에 도달하면 작업에 경고를 보냅니다.
여러 작업자가 응용 프로그램을 모니터하고 수동 복구 단계를 수행하도록 교육
항상 하나 이상의 학습된 연산자가 활성화되어 있는지 확인하십시오.
KPI를 기반으로 조치를 수행하는 확장 정책 생성
정책을 확장하면 최종 사용자가 높은 수요 기간 동안 일관된 성능을 제공할 수 있으며 수요가 적은 기간 동안 비용을 절감할 수 있습니다.

관리형 서비스 활용

관리형 클라우드 서비스를 이용해 클라우드 리소스가 효과적이고 비용 효율적인 방식으로 실행되도록 보장. IT 조직은 클라우드 리소스 관리와 관련한 전술적이고 차별화된 무비를 분산하여 핵심 역량에 집중할 수 있습니다.

책임 파악

클라우드 제공자는 해당 플랫폼의 책임 대상 및 고객이 담당하는 작업을 문서화합니다. 고객의 책임을 이해하고 각 책임에 대한 운영 절차를 확인합니다.

추가 정보

Infrastructure-as-Code

공유 보안 모델