효율적인 운영 클라우드 배포 모범사례 정보

운영 효율성은 모든 클라우드 서비스의 운영을 자동화 및 최적화하기 위한 적절한 프로세스와 절차를 식별하는 것과 관련이 있습니다. 비즈니스 가치를 극대화하기 위해 애플리케이션과 인프라를 배포, 운영 및 모니터링하는 모범 사례를 고려하는 것이 중요합니다. 일상적인 배포를 통해 클라우드 리소스의 현재 상황을 확인해야 합니다. 환경이 제대로 작동하는지 여부와 조정이 필요한지 여부를 파악하려면 모니터링이 있어야 합니다.

코드로 작업 수행

자동화 및 코드형 인프라 방법론을 사용하여 환경을 프로비저닝, 확장 및 관리합니다.

OCI Landing Zones 프레임워크 사용
대부분의 OCI 배포에 적합한 다양한 아키텍처 및 사용 사례에 적합한 설계 지침 및 사전 구성된 Terraform IaC 템플릿을 통해 Oracle이 선별한 청사진을 활용할 수 있습니다.
코드형 인프라 도입(IaC)
코드형 인프라를 사용하여 워크로드 및 운영 절차의 배포를 자동화하고, 인적 상호 작용을 제한하고, 이벤트에 대한 대응을 개선할 수 있습니다.
작업 로드 기반 구조 정의
인프라를 코드로 정의할 때 일관된 인프라에서 자동으로 반복적으로 워크로드를 프로비저닝할 수 있습니다. 매개변수화를 통해 공통 템플리트를 재사용하고, 환경 간 표준화를 촉진하고, 팀 간 재작업을 최소화할 수 있습니다.
애플리케이션 개발 및 배치
기존 인프라에서 코드 배포를 자동화하면 여러 인프라 배포 시 애플리케이션 일관성을 유지할 수 있습니다.
기반 구조 구성 관리
일관성은 여러 클라우드 리소스에서 인프라 구성을 구성하고 업데이트할 때 중요합니다. 구성 관리를 사용하면 설계, 구현, 테스트, 패치 적용 및 새 릴리스 중 인프라 구성 배치를 관리할 수 있습니다.

자주 반복 배포

코드를 테스트 및 배포할 때 자동화 및 반복 개발 프로세스를 사용하여 위험을 최소화합니다.

애플리케이션 배포 프로세스 자동화
가능한 많은 프로세스를 자동화합니다. 가능하면 운용 환경에서 수동 배치를 제거하십시오. 단, 속도와 유연성을 높이기 위해 낮은 환경에서는 허용될 수 있습니다.
자동화를 활용하여 배포 전에 코드를 테스트합니다.
버그, 보안 취약점, 기능, 성능 및 통합에 대한 테스트는 사용자가 발견하는 문제를 최소화하는 데 중요합니다. 테스트 실패는 코드가 프로덕션으로 릴리스되지 않도록 해야 합니다.
반복 및 증분 배치 구현
배포를 보다 자주 테스트 및 검증하여 위험을 줄입니다. 보다 작고 빈번한 변경으로 인해 장애에 대한 노출이 줄어들고 문제 식별이 지연될 수 있습니다.

운영 프로시저 정의

사용 가능한 도구를 활용하고 절차를 자동화하는 절차를 정의합니다.

패치 작업 및 유지보수 자동화
툴을 활용하여 고객 유지관리 책임의 일부인 컴퓨트 인스턴스, 데이터베이스 인스턴스 및 서버를 자동으로 업데이트하고 패치를 적용합니다.
구성 관리 유틸리티 활용
구성 관리 도구를 사용하여 리소스 구성을 업데이트할 때 위험을 자동화하고 줄일 수 있습니다.
시스템 성능 측정 단위 모니터
Infrastructure 서비스에서 제공하는 metrics를 이해합니다. 모든 워크로드의 상태와 사전 예방적 장애 지표를 파악할 수 있도록 모니터링 및 경고를 설정합니다.
Disaster Recovery 계획 문서화 및 테스트
응용 프로그램 Failure의 업무 영향을 반영하는 Disaster Recovery Plan을 작성합니다. 애플리케이션 종속성 및 애플리케이션에 미치는 영향을 이해합니다. 복구 프로세스를 최대한 자동화하고 수동 단계를 문서화합니다. 재해 복구 프로세스를 정기적으로 테스트하여 계획을 검증하고 개선합니다.
Oracle Cloud Infrastructure 지원 상호 작용 계획
요구 사항이 발생하기 전에 Oracle Cloud Infrastructure 지원에 문의하기 위한 프로세스를 설정하십시오.
FinOps 연습 통합
FinOps 연습을 운영 절차에 통합하여 비용 관리가 일상적인 작업의 필수적인 부분이 되도록 합니다.

실패를 기대하고 배우기

예상치 못한 장애는 애플리케이션의 수명 주기 전반에 걸쳐 발생합니다. 장애로부터 학습하고 응답 및 복구 프로세스를 개선합니다.

Failure에서 학습
근본 원인 분석을 수행하고 운영 프로세스를 조정하여 향후 장애에 대한 보다 빠르고 민첩한 대응을 수행할 수 있습니다.
사고 대응을 지속적으로 개선
Failure 및 과거 문제에 대해 배운 내용을 기존 Incident 응답 프로시저와 통합하여 향후 문제를 방지하고 평균 복구 시간(Mean Time to Repair)을 줄입니다.
실패에 대한 연습
인시던트 관리 및 복구 프로세스를 주기적으로 테스트 및 리허설하여 향후 대응에 맞게 미세 조정합니다.

작업 로드 주요 성과 지표 식별 및 모니터링

워크로드에 대한 기준 성능 및 주요 성과 지표(KPI)를 식별합니다. KPI 및 로그를 사용하여 애플리케이션 작업 로드 건전성 및 성능을 모니터링합니다.

작업 로드 성능을 모니터하려면 다음을 사용하는 것이 좋습니다.

서비스 호출 추적 구현
기준 성능 데이터는 사용자에게 영향을 미치기 전에 성능 문제를 사전에 식별하는 데 사용할 수 있는 추세 데이터를 제공할 수 있습니다.
상태 검사 구현
응용 프로그램 외부에서 건전성 검사 및 프로브를 정기적으로 실행하여 응용 프로그램 건전성 및 성능 저하를 식별합니다. 상태 검사 및 프로브는 정적 페이지 테스트 이상이어야 하며 전체적인 응용 프로그램 상태를 반영해야 합니다.
장기 실행 워크플로우 확인
문제를 조기에 처리하면 전체 워크플로우를 롤백하거나 여러 보정 트랜잭션을 실행할 필요가 최소화됩니다.
시스템, 애플리케이션 및 감사 로그 유지 관리
중앙 집중식 로깅 서비스를 활용하여 로그를 저장하고 분석합니다.
조기 경고 시스템 설정
일시적 예외 및 원격 호출 대기 시간과 같은 응용 프로그램 상태의 KPI(주요 성과 지표)를 식별하고 각 항목에 대해 적절한 임계값을 설정합니다. 임계값에 도달하면 작업에 Alert를 보냅니다.
여러 운영자에게 교육을 실시하여 애플리케이션 모니터링 및 수동 복구 단계 수행
항상 하나 이상의 훈련된 운영자가 활성 상태인지 확인하십시오.
KPI를 기반으로 조치를 취하는 확장 정책 생성
확장 정책은 수요가 많은 기간 동안 최종 사용자에게 일관된 성능을 제공하고 수요가 적은 기간 동안 비용을 절감하는 데 도움이 됩니다.

관리형 서비스 활용

관리형 클라우드 서비스를 사용하여 클라우드 리소스가 효율적이고 비용 효율적인 방식으로 실행되도록 보장합니다. 귀사의 IT 조직은 클라우드 리소스 관리와 관련된 전술적이고 차별화되지 않은 과부하를 없애 핵심 역량에 집중할 수 있습니다.

책임 이해

클라우드 제공업체는 플랫폼에 대한 책임과 고객의 책임이 무엇인지 문서화합니다. 고객의 책임을 식별하고 이러한 각 책임에 대한 운영 절차가 있는지 확인합니다.

자세히 알아보기

코드 서비스형 인프라

공유 보안 모델