19 머신 러닝(미리보기)

Oracle AI Data Platform Workbench는 MLflow 개념 및 API, 특히 실험, 실행, 모델 레지스트리를 사용해 머신러닝(ML) 수명 주기 관리를 제공합니다.

이러한 기능은 작업영역, 실험 및 카탈로그를 비롯한 여러 표면의 AI 데이터 플랫폼 워크벤치에 깊이 통합되어 있으므로 팀에서 발생하는 작업을 추적하고 결과를 통제된 공유 자산으로 촉진할 수 있습니다.

ML 수명 주기

엔드투엔드 ML 수명 주기는 일반적으로 다음 단계를 따릅니다.
  1. 데이터 준비: 원시 입력 정리 및 형식 지정
  2. 탐색 데이터 분석(EDA): 패턴을 찾기 위한 데이터 탐색
  3. 기능 엔지니어링: 모델에 대한 변수 생성
  4. 실험: 여러 접근 방식을 사용하여 반복적으로 학습합니다(각 반복은 a ⁇ run임).
  5. 검증 및 저장: 최적의 실행을 식별하고 재사용할 모델을 등록합니다.
  6. 추론 실행: 노트북에서 뱃치 추론을 위해 등록된 모델 버전을 사용합니다.
  7. 모니터링: 배포된 모델의 기본 생산 성능 및 가용성 추적

핵심 기능

팀 작업영역별 실험 추적

  • 실험은 팀을 분리하고 작업을 조직하기 위해 작업 공간으로 범위가 지정됩니다.
  • MLflow 호환 자동 로깅은 각 실행에 대한 매개변수, 측정지표 및 아티팩트를 캡처하여 제어된 변경으로 재실행을 지원하는 재현 가능한 레코드를 생성합니다.

비교 및 등록 실행

  • 후보자 모델을 식별하기 위해 실행을 필터링하고 비교할 수 있습니다.
  • 마스터 카탈로그 지원 모델 레지스트리에 런을 등록하여 버전 지정, 태그 및 사용자 지정 필드를 전달할 수 있습니다. 버전 관리는 업데이트된 모델이 등록될 때 플랫폼에서 처리됩니다.

레지스트리에서 노트북 추론으로

  • 최신 또는 명시적 버전으로 노트북에 모델을 로드할 수 있으므로 일관된 재사용이 가능합니다.
  • 배치 추론 워크플로우는 레지스트리 버전을 직접 참조하여 실험과 추론 간의 수동 처리를 줄일 수 있습니다.

감사 가능성을 위한 계보

  • 등록된 모델은 하이퍼매개변수, 환경 변수, 측정항목 및 아티팩트와 같은 실행 조건을 포함하여 원래 실험 실행으로 다시 연결됩니다.
  • 이는 각 모델의 출처를 명시적으로 설정하여 검토 및 감사를 지원합니다.

MLflow를 사용하는 이유

AI Data Platform Workbench는 MLflow를 MLOps 프레임워크의 토대로 사용합니다. 엔드투엔드 머신러닝 수명 주기 관리에 개방적이고 확장 가능하며 프레임워크에 구애받지 않는 접근 방식을 제공하기 때문입니다.

MLflow는 실험 추적, 모델 패키징, 아티팩트 관리, 모델 버전 지정, 레지스트리 기반 및 거버넌스를 포함하여 대규모 머신 러닝 운영에 필요한 핵심 기능을 지원합니다. 매개변수, 측정지표, 아티팩트를 캡처하고 메타데이터를 일관된 방식으로 실행할 수 있는 기능을 통해 데이터 과학 및 엔지니어링 팀 전반에서 재현성, 감사 가능성 및 협업을 개선하는 데 적합합니다.

MLflow를 선택하는 주요 이유는 TensorFlow, PyTorch 및 scikit-learn과 같은 인기 있는 머신 러닝 프레임워크와의 광범위한 호환성입니다. 이를 통해 AI 데이터 플랫폼 워크벤치는 팀을 단일 프레임워크 또는 툴체인으로 만들지 않고도 다양한 모델 개발 패턴을 지원할 수 있습니다. MLflow의 플러그인 아키텍처 및 배포 유연성을 통해 플랫폼을 보다 쉽게 확장하고 기존 엔터프라이즈 인프라와 통합할 수 있습니다.

AI Data Platform Workbench는 MLflow에서 표준화함으로써 실험, 모델 등록, 수명 주기 관리 전반에 걸쳐 일관된 MLOps 경험을 제공하는 동시에, 다양한 AI/ML 사용 사례로 진화하는 데 필요한 유연성을 유지할 수 있습니다.