OCI Document Understanding 모델에서 문서 분석 준비

OCI Object Storage의 버킷을 사용하여 분석할 문서를 저장한 후 Oracle Analytics에서 해당 문서에 액세스할 데이터 집합을 생성합니다.

일반적으로 입력 문서와 AI 모델을 동일한 Oracle Cloud 계정(테넌시)에 저장하므로 Oracle Analytics에서의 설정이 더 간편합니다.

입력 문서와 AI 모델이 다른 테넌시에 저장된 경우
  • 입력 문서가 포함된 스토리지 버킷의 표시 여부가 퍼블릭인지 확인합니다. 버킷의 표시 여부 변경을(를) 참조하십시오.
  • 문서가 저장되는 OCI 버킷에 대한 단일 URL 대신 개별 문서 URL로 데이터 흐름에 대한 입력 데이터 집합을 채웁니다.
Oracle Analytics의 데이터 흐름은 한 번의 실행으로 최대 10,000개의 문서를 처리할 수 있습니다. 문서가 10,000개를 초과하는 경우 OCI의 [오브젝트 스토리지 및 아카이브 스토리지]에서 각각 10,000개 이하의 문서를 포함하는 버킷을 여러 개 생성합니다. 그런 다음 각 버킷에 대해 별도의 데이터 집합과 데이터 흐름을 생성하고, 시퀀스를 사용하여 데이터 흐름을 순서대로 처리합니다.

OCI 사용자가 액세스할 수 있고 문서에 대한 OCI의 일반 제한을 준수하는 프라이빗 또는 퍼블릭 버킷을 사용할 수 있습니다. OCI 설명서를 참조하십시오.

  1. OCI 콘솔에서 오브젝트 스토리지 및 아카이브 스토리지로 이동하고 문서를 저장할 새 버킷을 생성합니다.

  2. 오브젝트 스토리지 및 아카이브 스토리지 영역에서 버킷 이름을 누른 후 페이지의 객체 영역에서 업로드를 누르고 문서를 업로드합니다.
    버킷에 처리하지 않으려는 관련없는 파일이 포함되어 있지 않은지 확인합니다. Oracle Analytics는 버킷의 모든 파일을 처리합니다.
  3. 각 버킷에 대해 버킷 URL을 CSV(콤마로 구분된 값) 파일에 추가합니다.
    1. 오브젝트 스토리지에서 버킷을 선택하여 [객체] 대화상자에 문서를 표시합니다.
    2. 브라우저의 URL 표시줄에서 URL을 복사합니다.
    3. ID, Bucket NameBucket URL에 대한 필드가 있는 CSV 파일을 생성합니다.
    4. Bucket URL 값으로 버킷 URL을 CSV 파일에 붙여 넣습니다.
      또는 입력 문서와 AI 모델이 다른 테넌시에 저장된 경우 CSV 파일에 개별적으로 추가합니다.
      ID, Document NameDocument URL에 대한 필드가 있는 CSV 파일을 생성합니다. 오브젝트 스토리지의 각 문서에 대해 줄임표 아이콘 줄임표 아이콘을 누르고 객체 세부정보 보기를 선택한 후 이름 값과 URL 경로(URI) 값을 복사합니다.

      이름 값을 문서 이름으로 붙여 넣고 URL 경로(URI) 값을 문서 URL로 붙여 넣습니다.

  4. Oracle Analytics에서 문서 저장에 사용 중인 각 버킷에 대해 생성, 데이터 집합을 차례로 누릅니다.
  5. 단계 3에서 생성한 CSV 파일을 업로드하고 데이터 집합을 저장합니다.
    각 버킷에 대해 단계 4와 5를 반복합니다. 문서가 10,000개를 초과하는 경우 10,000개 이하의 문서로 구성된 버킷을 여러 개 생성하고 각 버킷에 대해 별도의 데이터 집합을 생성하십시오.