참고:

이 사용지침서에서는 Oracle Cloud에 접근해야 합니다. 무료 계정에 등록하려면 Oracle Cloud Infrastructure Free Tier 시작하기를 참조하십시오.
Oracle Cloud Infrastructure 자격 증명, 테넌시 및 구획에 대한 예제 값을 사용합니다. 실습을 마치면 해당 값을 클라우드 환경과 관련된 값으로 대체합니다.

Oracle Cloud Infrastructure Data Flow를 통해 Autonomous Database 및 Kafka에서 큰 파일 처리

소개

OCI(Oracle Cloud Infrastructure) 데이터 플로우는 Apache Spark TM 애플리케이션을 실행하기 위한 전담 관리 서비스입니다. 데이터 플로우는 대용량 파일, 스트리밍, 데이터베이스 작업 처리에 사용되며, 매우 확장 가능한 처리로 많은 애플리케이션을 구축할 수 있습니다. Apache Spark는 클러스터화된 머신을 확장 및 사용하여 최소 구성으로 작업을 병렬화할 수 있습니다.

Apache Spark를 관리 서비스(데이터 플로우)로 사용하면 확장 가능한 여러 서비스를 추가하여 클라우드 처리의 이점을 곱할 수 있으며 이 자습서에서는 다음 사용 방법을 보여줍니다.

오브젝트 스토리지: 경제적이고 확장 가능한 파일 저장소입니다.
Autonomous Database: 클라우드에서 확장 가능한 데이터베이스
스트리밍: 확장성이 뛰어난 Kafka 관리 서비스입니다.

데이터 플로우 사용-case.png

이 자습서에서는 대용량 파일 처리, 데이터베이스 쿼리 및 데이터 병합/결합에 사용되는 가장 일반적인 작업을 확인하여 메모리에 다른 테이블을 구성할 수 있습니다. 이 방대한 데이터를 매우 저렴한 비용과 고성능의 Kafka 큐에 기록할 수 있습니다.

목표

데이터 플로우를 사용하여 다량의 데이터를 처리하는 방법 학습
확장 가능한 서비스 통합 방법 알아보기: File Repository, Database 및 Queue

필요 조건

운영 Oracle Cloud 테넌트: 한 달 동안 미화 300.00달러의 무료 Oracle Cloud 계정을 만들어 이 사용지침서를 사용해 볼 수 있습니다. 무료 Oracle Cloud 계정 생성을 참조하십시오.
로컬 시스템에 설치된 OCI CLI(Oracle Cloud 명령줄 인터페이스): OCI CLI를 설치하는 링크입니다.
로컬 시스템에 설치된 Apache Spark 애플리케이션입니다. 로컬 및 데이터 플로우에서 개발하는 방법을 이해하려면 로컬에서 Oracle Cloud Infrastructure Data Flow 애플리케이션을 개발하고 클라우드에 배포를 검토하십시오.

참고: 이 페이지는 Apache Spark를 설치하는 공식 페이지입니다. 각 운영 시스템 유형(Linux/Mac OS/Windows)에 대해 Apache Spark를 설치하는 다른 절차가 있습니다.
Spark Submit CLI가 설치되었습니다. Spark Submit CLI 설치 링크입니다.
로컬 시스템에 설치된 Maven입니다.
OCI 개념에 대한 지식:
- 구획
- IAM 정책
- 테넌트
- 리소스의 OCID

작업 1: 오브젝트 스토리지 구조 생성

오브젝트 스토리지가 기본 파일 저장소로 사용됩니다. 다른 유형의 파일 저장소를 사용할 수 있지만 Object Storage는 간단하고 저렴한 방법으로 성능을 가진 파일을 조작할 수 있습니다. 이 사용지침서에서는 두 애플리케이션이 오브젝트 스토리지에서 대규모 CSV 파일을 로드하여 Apache Spark가 빠르고 스마트하게 대용량 데이터를 처리하는 방법을 보여줍니다.

구획 생성: 구획은 클라우드 리소스를 구성하고 격리하는 데 중요합니다. IAM 정책별로 리소스를 분리할 수 있습니다.
- 이 링크를 사용하여 구획 관리의 구획 정책을 이해하고 설정할 수 있습니다.
- 이 자습서에서는 하나의 구획을 생성하여 2개의 애플리케이션의 모든 리소스를 호스트합니다. analytics라는 구획을 생성합니다.
- Oracle Cloud 기본 메뉴로 이동하여 ID 및 보안, 구획을 검색합니다. [구획] 섹션에서 구획 생성을 누르고 이름을 입력합니다.
  
  참고: 사용자 그룹에 접근 권한을 부여하고 사용자를 포함시켜야 합니다.
- 구획 생성을 눌러 구획을 포함합니다.
오브젝트 스토리지에 버킷 생성: 버킷은 오브젝트를 저장하기 위한 논리적 컨테이너이므로 이 데모에 사용된 모든 파일은 이 버킷에 저장됩니다.
- Oracle Cloud 기본 메뉴로 이동하여 스토리지 및 버킷을 검색합니다. Buckets 섹션에서 이전에 생성한 구획(analytics)을 선택합니다.
- 버킷 생성을 누릅니다. 4개의 버킷 생성: 앱, 데이터, 데이터 플로우 로그, 전자 지갑
- 이러한 4개의 버킷과 함께 버킷 이름 정보를 입력하고 기본 선택으로 다른 매개변수를 유지 관리합니다.
- 각 버킷에 대해 생성을 누릅니다. 생성된 버킷을 확인할 수 있습니다.

참고: 버킷에 대한 IAM 정책을 검토하십시오. 데모 애플리케이션에서 해당 버킷을 사용하려면 정책을 설정해야 합니다. 개념을 검토하고 여기서 오브젝트 스토리지 개요 및 IAM 정책을 설정할 수 있습니다.

작업 2: Autonomous Database 생성

Oracle Cloud Autonomous Database는 Oracle Database를 위한 관리형 서비스입니다. 이 자습서에서는 보안상의 이유로 애플리케이션이 전자 지갑을 통해 데이터베이스에 접속합니다.

Autonomous Database 프로비전에 설명된 대로 Autonomous Database를 인스턴스화합니다.
Oracle Cloud 주 메뉴에서 데이터 웨어하우스 옵션을 선택하고 Oracle Database 및 Autonomous Data Warehouse를 선택한 다음 분석 구획을 선택하고 자습서에 따라 데이터베이스 인스턴스를 생성합니다.
인스턴스 이름을 처리된 로그로 지정하고 데이터베이스 이름으로 로그를 선택하면 애플리케이션에서 코드를 변경할 필요가 없습니다.
ADMIN 비밀번호를 입력하고 Wallet zip 파일을 다운로드합니다.
데이터베이스를 생성한 후 ADMIN 사용자 비밀번호를 설정하고 Wallet zip 파일을 다운로드할 수 있습니다.
전자 지갑 zip 파일(Wallet_logs.zip)을 저장하고 ADMIN 비밀번호에 주석을 달 수 있습니다. 애플리케이션 코드를 설정해야 합니다.
Storage, Buckets로 이동합니다. analytics 구획으로 변경하면 전자 지갑 버킷이 표시됩니다. 클릭하세요.
전자 지갑 zip 파일을 업로드하려면 업로드를 누르고 Wallet_logs.zip 파일을 첨부하면 됩니다.

참고: IAM 정책을 검토하여 Autonomous Database 액세스: IAM Policy for Autonomous Database

작업 3: CSV 샘플 파일 업로드

Apache Spark의 성능을 입증하기 위해 애플리케이션은 1,000,000개의 라인이 있는 CSV 파일을 읽습니다. 이 데이터는 하나의 명령행만으로 Autonomous Data Warehouse 데이터베이스에 삽입되어 Kafka 스트리밍(Oracle Cloud Streaming)에 게시됩니다. 이러한 모든 리소스는 확장 가능하며 대용량 데이터에 적합합니다.

다음 두 개의 링크를 다운로드하고 데이터 버킷에 업로드합니다.
- organizations.csv
- organizations1M.csv
  주:
  - organizations.csv에는 로컬 시스템에서 응용 프로그램을 테스트하기 위한 100개 행만 있습니다.
  - organizations1M.csv에는 1,000,000개의 라인이 포함되어 있으며 데이터 플로우 인스턴스에서 실행되는 데 사용됩니다.
Oracle Cloud 기본 메뉴에서 스토리지 및 버킷으로 이동합니다. data 버킷을 누르고 이전 단계에서 2개의 파일을 업로드합니다.
보조 테이블을 ADW 데이터베이스로 업로드
- ADW 데이터베이스에 업로드하려면 이 파일을 다운로드합니다. GDP PER CAPTA COUNTRY.csv
- Oracle Cloud 기본 메뉴에서 Oracle Database 및 Autonomous Data Warehouse를 선택합니다.
- 처리된 로그 인스턴스를 눌러 세부정보를 봅니다.
- 데이터베이스 작업을 눌러 데이터베이스 유틸리티로 이동합니다.
- ADMIN 사용자에 대한 인증서를 입력합니다.
- SQL 옵션을 눌러 질의 유틸리티로 이동합니다.
- 데이터 로드를 누릅니다.
- 콘솔 패널에 GDP PER CAPTA COUNTRY.csv 파일을 놓고 계속해서 데이터를 테이블로 가져옵니다.

GDPPERCAPTA라는 새 테이블이 성공적으로 임포트된 것을 확인할 수 있습니다.

광고 테이블-imported.png

작업 4: ADW ADMIN 비밀번호에 대한 Secret Vault 생성

보안상의 이유로 ADW ADMIN 비밀번호가 Vault에 저장됩니다. Oracle Cloud Vault는 보안을 통해 이 비밀번호를 호스트할 수 있으며 OCI 인증으로 애플리케이션에서 액세스할 수 있습니다.

다음 설명서에 설명된 대로 저장소에 암호를 생성합니다. 저장소에 데이터베이스 관리자 비밀번호 추가
응용 프로그램에 PASSWORD_SECRET_OCID라는 변수를 생성하고 OCID를 입력합니다.

주: OCI Vault IAM 정책에서 OCI 저장소에 대한 IAM 정책을 검토하십시오.

작업 5: Oracle Cloud Streaming 서비스를 사용하여 Kafka Streaming 생성

Oracle Cloud Streaming은 Kafka와 같은 관리 스트리밍 서비스입니다. Kafka API와 공통 SDK를 사용하여 애플리케이션을 개발할 수 있습니다. 이 사용지침서에서는 스트리밍 인스턴스를 생성하고 두 애플리케이션에서 실행되도록 구성하여 대량의 데이터를 게시하고 소비합니다.

Oracle Cloud 기본 메뉴에서 Analytics & AI, Streams로 이동합니다.
구획을 analytics로 변경합니다. 이 데모의 모든 리소스는 이 구획에 생성됩니다. 이 기능은 IAM을 더욱 안전하고 제어하기 쉽습니다.
스트림 생성을 누릅니다.
이름을 kafka_like(예)로 입력하고 다른 모든 매개변수를 기본값으로 유지 관리할 수 있습니다.
생성을 눌러 인스턴스를 초기화합니다.
Active 상태가 될 때까지 기다립니다. 이제 인스턴스를 사용할 수 있습니다.

주: 스트리밍 생성 프로세스에서 기본 스트림 풀 자동 생성 옵션을 선택하여 기본 풀을 자동으로 생성할 수 있습니다.
DefaultPool 링크를 누릅니다.
연결 설정을 확인합니다.
다음 단계에서 필요할 때 이 정보에 주석을 답니다.

참고: OCI 스트리밍에 대한 IAM 정책(OCI 스트리밍에 대한 IAM 정책)을 검토하십시오.

작업 6: Kafka에 액세스하기 위한 AUTH TOKEN 생성

OCI Streaming(Kafka API) 및 OCI IAM의 사용자와 연관된 인증 토큰을 사용하여 Oracle Cloud의 기타 리소스에 액세스할 수 있습니다. Kafka Connection Settings에서 SASL 연결 문자열에는 이전 작업에 설명된 대로 password라는 매개변수와 AUTH_TOKEN 값이 있습니다. OCI Streaming에 대한 액세스를 사용으로 설정하려면 OCI 콘솔에서 사용자로 이동하여 AUTH TOKEN을 생성해야 합니다.

Oracle Cloud 기본 메뉴에서 ID 및 보안, 사용자로 이동합니다.
참고: AUTH TOKEN을 생성해야 하는 사용자는 지금까지 생성된 리소스에 대해 OCI CLI 및 모든 IAM 정책 구성으로 구성된 사용자입니다. 리소스는 다음과 같습니다.
- Oracle Cloud Autonomous Data Warehouse
- Oracle Cloud 스트리밍
- Oracle 객체 저장영역
- Oracle Data Flow
세부정보를 보려면 사용자 이름을 누르십시오.
콘솔 왼쪽에서 인증 토큰 옵션을 누르고 토큰 생성을 누릅니다.

참고: 토큰은 이 단계에서만 생성되며 단계를 완료한 후에는 표시되지 않습니다. 따라서 값을 복사하여 저장합니다. 토큰 값이 손실되면 인증 토큰을 다시 생성해야 합니다.

작업 7: 데모 응용 프로그램 설정

이 자습서에는 필요한 정보를 설정할 2개의 데모 애플리케이션이 있습니다.

Java-CSV-DB: 이 애플리케이션은 csv 파일(organizations1M.csv)의 1,000,000개 라인을 읽고 데이터베이스(Oracle Cloud Autonomous Data Warehouse) 및 Kafka 스트리밍(Oracle Cloud Streaming)과의 통합을 위해 일반적인 시나리오에서 몇 가지 프로세스를 실행합니다.

이 데모는 CSV 데이터세트를 데이터베이스의 보조 테이블과 병합하는 방법과 메모리에서 세 번째 데이터세트를 생성하는 테이블의 교차 유형을 보여줍니다. 실행 후 데이터세트가 ADW에 삽입되고 Kafka 스트리밍에 게시됩니다.
JavaConsumeKafka: 이 응용 프로그램은 첫번째 응용 프로그램의 일부 단계를 반복하여 대량의 처리를 위해 CPU 및 메모리를 사용합니다. 차이점은 첫번째 응용 프로그램이 Kafka 스트리밍에 게시되는 반면 이 응용 프로그램은 스트리밍에서 읽는다는 것입니다.

다음 링크를 사용하여 응용 프로그램을 다운로드합니다.
- Java-CSV-DB.zip
- JavaConsumeKafka.zip
Oracle Cloud 콘솔에서 다음 세부정보를 찾습니다.
- 테넌시 네임스페이스
- 비밀번호 암호
- 스트리밍 접속 설정
- 인증 토큰

다운로드한 zip 파일(Java-CSV-DB.zip 및 JavaConsumeKafka.zip)을 엽니다. /src/main/java/example 폴더로 이동하여 Example.java 코드를 찾습니다.

코드-variables.png

테넌시 리소스 값으로 변경해야 하는 변수입니다.

변수 이름	리소스 이름	정보 제목
이름 공간	테넌시 네임스페이스	테넌트
OBJECT_STORAGE_NAMESPACE	테넌시 네임스페이스	테넌트
PASSWORD_SECRET_OCID	PASSWORD_SECRET_OCID	OCID
streamPoolId	스트리밍 접속 설정	SASL 접속 문자열의 ocid1.streampool.oc1.iad..... 값
kafkaUsername	스트리밍 접속 설정	SASL 접속 문자열에서 " " 내의 usename 값
kafkaPassword	인증 토큰	값은 생성 단계에서만 표시됩니다.

참고: 이 자습서에 대해 생성된 모든 리소스는 US-ASHBURN-1 영역에 있습니다. 작업할 영역을 체크 인합니다. 이 영역을 변경할 경우 두 코드 파일에서 다음 세부 정보를 변경해야 합니다.

Example.java: "us-ashburn-1"을 새 지역으로 대체하여 bootstrapServers 변수를 변경합니다.

OboTokenClientConfigurator.java: 새 영역으로 CANONICAL_REGION_NAME 변수를 변경합니다.

작업 8: Java 코드 이해

이 자습서는 Java로 작성되었으며 이 코드를 Python으로 전송할 수도 있습니다. 튜토리얼은 두 부분으로 나뉩니다.

Kafka Streaming에 게시할 애플리케이션 1
Kafka Streaming에서 사용할 애플리케이션 2

효율성 및 확장성을 입증하기 위해 두 애플리케이션 모두 통합 프로세스의 일반적인 사용 사례에서 몇 가지 가능성을 보여주기 위해 개발되었습니다. 따라서 두 응용 프로그램의 코드는 다음 예제를 보여줍니다.

1,000,000행의 CSV 파일 읽기
JDBC 연결을 통해 연결하도록 ADW 전자 지갑 준비
ADW 데이터베이스에 1,000,000개의 CSV 데이터 행 삽입
SQL 문장을 실행하여 ADW 테이블 query
SQL 문장을 실행하여 ADW 데이터 집합 테이블로 CSV 데이터 집합을 조인합니다.
데이터가 반복되는 것을 보여주기 위해 CSV 데이터세트의 루프를 수행합니다.
Kafka Streaming으로 운영

이 데모는 로컬 머신에서 실행될 수 있으며, 데이터 플로우 인스턴스에 배포되어 작업 실행으로 실행될 수 있습니다.

주: 데이터 플로우 작업과 로컬 시스템 모두에 대해 OCI CLI 구성을 사용하여 OCI 리소스에 액세스합니다. Data Flow측에서는 모든 항목이 미리 구성되어 있으므로 매개변수를 변경할 필요가 없습니다. 로컬 시스템 측에서 OCI CLI를 설치하고 OCI 리소스에 액세스할 수 있도록 테넌트, 사용자 및 전용(private) 키를 구성합니다.

Example.java 코드를 섹션에 표시합니다.

Apache Spark 초기화: 이 코드 부분은 Spark 초기화를 나타냅니다. 실행 프로세스를 수행하기 위한 대부분의 구성은 자동으로 구성되므로 Spark 엔진으로 작업하기가 매우 쉽습니다.
많은 형식의 대용량 파일 읽기: Apache Spark 엔진 및 SDK는 빠른 로드 및 쓰기 파일 형식을 허용합니다. 높은 볼륨은 초 단위 및 밀리초 단위로 조작할 수 있습니다. 따라서 메모리에서 데이터 집합을 병합, 필터링, 조인하고 다양한 데이터 소스를 조작할 수 있습니다.
ADW Vault Secret 읽기: 이 코드 부분은 Vault에 액세스하여 ADW 인스턴스에 대한 암호를 가져옵니다.
Wallet.zip 파일을 읽어 JDBC를 통해 연결: 이 섹션에서는 Object Storage에서 Wallet.zip 파일을 로드하고 JDBC 드라이버를 구성하는 방법을 보여줍니다.
ADW 데이터베이스에 1,000,000개의 CSV 데이터 집합 행을 삽입합니다. CSV 데이터 집합에서 ADW 데이터베이스에 직접 일괄 삽입할 수 있습니다. Apache Spark는 클러스터화된 머신의 모든 기능, CPU 및 메모리를 사용하여 실행을 최적화하여 최상의 성능을 얻을 수 있습니다.
데이터 변환: 많은 CSV 파일을 로드하고, 데이터베이스의 일부 테이블을 데이터 집합, JOIN, 필터, 열 제거, 계산 및 기타 여러 작업을 몇 개의 코드 행에서 몇 시간씩 query하고, 어떤 형식으로든 쓰기 작업을 수행한다고 가정해 보겠습니다. 이 예에서는 oracleDF2이라는 새 데이터 세트가 CSV 데이터 세트 및 ADW 데이터베이스 데이터 세트에서 생성되었습니다.
루프의 데이터 세트로 반복: CSV 데이터 세트(1,000,000개 라인)에 대한 루프 반복의 예입니다. row 객체는 CSV 필드 구조의 매핑을 포함합니다. 따라서 각 행의 데이터를 가져와서 API 호출 및 기타 여러 작업을 실행할 수 있습니다.
Kafka Operations: Kafka API를 사용하여 OCI Streaming에 연결하기 위한 준비입니다.

참고: Oracle Cloud Streaming은 대부분의 Kafka API와 호환됩니다.
연결 매개변수를 구성한 후 코드는 스트리밍을 생성하고 소비하는 방법을 보여줍니다.

작업 9: Maven으로 애플리케이션 패키지화

Apache Spark에서 작업을 실행하기 전에 Maven으로 애플리케이션을 패키지화해야 합니다. Maven은 라이브러리 및 플러그인을 사용하여 애플리케이션을 패키지하는 가장 알려진 유틸리티 중 하나입니다.

참고:

100개 라인만 있는 다른 CSV 파일을 변경하는 빠른 테스트를 실행할 수 있습니다. 이렇게 하려면 Example.java 파일에서 다음 코드를 찾습니다. private static String INPUT_PATH = "oci://data@" + OBJECT_STORAGE_NAMESPACE + "/organizations1M.csv";

organizations1M.csv를 organizations.csv로 바꾸면 실행 속도가 훨씬 빨라집니다.

Java-CSV-DB 패키지
1. /Java-CSV-DB 폴더로 이동하여 다음 명령을 실행합니다.
  
  mvn package
2. 패키징을 시작하면 Maven이 표시됩니다.
3. 모든 사항이 올바르면 Success 메시지를 볼 수 있습니다.
4. 로컬 Apache Spark 시스템에서 응용 프로그램을 테스트하려면 다음 명령을 실행합니다.
  
  spark-submit --class example.Example target/loadadw-1.0-SNAPSHOT.jar
JavaConsumeKafka 패키지
1. /JavaConsumeKafka 폴더로 이동하여 다음 명령을 실행합니다.
  
  mvn package
2. 패키징을 시작하면 Maven이 표시됩니다.
3. 모든 사항이 올바르면 Success 메시지를 볼 수 있습니다.
4. 로컬 Apache Spark 시스템에서 애플리케이션을 테스트하려면 다음 명령을 실행합니다.
  
  spark-submit --class example.Example target/loadkafka-1.0-SNAPSHOT.jar

작업 10: 실행 확인

ADW 삽입 확인
1. Oracle Cloud 주 메뉴로 이동하여 Oracle Database 및 Autonomous Data Warehouse를 선택합니다.
2. 처리된 로그 인스턴스를 눌러 세부정보를 봅니다.
3. 데이터베이스 작업을 눌러 데이터베이스 유틸리티로 이동합니다.
4. ADMIN 사용자에 대한 인증서를 입력합니다.
5. SQL 옵션을 눌러 질의 유틸리티로 이동합니다.
6. query를 실행하여 테이블에 있는 1,000,000개의 행을 확인합니다.
실행 로그 확인
- 작업이 데이터 세트에 액세스하고 로드할 수 있으면 실행 로그에서 확인할 수 있습니다.

작업 11: 데이터 플로우 작업 생성 및 실행

이제 두 애플리케이션이 로컬 Apache Spark 머신에서 성공적으로 실행되면서 테넌시의 Oracle Cloud Data Flow에 배포할 수 있습니다.

Oracle Cloud 기본 메뉴에서 Analytics & AI 및 Data Flow로 이동합니다.
데이터 플로우 애플리케이션을 생성하기 전에 analytics 구획을 선택해야 합니다.
애플리케이션 생성을 누릅니다.
다음 그림과 같이 매개변수를 완성합니다.
생성을 누릅니다.
생성 후 데모 확장 링크를 눌러 세부정보를 봅니다.
Run을 눌러 작업을 실행합니다.
매개변수를 확인하고 Run을 다시 누릅니다.
작업 상태를 확인하고 Status가 Succeeded로 변경될 때까지 기다린 후 결과를 확인할 수 있습니다.

다음 단계

첫 번째 애플리케이션은 Kafka Streaming에 데이터를 게시합니다. 두번째 응용 프로그램은 Kafka에서 이 데이터를 소비합니다.

첫번째 데이터 플로우 애플리케이션을 생성할 때 동일한 단계를 사용하여 다른 데이터 플로우 애플리케이션을 생성합니다.
응용 프로그램의 이름을 변경하고 패키지를 loadadw-1.0-SNAPSHOT.jar에서 loadkafka-1.0-SNAPSHOT.jar로 변경해야 합니다.
다른 파라미터를 첫번째 Data Flow 응용 프로그램과 동일하게 유지하고 작업을 RUN할 수 있습니다.

승인

작가 - Cristiano Hoshikawa(LAD A 팀 솔루션 엔지니어)

추가 학습 자원

docs.oracle.com/learn에서 다른 실습을 탐색하거나 Oracle Learning YouTube 채널에서 더 많은 무료 학습 콘텐츠에 액세스하십시오. 또한 Oracle Learning Explorer가 되려면 education.oracle.com/learning-explorer을 방문하십시오.

제품 설명서는 Oracle Help Center를 참조하십시오.

제목 및 저작권 정보

Process large files in Autonomous Database and Kafka with Oracle Cloud Infrastructure Data Flow

F79141-01

March 2023