テンプレートから構築済みのタスクを使用して、安全なOCIデータ統合環境を構築
Oracle Cloud Infrastructure Data Integration (OCI Data Integration) Serviceを使用して、外部ソースからターゲットのOracle Autonomous Data Warehouseデータ・ストアへのセキュアでスケーラブルなデータ処理タスクを構築します。
このリファレンス・アーキテクチャでは、企業が一部のアプリケーションをすでにクラウドに移行しようとしている間に、ビジネス・データがオンプレミスのデータ・ストアに分散しているシナリオを検討しています。OCI Data Integrationは、既存のオンプレミスおよび他のクラウド上の任意の機能を拡張し、OCIファブリックに存在するネットワークおよびデータ・ストアの接続を安全かつスケーラブルな方法で活用します。
アーキテクチャ
このアーキテクチャは、前述のシナリオに関与する可能性がある様々なコンポーネントを示しています。
マルチクラウド戦略では、OCIが他のクラウド・プロバイダへの接続のためのアーキテクチャ・リファレンスを提供する他のクラウド・プロバイダで、テクノロジおよびデータ・サービスが発生する場合があります。オンプレミスのデータ・ストアは、ファイルに格納されているデータから、ERPのプロセス主導型のデータセットまで、複数のテクノロジによって異なります。
次の図は、リファレンス・アーキテクチャおよびデータ・ジャーニーを示しています。
oci-data-integration-flow-oracle.zip
ダウンストリーム・データベースまたはレイクハウスに格納されているターゲット情報の一部になるように、データを安全に収集、処理およびエンリッチするステップを次に示します。
- Oracle Cloud Infrastructure FastConnectまたはサイト間VPNを介して、オンプレミス・データ・ソースをOCIデータ統合データ・アセット・コネクタを使用して収集できます。
- 同様に、OCIデータ統合データ・アセット・コネクタからアクセスできるデータ・ソースを使用して、他のクラウドに存在するデータセット(カスタム・アプリケーション、Oracle applications以外、サードパーティ・クラウドで実行されているOracleデータベース、Oracle Fusion SaaS、サードパーティ・クラウド・サービス、アプリケーションなど)を取得できます。OCIデータ統合データ・アセット・コネクタが直接アクセスできない場合、データを一括ロード・ファイルでOracle Cloud Infrastructure Object Storageバケットにアップロードすることもできます。
Oracleは、Microsoft Azure、Amazon Web Services、Google Cloud Platformなどの他のクラウド・プロバイダ向けに、特定のクラウド接続ソリューションを開発しました。垂直方向のクラウド相互運用性がない場合、NATゲートウェイを介してサービスまたはアプリケーションへの接続を安全に実行できるため、インターネットへのアウトバウンド・トラフィックのみが許可されます。OCIは、エンドポイントへのエンドツーエンド接続を暗号化することで、インターネット上のデータ漏洩を軽減します。しかし、取り込みにおいて、OCI Data Integration Pipelinesは、大量のデータ・ストリーミングやデータ・ソース・レプリカなど、他のタイプのデータ取込みをOracle GoldenGateで調整できます。OCIサービスへのREST APIコールを呼び出すオーケストレーション機能は、OCI Object Storageのバケット内のファイル変更の検出、およびイベントと統合関数、トリクル取込みデータ・ストリームとの組合せを利用できます。
- データがOCIファブリックに取り込まれると、インターネット・アクセスからさらに分離できる排他的な仮想クラウド・ネットワーク(VCN)上で処理されます。データ・フローを介したデータ統合サービス(OCI Data Integration)は、コードフリー・インタフェース、ソース・エンティティとターゲット・エンティティのマッピング、およびそれぞれの変換で複数の変換を実行できます。同時に、データ変換が発生すると、OCIデータ・カタログ・サービスは、カタログ化を行って系統を提供します。Oracle Databasesに保存されているデータは、プライバシとコンプライアンスに関する規制の対象となる場合があります。Oracle Data Safeは、データベースのセキュリティ状態を評価し、リスクを識別および分類し、最終的に機密とみなされる情報をマスキングします。データおよび情報の安全性のための別のリソースであるOCI Vaultは、アカウント情報とパスワードなどのキーおよびシークレットを格納および管理し、それらを暗号化し、データを保護するプロセス全体を簡略化するサービスを提供します。
- OCI Data Integration PipelinesおよびOCI Data Integration Dataflowは、内部でのデータ・アセットのエンリッチメントを促進しますが、RESTオペレータは他のOCIサービスへのアクセスを保護することもできます。この容量では、OCI Data Integration Orchestrationは、機械学習のためのデータ・サイエンスのノートブックを起動したり、予測または異常検出でデータを拡張するための人工知能サービスを問い合せることができます。OCIデータ統合オーケストレーションは、Sparkエンジンをスピンして、同じセキュアなOCIファブリックでOCIデータ・フローを使用して広範なデータ処理をバーストできます。モニタリング、ロギング、通知など、すべてのオーケストレーション管理は、正確なメカニズムを介して統合されます。
- OCI Data Integrationは、OCIまたはオンプレミス内のOracleストア、およびOCIデータレイクの組み合わせとMySQLに書き込みます。Analyticsでは、データ・ビジュアライゼーション、ビジネス・モデリングおよびピクセルパーフェクト・レポートのための広範なリソースを含むターゲット・ストアをすぐに活用できます。
- データのコンシューマ、プロデューサおよび開発者は、データおよびリソースのアクセス制御のためのきめ細かいポリシーで安全に編成されます。
次のアーキテクチャ図では、推奨されるネットワーク・サブネット分離を考案して、実装をさらに掘り下げます。
oci-data-integration-arch-oracle.zip
OCI Data Integrationサービスは、多くのデータソースへの即時利用可能な接続を提供し、マイクロバッチはOCI環境にデータを段階的に処理できます。同様に、他のOCIサービスを呼び出して、データセットをさらにエンリッチおよびキュレートできます。
- バッチ処理は、OCI Object Storageとシームレスに統合するOCIネイティブサービスを活用し、データの集計とエンリッチメント、データウェアハウスの取り込み、機械学習とAIデータを大規模に使用するためのキュレーションされたデータをソース・システムから変換します。
- OCI Data Integrationは、様々なデータ・ソースからAutonomous Data WarehouseやOCI Object StorageなどのターゲットOracle Cloud Infrastructureサービスにデータを抽出、ロード、変換、クレンジングおよび再シェイプする、完全に管理されたサーバーレスのクラウドネイティブ・サービスです。
- OCIデータ統合は、処理データ・フロー内の依存性を調整しますが、OCI人工知能やOracle Machine Learningなどの残りのOracle Cloud Infrastructureサービスも調整して、データ・エンリッチメントやさらなる分類とデータ・セキュリティとコンプライアンスのためのData Safeを行います。アクセスをきめ細かく制御するポリシーは、サービス間認証および認可を維持します。
- OCIデータ統合アプリケーション・テンプレートは、すぐに利用可能なOCIデータ統合タスク(REST (API)、SQL、統合(データ・フロー)およびパイプラインのセットを提供します。タスクは完全にパラメータ化され、直接使用できます。タスクを新しいプロジェクトやフォルダに保存して、実装の詳細をさらに反映するように設計を変更することもできます。
アーキテクチャには、次のコンポーネントがあります。
- リージョン
Oracle Cloud Infrastructureリージョンは、可用性ドメインと呼ばれる1つ以上のデータ・センターを含むローカライズされた地理的領域です。リージョンは他のリージョンから独立しており、広大な距離で(複数の国または複数の大陸にまたがる)リージョンを分離できます。
- 仮想クラウド・ネットワーク(VCN)およびサブネット
VCNは、Oracle Cloud Infrastructureリージョンで設定する、カスタマイズ可能なソフトウェア定義のネットワークです。VCNは、従来のデータ・センター・ネットワークと同様に、ネットワーク環境の完全な制御を可能にします。VCNには重複しない複数のCIDRブロックを含めることができ、VCNの作成後にそれらを変更できます。VCNをサブネットにセグメント化して、そのスコープをリージョンまたは可用性ドメインに設定できます。各サブネットは、VCN内の他のサブネットと重複しない連続した範囲のアドレスで構成されます。サブネットのサイズは、作成後に変更できます。サブネットはパブリックにもプライベートにもできます。
- データ統合
Oracle Cloud Infrastructure Data Integrationは、完全に管理されたマルチテナントのサーバーレス・ネイティブ・クラウド・サービスであり、様々なソースからのデータの取込み、そのデータのクレンジング、変換および再形成、OCI上のターゲット・データ・ソースへの効率的なロードなどの一般的なETLタスクに役立ちます。
様々なソース(Amazon Redshift、Azure SQL Database、Amazon S3など)からObject Storageにデータを取り込み、Autonomous Data Warehouseがこのプロセスの最初のステップです。
- オブジェクト・ストレージ
オブジェクト・ストレージでは、データベースのバックアップ、分析データ、イメージやビデオなどのリッチ・コンテンツなど、あらゆるコンテンツ・タイプの構造化データおよび非構造化データにすばやくアクセスできます。インターネットから直接またはクラウド・プラットフォーム内から、安全かつセキュアにデータを格納し、取得できます。パフォーマンスやサービスの信頼性を損なうことなく、シームレスにストレージを拡張できます。迅速、即時、頻繁にアクセスする必要があるホット・ストレージには、標準ストレージを使用します。長期間保持し、ほとんどまたはほとんどアクセスしないコールド・ストレージには、アーカイブ・ストレージを使用します。
- データ・サイエンス
Oracle Cloud Infrastructure Data Scienceは、データ・サイエンス・チームがOracle Cloud Infrastructure (OCI)で機械学習(ML)モデルを作成、トレーニングおよび管理するために使用できる、完全に管理されたサーバーレスのプラットフォームです。Oracle Autonomous Data Warehouse、Oracle Cloud Infrastructure Object Storageなどの他のOCIサービスと簡単に統合できます。企業の信頼できるデータを迅速に動作させることでビジネスの柔軟性を向上させる高品質の機械学習モデルを構築および評価し、MLモデルを簡単に導入してデータ主導のビジネス目標をサポートできます。
- Oracle Machine Learning
Oracle Machine Learningには、データベース内のデータのモデルを構築、トレーニングおよびデプロイする機能があります。Oracle Machine Learningには、データ・サイエンティストがOML4Py Pythonクライアント・ライブラリを使用してモデルをトレーニングできるZeppelinノートブック・インタフェースが用意されています。Oracle Machine Learningは、AutoML UIを使用してトレーニングをモデル化するためのノーコード・アプローチも提供します。REST APIとしてのモデルのデプロイメントは、Oracle Machine Learning Servicesを介して実行できます。ただし、オープンソース・ソフトウェアのサポートは制限されています。
- AIサービス
Oracle Cloud Infrastructure AIサービスは、言語、ビジョン、音声、意思決定および予測から様々なユースケースを対象とした事前トレーニング済でカスタマイズ可能なモデルAPIのコレクションを提供します。AIサービスは、REST APIエンドポイントを介してアクセス可能なモデルの予測を提供します。これらのサービスは、最先端の事前トレーニング済モデルを提供し、サービス1から6を使用してカスタムの機械学習モデルをトレーニングする前に考慮して評価する必要があります。あるいは、Oracle Machine Learningサービスでは、言語(トピック、キーワード、サマリー、類似性)およびビジョンに関する一連の事前トレーニング済モデルも提供されます。
- データ・セーフ
Oracle Data Safeは、完全に統合されたリージョン別クラウド・サービスであり、Oracleデータベース内の機密データおよび規制対象データを保護するための完全な機能セットを提供します。Data Safe also supports on-premises databases, Oracle Exadata Database Service on Cloud@Customer, and multicloud deployments.Oracle Databaseのすべてのお客様は、Oracle Data Safeを使用して構成とユーザー・リスクの評価、ユーザー・アクティビティのモニターと監査、および機密データの検出、分類およびマスキングを行うことで、データ侵害のリスクを軽減し、コンプライアンスを簡素化できます。
- Autonomous Data Warehouse
Oracle Autonomous Data Warehouseは、データ・ウェアハウスのワークロード用に最適化された、自動運転、自己保護および自己修復が可能なデータベース・サービスです。ハードウェアの構成や管理、ソフトウェアのインストールを行う必要はありません。Oracle Cloud Infrastructureでは、データベースの作成、およびデータベースのバックアップ、パッチ適用、アップグレードおよびチューニングが処理されます。
推奨事項
- VCN
VCNを作成するときには、必要なCIDRブロックの数を決定し、VCN内のサブネットにアタッチする予定のリソースの数に基づいて各ブロックのサイズを決定します。標準プライベートIPアドレス空間内のCIDRブロックを使用します。
プライベート接続を設定する他のネットワーク(Oracle Cloud Infrastructure、オンプレミス・データ・センターまたは別のクラウド・プロバイダ)と重複しないCIDRブロックを選択します。
VCNを作成した後、そのCIDRブロックを変更、追加および削除できます。
サブネットを設計するときには、トラフィック・フローおよびセキュリティ要件を考慮してください。特定の層またはロール内のすべてのリソースを同じサブネットに接続し、セキュリティ境界として機能できます。
- OCI Data Integrationテンプレート
テンプレート・タスクを使用したり、再利用したりして、多くの日常の管理タスクを簡単に自動化できます。さらに、テンプレートは、データ・エンジニアを支援するように調整された個別のタスク・セットを提供することで、OCIデータ統合のデータ処理および管理機能を拡張します。Use cases to call other OCI services such as Oracle Cloud Infrastructure AI Services for document classifications, Oracle Data Safe for masking content to be stored, and controlling and reporting in the incremental feed to Autonomous Data Warehouse are template building blocks for ease of OCI Data Integration use.
現在使用可能なテンプレートのリストは次のとおりです。
- Oracle Object Store管理
オブジェクトのコピー、削除および名前変更、およびバケットの作成および削除を行うオブジェクト・ストレージのRESTタスクを含むアプリケーション。
- Oracle Visionイメージ
OCI Visionイメージ分析を実行するためのRESTタスクを含むアプリケーション。タスクには、イメージの分類、オブジェクト検出およびイメージ・テキスト検出が含まれます。
- Oracle Visionドキュメント
OCI VisionドキュメントAIを実行するためのRESTタスクを含むアプリケーション。タスクには、ドキュメントの分類、ドキュメントのキーと値の検出、ドキュメントの言語分類、ドキュメント表の検出、およびドキュメント・テキストの検出が含まれます。
- Oracle DataSafeマスキング
ターゲットOracleデータベース・スキーマからOracle Data Safe機密モデルおよびマスキングを生成するためのパラメータ化されたタスクを含むアプリケーション。
- Oracle Object StorageからADWへのファイルのロード
OCI Object StorageからAutonomous Data Warehouseに様々なファイル・タイプ(JSON、Parquet、CSV、Avro)をロードするタスクを含むアプリケーション。
- Oracle DatabaseからAutonomous Data Warehouseへの増分ロード(顧客管理)
Autonomous Data Warehouseターゲット・スキーマに格納されているメタデータ表の最後の実行に基づいて増分タスクを実行およびレポートできるアプリケーション。
- Oracle Business Intelligence Publisher (BIP)を使用したADW増分ロードへのOracle Fusion Applications
Oracle Business Intelligence Publisher (BIP)レポートを使用するOracle Fusion Applicationsで、Autonomous Data Warehouseターゲット・スキーマに格納されているメタデータ表の最終実行に基づいて抽出を実行し、レポートできるようにするアプリケーション。
- Oracle Object Store管理
考慮事項
分析と機械学習のためにアプリケーション・データを収集、処理およびキュレーションする場合は、次の実装オプションを考慮してください。
- データ処理
- Oracle Cloud Infrastructure Data Integrationは、スケーラブルでコスト効率に優れた、クラウド・ネイティブでサーバーレスの完全管理型ETLプラットフォームを提供します。
- Oracle Cloud Infrastructure Data Flowは、サーバーレスSpark環境を提供し、従量課金制の非常に柔軟なモデルを使用してデータを大規模に処理します。
- Oracle Cloud Infrastructure Big Data Serviceは、エンタープライズグレードのHadoop as a Serviceで、エンドツーエンドのセキュリティ、高いパフォーマンス、管理やアップグレードのしやすさを兼ね備えています。
- データ永続性
- Oracle Autonomous Data Warehouseは、柔軟にスケーリングされ、迅速な問合せパフォーマンスを提供し、データベース管理を必要としない、使いやすい完全自律型データベースです。また、オブジェクト・ストレージの外部表またはハイブリッド・パーティション表からデータに直接アクセスできます。
- Oracle Cloud Infrastructure Object Storageでは、無制限のデータはRAW形式で格納されます。
- データ・リファイナンス
Oracle Cloud Infrastructure Data Integrationは、スケーラブルでコスト効率に優れた、クラウド・ネイティブでサーバーレスかつフルマネージド型のETLプラットフォームを提供します。
デプロイ
このリファレンス・アーキテクチャのTerraformコードは、GitHubにあります。
- GitHubにアクセスします。
- リポジトリをクローニングするか、ローカル・コンピュータにダウンロードします。
README
ドキュメントの手順に従います。