データ・プラットフォーム- 複雑な統合によるデータ・ウェアハウス
通常、エンタープライズ・アプリケーション・データはエンタープライズ全体の複数のシステムに分散されるため、簡単に統合して分析し、実行可能なインサイトを得ることはできません。
このリファレンス・アーキテクチャは、エンタープライズ・アプリケーション・データを他のソースからのRAWデータでエンリッチ化し、機械学習モデルを使用してインテリジェンスと予測インサイトをビジネス・プロセスに提供するためのフレームワークを提供します。
このリファレンス・アーキテクチャは、ビジネス・コンテキスト全体においてテクノロジ・ソリューションを位置づけます。
部門が複数のソースからデータ・マートにデータを統合してインサイトを獲得するため、企業データ・ウェアハウスは、利用可能なデータ・マートやその他の構造化/非構造化ソースを利用できるように変更し、適応する必要があります。
データ・ウェアハウスにより、トランザクション・ワークロードから分析ワークロードが分割され、組織が複数のソースからデータを統合できるようにします。これにより、トランザクション・システムの変更を存続できるビジネス指向形式の履歴データの問合せおよび分析が容易になります。機械学習と予測分析用の倉庫データを活用することは、ビジネス・プロセスにインテリジェンスを組み込むための鍵となります。インテリジェントなビジネス・プロセスは、重要なビジネス・イベントを積極的に管理するのに役立ちます。たとえば、適切なチャネルで正しい製品を適切な顧客に推奨したり、不正なイベントを検出したりします。
アーキテクチャ
このアーキテクチャは、分析と機械学習のためのアプリケーション・データを収集して組み合せ、実用的なインサイトを提供します。
oci-polyglot-architecture-oracle.zip
次の図は、ベスト・プラクティスを使用した、前述のアーキテクチャとOracle Cloud Infrastructure (OCI)で提供されるサービスへのマッピングを示しています。
oci-polyglot-physical-arch-oracle.zip
アーキテクチャは、次の論理的な区分に焦点を当てています。
- 取込み、変換
アーキテクチャの各データ・レイヤーで使用するデータを取り込み、絞り込みます。
- 永続、キュレート、作成
現在および履歴のビジネス・ビューを表示するデータへのアクセスおよびナビゲーションを容易にします。これには、RAWデータと、粒度および集計された曲線データの両方が含まれます。リレーショナル・テクノロジの場合、データは、単純なリレーショナル、縦長、ディメンションまたはOLAPフォームで論理または物理的に構造化されます。非リレーショナル・データの場合、このレイヤーには、分析プロセスからの出力または特定の分析タスク用に最適化されたデータの1つ以上のデータ・プールが含まれます。
- 分析、学習、予測
コンシューマのデータの論理ビジネス・ビューを抽象化します。この抽象化により、開発へのアジャイルなアプローチ、ターゲット・アーキテクチャへの移行、および複数のフェデレーテッド・ソースからの単一のレポート・レイヤーのプロビジョニングが容易になります。
このアーキテクチャには次のコンポーネントがあります。
- バッチ取込み
バッチ取込みは、リアルタイムに取込みできないデータや、リアルタイム取込みに適応するにはコストがかかりすぎるデータに役立ちます。また、データを信頼できる信頼性の高い情報に変換することも重要です。この情報は、定期的な消費のためにキュレートおよび永続化できます。次のサービスを同時または独立に使用して、非常に柔軟で効果的なデータ統合および変換ワークフローを実現できます。
-
Oracle Cloud Infrastructureデータ統合は、完全に管理されたサーバーレスのクラウドネイティブ・サービスで、様々なデータ・ソースからターゲットのOracle Cloud Infrastructureサービス(Autonomous Data WarehouseやOracle Cloud Infrastructure Object Storageなど)にデータを抽出、ロード、変換、クレンジングおよび再シェイプします。ETL (抽出変換ロード)はSparkでの完全に管理されたスケールアウト処理を利用し、ELT (抽出ロード変換)はAutonomous Data Warehouseの完全なSQLプッシュダウン機能を利用して、データの移動を最小限に抑え、新しく取得したデータの価値実現までの時間を短縮します。ユーザーは、直感的でコードレスなユーザー・インタフェースを使用して統合フローを最適化し、最も効率的なエンジンとオーケストレーションを生成し、実行環境を自動で割り当て、拡張するデータ統合プロセスを設計します。Oracle Cloud Infrastructure Data Integrationは、対話型の探索とデータ準備を提供し、スキーマ変更を処理するルールを定義することでデータ・エンジニアがスキーマのドリフトから保護できるよう支援します。
-
Oracle Data Transformsは、Oracle Autonomous Databaseのデータベース・アクション(Data Studio)からデプロイできるOracle Data Integrator (ODI)統合ツールに基づいています。これは、複雑なデータ・ウェアハウスを構築、デプロイおよび管理するため、あるいはSOAまたはビジネス・インテリジェンス環境のデータ集中型アーキテクチャの一部として、完全に統一されたソリューションを提供します。さらに、データ統合、データ移動、データ同期、データ品質およびデータ管理のすべての要素が結合され、複雑なシステムにおいて情報の適時性、正確性および一貫性が保証されます。
Oracle Data Integratorは、大容量かつ高パフォーマンスのバッチ・ロードからイベント駆動、トリクル・フィード統合プロセスまで、SOA対応のデータ・サービスへの包括的なデータ統合を提供します。宣言的設計アプローチにより、開発と保守の高速化、シンプル化が実現し、ロード変換(ELT)を抽出する独自のアプローチによって、データ変換と検証プロセスで可能な最高レベルのパフォーマンスを保証します。Oracleデータ変換では、Webインタフェースを使用してELTの構成および実行を簡素化し、宣言的設計アプローチを使用して、ユーザーとワークフローを構築およびスケジュールするのに役立ちます。
ユースケースに応じて、これらのコンポーネントを独立してまたは組み合せて使用することで、非常に柔軟でパフォーマンスの高いデータ統合および変換を実現できます。
-
-
リアルタイム取り込み
Oracle Cloud Infrastructure GoldenGateは、オンプレミスまたは任意のクラウドに存在するソースからのデータ取込みを可能にするフルマネージド・サービスです。GoldenGateによるCDCテクノロジを利用して、データの侵入性が低く効率的な取得を実現し、Oracle Autonomous Data Warehouseへの配信をリアルタイムかつ大規模に行い、関連する情報をできるかぎり迅速に利用できるようにします。
- Autonomous Data Warehouse
Oracle Autonomous Data Warehouseは、データ・ウェアハウスのワークロード向けに最適化された、自動運転、自己保護、自己修復型のデータベース・サービスです。ハードウェアの構成や管理、ソフトウェアのインストールを行う必要はありません。Oracle Cloud Infrastructureでは、データベースの作成およびデータベースのバックアップ、パッチ適用、アップグレードおよびチューニングを処理します。
オブジェクト・ストレージに存在するバルク・データまたはコールド・ストレージ・データは、外部表およびハイブリッド・パーティション表としてウェアハウス・データと結合できます。
Autonomous Data Warehouseでは、データ・カタログに格納されている以前に収集されたメタデータを使用して外部表を作成できます。また、データ・カタログのメタデータ更新と外部表定義を自動的に同期して、一貫性を維持し、管理を簡素化し、作業を減らすことができます。
さらに、Oracle Autonomous DatabaseのコンポーネントであるData Lake Acceleratorは、オブジェクト・ストレージ・データをシームレスに消費し、処理を拡張して高速な問合せを提供したり、必要に応じてデータベース・コンピュート・インスタンスを自動スケーリングしたり、データベース・コンピュート・インスタンスからオブジェクト・ストレージ問合せを分離することで、データベース・ワークロードへの影響を減らすことができます。
- オブジェクト・ストレージ
オブジェクト・ストレージを使用すると、データベースのバックアップ、分析データ、イメージやビデオなどのリッチ・コンテンツなど、あらゆるコンテンツ・タイプの構造化データと非構造化データにすばやくアクセスできます。インターネットまたはクラウド・プラットフォーム内部から、安全かつセキュアにデータを直接格納し、取得できます。パフォーマンスやサービスの信頼性を低下させることなく、ストレージをシームレスにスケーリングできます。標準ストレージは、迅速、即時、頻繁にアクセスするために必要な「ホット」ストレージに使用します。長期間保持し、ほとんどアクセスしない「コールド」ストレージにはアーカイブストレージを使用します。
- 「アナリティクス」
Oracle Analytics Cloudは、コラボレーション分析を考察および実行するための完全な機能をユーザー、ワークグループおよびエンタープライズに提供する、スケーラブルで安全なパブリック・クラウド・サービスです。市民データ・サイエンティスト、高度なビジネス・アナリスト・トレーニングおよび機械学習(ML)モデルをサポートしています。機械学習モデルは、分析サービスで実行することも、ウェアハウスの処理能力、スケーラビリティおよび柔軟性を活用する大規模なバッチ予測のためのOML埋込みモデルとしてOracle Autonomous Data Warehouseで直接実行することもできます。
Oracle Analytics Cloudでは、迅速な設定、容易なスケーリングとパッチ適用、自動ライフサイクル管理など、柔軟なサービス管理機能も得られます。
-
機械学習
Oracle Machine Learningは、PythonおよびAutoMLをサポートするOracle Autonomous Databaseで緊密に統合された強力な機械学習機能を提供します。データの準備と移動を削減するオープン・ソースのスケーラブルなデータベース内アルゴリズムを使用してモデルをサポートします。AutoMLは、データ・サイエンティストが自動アルゴリズム選択、適応型データ・サンプリング、自動機能選択および自動モデル・チューニングを使用して、企業の機械学習イニシアチブの価値実現を迅速化するのに役立ちます。
Oracle Autonomous Data Warehouseで使用可能なOracle Machine Learningサービスを使用すると、モデルを管理するだけでなく、企業内でリアルタイムの予測を民発化するために、企業内の関連イベントに事後ではなく発生するイベントに対応できるようにそれらのモデルをRESTエンドポイントとしてデプロイすることもできます。
-
データ・サイエンス
データ・サイエンスは、データ・サイエンス・チームがOracle Cloud Infrastructureで機械学習(ML)モデルを作成、トレーニングおよび管理するためのインフラストラクチャ、オープン・ソース・テクノロジ、ライブラリ、パッケージおよびデータ・サイエンス・ツールを提供します。コラボレーションとプロジェクト駆動のワークスペースは、エンドツーエンドのまとまりのあるユーザー・エクスペリエンスを提供し、予測モデルのライフサイクルをサポートします。
データ・サイエンス・モデル・デプロイメント機能を使用すると、データ・サイエンティストは、トレーニング済モデルをフルマネージド型のHTTPエンドポイントとしてデプロイできます。このエンドポイントでは、予測をリアルタイムで提供し、プロセスやアプリケーションにインテリジェンスを組み込み、発生時にビジネスが関連するイベントに対応できるようになります。
- データ・カタログ
Oracle Cloud Infrastructureデータ・カタログでは、メタデータやメタデータ属性などの技術的資産を可視化し、その技術メタデータにマップされたビジネス用語集を管理できます。Oracle Cloud Infrastructureデータ・カタログでは、データ・ウェアハウスで外部表の作成を容易にするために、Autonomous Data Warehouseへのメタデータも提供されます。
推奨
分析および機械学習のためのアプリケーション・データを収集および結合するための開始点として、次の推奨事項を使用します。
お客様の要件は、ここで説明するアーキテクチャとは異なる場合があります。
- Oracle Autonomous Data Warehouse
このアーキテクチャは、共有インフラストラクチャでOracle Autonomous Data Warehouseを使用します。データベース・ワークロードを処理能力の3倍まで拡張するには、自動スケーリングを有効にします。
パブリック・クラウドで実行されるプライベート・データベース・クラウド環境内のセルフサービス・データベース機能が必要な場合は、専用インフラストラクチャでOracle Autonomous Data Warehouseの使用を検討してください。
Autonomous Data Warehouseのハイブリッド・パーティション表機能を使用して、使用頻度が低く、同じパフォーマンスを必要としないデータについて検討します。この機能を使用すると、データのパーティションをオブジェクト・ストレージに移動して、それらをAutonomous Data Warehouseに格納されているパーティションと組み合せてシームレスに配信できます。
外部表機能を使用して、オブジェクト・ストレージに格納されているデータをAutonomous Data Warehouseにレプリケートせずにリアルタイムで使用することを検討してください。これにより、データ・ウェアハウスは、形式(parquet、avroまたはc、json、csvなど)に関係なく、キュレーションされたデータを消費できます。
データ・ウェアハウスとデータ・レイク間のデータ・レイクをデータ・レイクで利用し、データを利用するユーザーに対して改善され迅速にユーザー・エクスペリエンスを提供するために、オブジェクト・ストレージ・データを消費するときにData Lake Acceleratorを使用することを検討してください。
- Oracle Machine LearningおよびOracle Cloud Infrastructure Data Scienceモデル・デプロイメント
このアーキテクチャは、Oracle Machine LearningとOracle Cloud Infrastructure Data Scienceを利用して予測をリアルタイムで実行し、人員やアプリケーションに結果を提供します。
デプロイされたモデルの消費を保護および制御するために、パートナおよび外部エンティティによってリアルタイムの予測が使用される場合、APIゲートウェイのデプロイを検討します。
- データ・カタログ
プラットフォームに格納およびフローするデータの完全で包括的なエンドツーエンド・ビューを保持するには、データ永続性レイヤーをサポートするデータ・ストアだけでなく、ソース・データ・ストアも収集することを検討してください。収集されたこの技術メタデータをビジネス用語集にマップし、カスタム・プロパティでエンリッチ化すると、ビジネス概念をマップしたり、セキュリティおよびアクセス定義を文書化および管理できます。
オブジェクト・ストレージに格納されているデータを仮想化するAutonomous Data Warehouse内の外部表の作成を容易にするために、Oracle Cloud Infrastructureデータ・カタログに格納されている以前に収集されたメタデータを活用します。これにより、外部表の作成が簡素化され、データ・ストア全体でメタデータの一貫性が維持され、ヒューマン・エラーが減少します。
注意事項
分析や機械学習のためにアプリケーション・データとストリーミング・イベント・データを収集および結合する場合は、次の実装オプションを検討します。
ガイダンス | Data Miner | データ永続性プラットフォーム | アクセス&解釈 |
---|---|---|---|
推奨 |
|
|
|
その他のオプション |
|
Oracle Exadata Database Service | サードパーティ・ツール |
理由 |
Oracle Cloud Infrastructure Data Integrationは、スケーラブルでコスト効率に優れた、クラウド・ネイティブのサーバーレスで完全管理型のETLプラットフォームを提供します。 Oracle Cloud Infrastructure GoldenGateは、スケーラブルでコスト効率に優れた、ハイブリッド環境にデプロイできる、クラウド・ネイティブでサーバーレスで完全に管理されていないデータ・レプリケーション・プラットフォームを提供します。 |
Oracle Autonomous Data Warehouseは、柔軟にスケーリングされ、高速な問合せパフォーマンスを発揮し、データベース管理を必要としない、使いやすい完全自律のデータベースです。また、外部またはハイブリッド・パーティション表を使用してオブジェクト・ストレージのデータに直接アクセスすることもできます。 Oracle Cloud Infrastructure Object Storageでは、無制限のデータをRAW形式で格納します。 |
Oracle Analytics Cloudは、完全に管理され、Oracle Autonomous Data Warehouseのキュレーションされたデータと緊密に統合されています。 Oracle Cloud Infrastructure Data Scienceは、Oracle Cloud Infrastructureで機械学習(ML)モデルを作成、トレーニングおよび管理するための、データ・サイエンス・チーム用の完全に管理されたセルフサービス・プラットフォームです。Data Scienceサービスは、AutoMLやモデル・デプロイメント機能などのインフラストラクチャおよびデータ・サイエンス・ツールを提供します。 Oracle Machine Learningは、ウェアハウスの処理能力を活用した、Autonomous Data Warehouseで使用可能なデータ・サイエンス用の完全管理のセルフサービス・プラットフォームです。ウェアハウスの外部でデータを移動することなく、大規模なMLモデルを構築、トレーニング、テストおよびデプロイできます。 |
デプロイ
このリファレンス・アーキテクチャのTerraformコードは、GitHubで入手できます。1回のクリックでコードをOracle Cloud Infrastructure Resource Managerにプルし、スタックを作成してデプロイできます。または、GitHubからコンピュータにコードをダウンロードし、コードをカスタマイズして、Terraform CLIを使用してデプロイします。
- Oracle Cloud Infrastructure Resource Managerを使用してデプロイします:
をクリックします
まだサインインしていない場合は、テナンシおよびユーザー資格証明を入力します。
- 条件をレビューして受け入れます。
- スタックをデプロイするリージョンを選択します。
- 画面上のプロンプトおよび指示に従ってスタックを作成します。
- スタックの作成後、「Terraformアクション」をクリックし、「プラン」を選択します。
- ジョブが完了するのを待ってから、プランをレビューします。
変更するには、「スタックの詳細」ページに戻り、「スタックの編集」をクリックして必要な変更を行います。次に、「プラン」アクションを再実行します。
- これ以上変更が不要な場合は、「スタック詳細」ページに戻り、「Terraformアクション」をクリックして「適用」を選択します。
- Terraform CLIを使用してデプロイします。
- GitHubに移動します。
- ローカル・コンピュータにコードをダウンロードまたはクローニングします。
- READMEの手順に従います。