Oracle Cloudでのデータ・レイクの設計について

オンプレミスのデータ・レイクからOracle Cloud Infrastructure (OCI)への移行方法をご紹介します。オンプレミス・データ・レイクを持つ組織は、前払いとメンテナンスの高コストの課題に対応します。インフラストラクチャを計画、調達、管理し、不均等なワークロードを処理する必要があります。オンプレミスのデータ・レイクは、リソース使用の最適化が困難で、サーバー・リソースを効率的に使用しない可能性があります。クラウド・サービスを使用すると、コンピュートとストレージを独立して分離およびスケーリングできる一方、統合された適切に管理された自己回復性の高い環境を提供できます。

OCIは、あらゆるソースからの広範なデータ型へのアクセス、格納、処理のための堅牢で包括的なインフラストラクチャおよびクラウド・プラットフォーム・データおよびAIサービス・ポートフォリオを提供します。OCIでは、エンドツーエンドのエンタープライズ規模のデータおよびAIアーキテクチャをクラウド上に実装できます。このソリューション・プレイブックでは、OCIでのデータ・レイクの構築と操作に役立つ主要なサービスの概要を示します。また、その他の利用可能なサービスについても学び、オラクルのベットパターンと専門家によるガイダンスに基づいてデータ・レイク・ソリューションを設計できます。

アーキテクチャ

このアーキテクチャは、データ・レイクの機能とデータ・ウェアハウスを統合し、幅広いエンタープライズ・データ・リソースからさまざまなタイプのデータを処理します。このアーキテクチャを使用して、OCIのエンドツーエンドのデータ・レイク・アーキテクチャを設計します。

この図は、OracleデータおよびAIサービスの高レベルのアーキテクチャを示しています。

図data-lakes.pngの説明

このアーキテクチャでは、データは次のステージを通過します。

Data Miner
アーキテクチャの各データ・レイヤーで使用するデータを取り込み、絞り込みます。
データ永続性&処理(キュレーティング情報レイヤー)
現在のビジネス・ビューを表示するデータへのアクセスおよびナビゲーションを容易にします。リレーショナル・テクノロジの場合、データは論理的に、または物理的に単純なリレーショナル、縦長、ディメンションまたはOLAP形式で構造化されます。非リレーショナル・データの場合、このレイヤーには、分析プロセスからの出力または特定の分析タスク用に最適化されたデータの1つ以上のデータ・プールが含まれます。
アクセス&解釈
コンシューマ用のデータの論理ビジネス・ビューを要約します。この抽象化により、アジャイル開発、ターゲット・アーキテクチャへの移行、および複数のフェデレーテッド・ソースからの単一のレポート・レイヤーのプロビジョニングが容易になります。

このアーキテクチャには次のコンポーネントがあります。

Big Data Service
Oracle Big Data Service (BDS)は、クラスタにHadoop環境を提供する完全管理の自動クラウド・サービスです。BDSによって、顧客はあらゆる規模のHadoopクラスタを簡単にデプロイでき、Hadoopクラスタの可用性と安全性を高めています。BDSは、Oracleのベスト・プラクティスに基づいて、高可用性とセキュリティを実装し、高度なHadoopスキルの必要性を低減します。BDSは、企業がワークロードをクラウドに移行し、オンプレミス・ソリューションとの互換性を保証するため、一般的に使用されるHadoopコンポーネントを提供します。

Oracle Cloud SQLは使用可能なアドオン・サービスであり、顧客はHDFS、KafkaおよびOracle Object Storageのデータに対してOracle SQL問合せを開始できます。すべてのユーザー、アプリケーションまたはアナリティクス・ツールは、データ・ストアと連携してデータの移動を最小限に抑え、クエリーを高速化できます。BDSはデータ統合、データ・サイエンスおよび分析サービスと相互運用するため、開発者はOracle SQLを使用してデータに簡単にアクセスできます。企業は、データのサイロ化をなくし、データ・レイクを他の企業データ・ソースから隔離しないようにすることができます。
データ・カタログ
Oracle Cloud Infrastructureデータ・カタログは、エンタープライズ・データの完全管理のセルフサービス・データ検出およびガバナンス・ソリューションです。データ・カタログは、分析するデータを検索して検索する機能に不可欠です。データ専門家がデータを検出し、データ・ガバナンスをサポートするサポートをしています。

データ・カタログを単一のコラボレーション環境として使用して、技術メタデータ、ビジネス・メタデータおよび運用メタデータを管理します。パブリックまたはプライベートIPアドレスを使用してアクセス可能な、サポートされている様々なデータ・ソースから技術メタデータを収集できます。このメタデータを整理、検索、アクセス、理解、拡張およびアクティブ化できます。オンデマンドまたはスケジュール・ベースの自動収集を使用して、データ・カタログに常に最新の情報が含まれるようにします。Oracle Cloudのあらゆるセキュリティ、信頼性、パフォーマンス、スケールからメリットを得ることができます。
データ・フロー

Oracle Cloud Infrastructure Data Flowは、Apache Sparkアプリケーションを実行するための完全管理サービスです。データ・フロー・アプリケーションは、Sparkアプリケーション、その依存性、デフォルト・パラメータおよびデフォルトの実行時リソース指定で構成される再利用可能なテンプレートです。データ・フローおよびアプリケーション開発ライフサイクルのすべての側面を管理し、APIゲートウェイおよび使用可能な関数を介してREST APIを使用してApache Sparkジョブを追跡および実行することができます。

データ・フローでは、開発者がアプリケーション開発に集中できるようにすることで、迅速なアプリケーション配信がサポートされます。アプリケーションを実行するためのログ管理およびランタイム環境を提供します。アプリケーションとワークフローを統合し、ユーザー・インタフェースを介してAPIにアクセスできます。インフラストラクチャ、クラスタ・プロビジョニング、ソフトウェアのインストール、ストレージおよびセキュリティの設定が不要になります。
Autonomous Data Warehouse
Oracle Autonomous Data Warehouseは、データ・ウェアハウスのワークロード向けに最適化された、自動運転、自己保護、自己修復型のデータベース・サービスです。ハードウェアの構成や管理、ソフトウェアのインストールを行う必要はありません。Oracle Cloud Infrastructureでは、データベースの作成およびデータベースのバックアップ、パッチ適用、アップグレードおよびチューニングを処理します。
データ統合
Oracle Cloud Infrastructure Data Integrationは、データ・サイエンスおよびアナリティクスのためにデータを取り込んで変換するための、完全に管理されたサーバーレス・クラウド・サービスです。データ統合は、Oracleのデータ・フロー・デザイナでデータ・サイエンスおよび分析のための複雑なデータ抽出、変換およびロード・プロセス(ETL/E-LT)をデータ・レイクおよびウェアハウスに簡素化するのに役立ちます。ルールベースの統合フローにより、自動化されたスキーマ・ドリフト保護機能が提供されます。これにより、データ・スキーマの進化に伴い、統合フローが中断されるのを回避し、メンテナンス作業を削減できます。
データ・サイエンス

Oracle Cloud Infrastructureデータ・サイエンスは、Oracle Cloud Infrastructureで機械学習モデルを作成、トレーニングおよび管理するためのデータ・サイエンティスト用の完全に管理されたサーバーレス・プラットフォームです。データ・サイエンティストは、Oracleによって強化された、自動機械学習(AutoML)、モデル評価およびモデル説明のために拡張されたOracleのAccelerated Data Science (ADS)ライブラリを使用できます。

ADSは、包括的なデータ接続セットを含むPythonライブラリで、データ・サイエンティストは多数の異なるデータ・ストアのデータにアクセスして使用することで、より優れたモデルを生成できます。ADSライブラリは、Oracle独自のAutoMLと、H2O.aiやAuto-Sklearnなどのオープンソース・ツールをサポートしています。

データ・サイエンティストとインフラストラクチャの管理者は、OCI上の高度にスケーラブルなオンデマンドのサーバーレス・アーキテクチャであるOracle Functionsとしてデータ・サイエンス・モデルを簡単にデプロイできます。チーム・メンバーは、モデル・カタログを使用して、完成した機械学習モデルおよび再作成、テストおよびデプロイに必要なアーティファクトを保持および共有できます。

データ・レイクについて

データ・レイクは、RAWデータを格納できるスケーラブルな一元化されたリポジトリで、企業はコスト効率に優れた柔軟な環境ですべてのデータを格納できます。データ・レイクは、RAWデータを格納するための柔軟なストレージ・メカニズムを提供します。データ・レイクを効果的にするには、組織が特定のガバナンス・ニーズ、ワークフローおよびツールを検討する必要があります。これらのコア要素を構築することで、既存のアーキテクチャにシームレスに統合し、ユーザーにデータを簡単に接続できる強力なデータ・レイクが生まれます。

組織は、データ・レイクのクラウド導入に移行する際に次の理由を考慮します。

分析と機械学習を活用して、意思決定までの時間を短縮
データ・サイエンティスト、アナリスト、開発者のためのビッグ・データの収集とマイニング

データ・レイクに格納されている非構造化データを有用なものにするには、分析のために処理して準備する必要があります。広範なデータ・エンジニアリング・リソースがなければ、多くの場合、これは困難です。

次に、オンプレミス・データ・レイクの維持に関する技術的な課題を示します。

先行投資コストと柔軟性不足:組織が独自のオンプレミス・インフラストラクチャを構築する場合は、ハードウェア・インフラストラクチャの計画、調達および管理、サーバーのスピン・アップ、および停止時間の処理を行う必要があります。
継続的なメンテナンス・コスト:オンプレミス・データ・レイクを運用する場合、ほとんどがITおよびエンジニアリング・コストに明らかになり、組織は継続的なメンテナンス・コストを考慮する必要があります。これには、基礎となるハードウェアおよびソフトウェア・インフラストラクチャのパッチ適用、メンテナンス、アップグレードおよびサポートのコストも含まれます。
俊敏性と管理タスクの欠如: IT組織は、リソースをプロビジョニングし、不均等なワークロードを大規模に処理し、急速に変化するコミュニティ主導型のオープンソース・ソフトウェア・イノベーションに遅れをとる必要があります。
データ・パイプラインの構築の複雑性:データ・エンジニアは、バッチETLジョブを取り込み、編成、前処理または調整し、レイクに格納されているデータを問い合せるための幅広いツールの統合の複雑さに対処する必要があります。
スケーラビリティと最適でないリソース使用率:ユーザー・ベースの拡大に伴い、組織はリソース使用率を手動で管理し、オンデマンドでスケール・アップするための追加サーバーを作成する必要があります。HadoopとSparkのほとんどのオンプレミス・デプロイメントでは、コンピュート・リソースとストレージ・リソースを、柔軟性のないモデルを作成する同じサーバーに直接結び付けます。

次に、データ・レイクをクラウドに移行するビジネス・メリットを示します。

エンジニアリング・コストと管理サービスの低下:クラウドベースのツールで事前統合されたデータ・パイプラインをより効率的に構築し、データ・エンジニアリング・コストを削減します。オブジェクト・ストレージや透明性の高いスケーリングを提供するAutonomous Data Warehouse (ADW)などのクラウド・サービスを使用して、スケーリング管理をクラウド・プロバイダに転送します。クラウドベースのデータ・レイクでマシンを追加したりクラスタを管理する必要はありません。
アジャイル・インフラストラクチャと最新のテクノロジを活用:柔軟で俊敏なオンデマンドのクラウド・インフラストラクチャを使用して、新しいユース・ケース向けにデータ・レイクを設計します。アーキテクチャを再設計することなく、最新のテクノロジーにすばやくアップグレードし、新しいクラウド・サービスが使用可能になった時点で追加できます。