Data LakeをAutonomous Databaseとともに使用
Autonomous DatabaseでData Lakeを使用する利点について学習します。
- Autonomous Databaseを使用したData Lakeについて
Oracle Autonomous Databaseは、あらゆるタイプのデータおよびワークロードに対応するための汎用性の高いソリューションです。 - Data Lakeとは何ですか。
データ・レイクは、分析にデータが必要になるまで、膨大な量のRAWデータをネイティブ形式で格納するように設計された一元化されたリポジトリです。 - Autonomous Databaseの主なData Lake機能
Oracle Autonomous Databaseは、データ・レイクのワークロードをシームレスにサポートし、管理やインストールが不要になるように設計されています。 さまざまなクラウド環境にわたってさまざまなデータ形式を処理する堅牢な機能を提供し、柔軟で包括的なデータ分析を実現します。
親トピック: 機能
Autonomous Databaseを使用したData Lakeについて
Oracle Autonomous Databaseは、あらゆるタイプのデータおよびワークロードに対応するための汎用性の高いソリューションです。
Autonomous Databaseは、JSON、Graph、Vectorなどの多様なデータ型をサポートしながら、オブジェクト・ストアに匹敵するTB当たりのコストでコスト効率の高いストレージを提供します。 Autonomous Databaseを使用すると、企業はデータを単一のプラットフォームに統合できます。 Oracle Machine Learning (OML)、Graph、Spatial、Vector、Blockchainなどのコンバージド機能を活用して、データを包括的に管理できます。
すでに他のプラットフォームに既存のデータ・レイクがある組織の場合、Oracle Autonomous Databaseはシームレスに統合されるため、企業は、現在の設定を中断することなく、Autonomous Databaseの高度な機能を活用できます。
さらに学習するには、LiveLabs 「Autonomous Data Warehouseを使用したData Lakeの構築」を試してください。
Data Lakeとは何ですか。
データ・レイクは、分析にデータが必要になるまで、膨大な量のRAWデータをネイティブ形式で格納するように設計された一元化されたリポジトリです。
柔軟性と拡張性に優れ、組織が構造化、半構造化、非構造化など、さまざまなタイプのデータを格納および処理できるようにすることで、従来のデータ・ウェアハウスを強力に補完します。
-
ファイル形式と表形式を開く
データ・レイクは、CSV、Parquetなどのオープン・ファイル形式、およびIcebergなどの表形式でデータを格納します。 これにより、複数のエンジンがこれらのデータセットを書き込んで読み取ることができるようになり、データ処理の相互運用性と柔軟性が確保されます。
-
複数のデータ処理エンジンのサポート
データ・レイクは、Apache Spark、Presto、Hiveなどのさまざまなデータ処理エンジンと互換性があり、さまざまなアナリティク・ワークロードを可能にします。
-
スキーマ・オン・リード
データ・レイクでは、スキーマ・オン・リード・アプローチを使用することがよくあります。つまり、スキーマを事前に定義する必要はありません。 これにより、「データを今すぐ取得し、後で質問する」オブジェクト・ストアと同様に、データを事前に構造化せずにロードできる迅速なデータ取込みが可能になります。
-
非構造化データのサポート
データ・レイクは、構造化データだけでなく、イメージ(JPG)、ドキュメント(PDF、Word)、その他のバイナリ・データなどの非構造化データを格納して、包括的なストレージ・ソリューションを提供できます。
Autonomous Databaseの主なData Lake機能
Oracle Autonomous Databaseは、データ・レイクのワークロードをシームレスにサポートし、管理やインストールが不要になるように設計されています。 さまざまなクラウド環境にわたってさまざまなデータ形式を処理する堅牢な機能を提供し、柔軟で包括的なデータ分析を実現します。
- Data Lakeワークロードに対応
Oracle Autonomous Databaseは、すぐに使えるデータ・レイク・ワークロードに対応しており、追加コンポーネントを必要としません。 この準備は、データ変換、メタデータ管理、一般的なデータ・レイク・ツールとの統合などの主要なデータ・レイク・タスクにまで及びます。これらはすべて、追加の設定なしで初日から利用できます。 - マルチクラウド・サポート
すでに他のプラットフォームに既存のデータ・レイクがある組織の場合、Autonomous Databaseはシームレスに統合されるため、企業は現在の設定を中断することなく、Autonomous Databaseの高度な機能を活用できます。 - エンド・ツー・エンドのデータ形式のサポート
Oracle Autonomous Databaseは、幅広いデータ形式に対応できる柔軟性を備えて設計されており、多様なデータ・ソースおよびワークロードに対応するユニバーサル・ソリューションとなっています。 - 機能強化: Autonomous Database:非構造化データ管理用
Oracle Databaseは、構造化データおよび半構造化データの強力な処理で認識されますが、Autonomous Databaseは、非構造化データセットも処理できるようにその機能を拡張します。 - 柔軟なメタデータ管理
Oracle Autonomous Databaseは、データセットのメタデータを定義する様々な方法を提供し、データ管理の適応性と効率性を高めます。 - フェデレーテッド・メタデータのサポート
Autonomous Databaseは、フェデレーテッド・メタデータ・カタログをサポートしているため、ユーザーは様々なソースのメタデータを単一のビューに統合でき、メタデータ管理用の統合インタフェースが提供されます。 - コラボレーション
ユーザーが分析を完了した後は、多くの場合、他のユーザーと結果を共有する必要があります。 Oracle Autonomous Databaseは、コラボレーションのいくつかの方法を提供し、統合セキュリティ機能、オープン・プロトコル、シームレスなクラウド接続など、他のデータベースと比べて独自の利点を提供することで、共有を容易にします。 - Oracle Databaseツールとの広範な互換性
Autonomous Database環境は、様々なOracleデータベース・ツールと完全に互換性があります。
Data Lakeワークロードに対応
Oracle Autonomous Databaseは、すぐに使えるデータ・レイク・ワークロードに対応しており、追加コンポーネントを必要としません。 この準備は、データ変換、メタデータ管理、一般的なデータ・レイク・ツールとの統合などの主要なデータ・レイク・タスクにまで及びます。これらはすべて、追加の設定なしで初日から利用できます。
この包括的な準備は、Autonomous Databaseを際立たせ、データ・レイク・ワークロードのインサイトまでの時間を短縮する統合的で手間のかからないエクスペリエンスを提供します。 つまり、ユーザーは設定や構成を行わずにすぐにデータ・レイク・タスクの処理を開始できるため、データ・レイク環境向けの真のプラグ・アンド・プレイ・ソリューションとなります。 この組込み機能により、運用が簡素化され、メンテナンス・コストが削減され、エラーを減らして信頼性が向上します。
Autonomous Databaseは、開発者からビジネス・アナリストまで、すべてのユーザー・タイプ用のツール・セットを提供し、プラットフォームを汎用的かつアクセス可能にします。
開発者は、高度な操作、スクリプト作成、自動化にPL/SQL APIなどのツールを使用できるため、既存のツールとのシームレスな統合や、カスタマイズされたデータベース・ソリューションの効率的な作成が可能になります。 詳細については、「Autonomous Database提供パッケージ参照」を参照してください。
ビジネス・ユーザーにとって、Data Studioは、データ・インタラクション、探索およびビジュアライゼーションを簡素化するwebベースのインタフェースとして使用できます。 Data Studioを使用すると、非技術ユーザーがインサイトを導き出し、レポートを作成し、効果的にコラボレーションできるため、複雑さが軽減され、情報に基づいたディシジョンがサポートされます。 詳細については、Data Studioの「概要」ページを参照してください。
マルチクラウド・サポート
すでに他のプラットフォームに既存のデータ・レイクがある組織の場合、Autonomous Databaseはシームレスに統合されるため、企業は現在の設定を中断することなく、Autonomous Databaseの高度な機能を活用できます。
Autonomous Databaseに接続するために必要な権限とアクセスをデータ・レイクに付与することで、データ・レイクへのAutonomous Databaseアクセスを提供します。 必要な資格証明を指定すると、Autonomous Databaseは、AWS、Azure、Google Cloud、Oracle OCIオブジェクト・ストアなどの様々なクラウド環境のデータ・レイクにシームレスに接続できます。
この機能により、各クラウド・プロバイダのネイティブ・セキュリティ機能を利用して、データに安全にアクセスして管理できます。 このマルチ・クラウド・サポートにより、統一されたセキュアな環境を維持しながら、さまざまなクラウド・プラットフォームにまたがってデータ・レイクをデプロイおよび拡張できる柔軟性が得られます。
Oracle Autonomous Databaseは、他のクラウドのネイティブ・セキュリティをサポートしています。詳細は、対応するクラウド・プラットフォームについて、「Amazonリソース名(ARN)を使用したAWSリソースへのアクセス」、「Azureサービス・プリンシパルを使用したAzureリソースへのアクセス」および「Googleサービス・アカウントを使用したGoogle Cloud Platformリソースへのアクセス」を参照してください。
エンド・ツー・エンドのデータ形式のサポート
Oracle Autonomous Databaseは、幅広いデータ形式に対応できる柔軟性を備えて設計されており、多様なデータ・ソースおよびワークロードに対応するユニバーサル・ソリューションとなっています。
データが構造化形式、半構造化形式、非構造化形式のいずれであっても、Autonomous Databaseは様々なクラウド環境にわたってシームレスにデータをサポートします。 これにより、企業はフォーマットの互換性を気にすることなく、データの取込み、格納および分析を行うことができます。
Autonomous Databaseは、CSVやJSONなどの従来の形式、およびAVRO、Parquet、ORCなどの高度な形式をネイティブでサポートします。 詳細については、「Autonomous Databaseを使用した外部データの問合せ」を参照してください。 Autonomous Databaseは、次のファイル形式をサポートしています: CSV、JSON、XML、AVRO、ORC、Parquet、Delta Sharing、Iceberg、Word、PDF。
「Iceberg表」形式の追加サポートにより、Autonomous Databaseは大規模なデータ・レイク環境の拡張機能を提供します。 Icebergは、最適化された高パフォーマンスの問合せ、優れたバージョン管理、簡単なデータ管理を可能にし、大規模で進化するデータセットに適しています。 詳細については、「Apache Iceberg表の問合せ」を参照してください。
機能強化: Autonomous Database:非構造化データ管理用
Oracle Databaseは、構造化データおよび半構造化データの強力な処理で認識されますが、Autonomous Databaseは、非構造化データセットも処理できるようにその機能を拡張します。
- 検索拡張生成(RAG)によるAI主導のインサイト: Autonomous Databaseは、高度なAIモデルを統合し、非構造化データのベクトル検索を可能にします。 これにより、AIを使用して大規模なデータセット全体で関連情報を効率的に取得できるため、検索の精度とスピードが向上します。 詳細については、検索拡張生成(RAG)でのSelect AIを参照してください。
- 全文索引付け: Autonomous Databaseでは、非構造化ファイルに対する全文索引の作成がサポートされるため、PDF、Wordファイルなどのドキュメントに対して高度なテキスト検索を実行できます。 この機能により、非構造化コンテンツを問い合せ、索引付けおよび分析する方法が大幅に改善されます。 「オブジェクト・ストレージのファイルに対する全文検索の使用」を参照してください
- 非構造化データの解析およびロード: Autonomous Databaseの強化された解析機能およびデータ取込み機能により、ユーザーは非構造化データをシームレスにロードでき、自動的に表形式に変換されて、データベースにロードできます。 詳細については、「イメージからの表抽出の実行」を参照してください。
- データのソースとしてのAI(プロンプトから表へ): AIを活用することで、Autonomous Databaseは迅速な表作成機能を実現し、ユーザーはAIモデルから直接データを生成して表にロードできます。 これにより、AIによって生成された出力から貴重なインサイトを抽出し、構造化データの新しいソースとして使用する可能性が広がります。 「AIソースからのデータのロード」を参照してください
これらの拡張機能は、Autonomous Databaseを非構造化データの需要の高まりに対応するための強力なツールとして位置付け、AIを活用したソリューションを活用することで、最新のデータ課題に対応する汎用性と将来に対応したプラットフォームとなっています。
柔軟なメタデータ管理
Oracle Autonomous Databaseは、データセットのメタデータを定義する様々な方法を提供し、データ管理の適応性と効率性を高めます。
- カタログベースのメタデータ統合
ユーザーは、様々なカタログのメタデータを一元化されたビューにすることで、組織全体のデータの一貫性を簡単に制御および維持できます。 サポートされているカタログは次のとおりです:
-
OCIデータ・カタログ: ユーザーがデータ・アセットを検出、編成および管理するのに役立つ、Oracle Cloud Infrastructure (OCI)内のツール。 すべてのデータ資産を明確に把握できるため、ユーザーはコンプライアンスを維持し、データ品質を確保し、チーム間のコラボレーションを促進できます。 詳細については、「例: MovieStreamシナリオ」を参照してください。
-
AWSグルー: メタデータを編成および管理するためのデータ・カタログを含む、Amazon Web Servicesからの管理対象ETL (抽出、変換、ロード)サービス。 詳細については、「AWS Glueデータ・カタログを使用した外部データの問合せ」を参照してください。
-
- 手動メタデータ定義
ユーザーは、Oracle Cloud Infrastructure (OCI) Object StorageやAmazon S3などのオブジェクト・ストア内のデータセットに対して、表レベルでメタデータを直接定義することもできます。 これにより、ユーザー要件に合わせて、個々のファイルまたはファイル・グループのデータをカスタマイズして編成できます。 Autonomous Databaseは、列名やデータ型などのメタデータを自動的に推測して、時間を節約し、エラーを削減することもできます。 たとえば、CSVファイルをアップロードすると、ヘッダーが列名として自動的に検出され、コンテンツに基づいて番号やvarchar2などの適切なデータ型を割り当てることができます。 これにより、ユーザーは手作業なしで分析のためにデータを迅速に準備できるため、設定時間が短縮され、エラーの可能性が最小限に抑えられます。
フェデレーテッド・メタデータのサポート
Autonomous Databaseは、フェデレーテッド・メタデータ・カタログをサポートしているため、ユーザーは様々なソースのメタデータを単一のビューに統合でき、メタデータ管理用の統合インタフェースが提供されます。
このアプローチにより、複数のクラウドおよびプラットフォームにまたがるデータ・ソースを接続することで、様々な環境にわたるメタデータ管理が簡素化されます。 カタログベースのメタデータを使用するか、手動で定義するかに関係なく、すべての情報を統合カタログで簡単に参照できます。 たとえば、組織は、このフェデレーテッド・ビューを使用してAWSとOracle Cloudの両方からデータ・アセットを管理し、プラットフォーム間で一貫したガバナンスと検出性を確保できます。
コラボレーション
ユーザーが分析を完了した後は、多くの場合、他のユーザーと結果を共有する必要があります。 Oracle Autonomous Databaseは、コラボレーションのいくつかの方法を提供し、統合セキュリティ機能、オープン・プロトコル、シームレスなクラウド接続など、他のデータベースと比べて独自の利点を提供することで、共有を容易にします。
これらのオプションは柔軟で安全であるため、さまざまなコラボレーションのニーズに適合します:
-
デルタ共有プロトコル: これにより、Delta Sharingというオープン・プロトコルを使用して、Oracleの外部でデータを共有できます。 複雑な統合を必要とせずに、外部パートナとの安全なデータ共有をサポートし、クロス・クラウドおよびクロス・プラットフォーム・アナリティクスに最適です。 これにより、Oracleに含まれていない様々なアナリティクス・ツールでデータをスムーズに使用できます。 詳細については、「オブジェクト・ストレージを使用したデータ・バージョンの共有」を参照してください。
-
クラウド・リンク: セキュアなクラウド・リンクを使用して、異なるAutonomous Databaseインスタンス間でデータを共有できます。 たとえば、クラウド・リンクは、様々なデータベースの接続に特に有効です。 これにより、データの一貫した可用性が確保され、コピーや複製を必要とせずに、複数のデータベースのデータに迅速かつ信頼性の高いアクセスを必要とするアプリケーションのレイテンシが削減されます。 広がり、連携する必要があるチームのコラボレーションをスムーズに維持します。 「直接接続を使用したライブ・データの共有」を参照してください
-
表ハイパーリンク: データを直接共有するには、個別のログインを必要とせずにデータへのアクセス権を付与する特別なURLを作成します。 ユーザーは、権限を制御し、これらのURLの有効期限を設定できるため、安全で柔軟な共有オプションを確保できます。 この機能は、RESTクライアント用に特別に構築されています。 詳細については、「表またはビューの表ハイパーリンクの生成」を参照してください。
Oracle Databaseツールとの広範な互換性
Autonomous Database環境は、様々なOracleデータベース・ツールと完全に互換性があります。
データの可視化、アナリティクス、ETL、管理など、Oracleデータベースとの対話にすでに使用しているツールも、シームレスに活用してAutonomous Database内のデータセットをアナリティクスできます。 この互換性により、スムーズなエクスペリエンスが保証され、ユーザーは新しいツールやプロセスを採用する必要なく、Autonomous Databaseを既存のワークフローに統合できるため、効率が最大になり、学習曲線が短縮されます。
Oracleデータベースで使用できるいくつかのツールについては、Data Studioの「概要」ページを参照してください。