Autonomous Databaseでのデータレイクの使用

Autonomous Databaseでデータレイクを使用するメリットをご紹介します。

Autonomous Databaseを使用したデータレイクについて

Oracle Autonomous Databaseは、あらゆるタイプのデータとワークロードに対応するための汎用性の高いソリューションです。

Autonomous Databaseは、JSON、Graph、Vectorなどの多様なデータ型をサポートしながら、オブジェクト・ストアと同等のTBあたりのコスト効率の高いストレージを提供します。Autonomous Databaseを使用すると、企業はデータを単一のプラットフォームに統合できます。Oracle Machine Learning(OML)、Graph、Spatial、Vector、Blockchainなどのコンバージド機能を活用して、データを包括的に管理できます。

すでに他のプラットフォームに既存のデータレイクがある組織の場合、Oracle Autonomous Databaseはシームレスに統合されるため、現在の設定を中断することなく、Autonomous Databaseの高度な機能を活用できます。

さらに学習するには、LiveLabsAutonomous Data Warehouseを使用したデータ・レイクの構築を試してください。

データレイクとは

データレイクは、分析にデータが必要になるまで、膨大な量のRAWデータをネイティブ形式で格納するように設計された一元化されたリポジトリです。

柔軟性と拡張性が高く、組織が構造化データ、半構造化データ、非構造化データなど、様々なタイプのデータを格納および処理できるようにすることで、従来のデータ・ウェアハウスの強力な補完となります。

データ・レイクの主な属性:
  • オープン・ファイル形式および表形式

    データレイクは、CSV、Parquet、Icebergなどのテーブル形式などのオープン・ファイル形式でデータを格納します。これにより、複数のエンジンがこれらのデータセットを書き込み、読み取ることができるようになり、データ処理の相互運用性と柔軟性が確保されます。

  • 複数のデータ処理エンジンのサポート

    データレイクは、Apache Spark、Presto、Hiveなどの様々なデータ処理エンジンと互換性があり、多様な分析ワークロードを可能にします。

  • スキーマ・オン読取り

    多くの場合、データ・レイクはスキーマ・オン・リード・アプローチを使用します。つまり、スキーマを事前に定義する必要はありません。これにより、データを迅速に取り込むことができ、「今すぐデータを取り込み、後で質問する」オブジェクト・ストアと同様に、データを事前に構造化せずにロードできます。

  • 非構造化データのサポート

    構造化データだけでなく、データレイクは、画像(JPG)、ドキュメント(PDF、Word)、その他のバイナリ・データなどの非構造化データを格納し、包括的なストレージ・ソリューションを提供できます。

Autonomous Databaseの主要なデータレイク機能

Oracle Autonomous Databaseは、データレイク・ワークロードをシームレスにサポートするように設計されており、管理やインストールが不要になります。様々なクラウド環境間で様々なデータ形式を処理する堅牢な機能を提供し、柔軟で包括的なデータ分析を実現します。

データレイクのワークロードに対応

Oracle Autonomous Databaseは、データレイク・ワークロードをすぐに使用できる状態で、追加のコンポーネントを必要としません。この準備は、データ変換、メタデータ管理、一般的なデータレイク・ツールとの統合などの主要なデータレイク・タスクにまで及び、これらはすべて追加の設定なしで初日から利用できます。

この包括的なレディネスは、Autonomous Databaseを際立たせ、データレイク・ワークロードのインサイトまでの時間を短縮する、統合された手間のかからないエクスペリエンスを提供します。つまり、ユーザーは設定や構成を行わずにデータ・レイク・タスクの処理をすぐに開始できるため、データ・レイク環境向けの真のプラグ・アンド・プレイ・ソリューションとなります。この組込み機能により、運用が簡素化され、メンテナンス・コストが削減され、より少ないエラーで高い信頼性が保証されます。

Autonomous Databaseは、開発者からビジネス・アナリストまで、すべてのユーザー・タイプに対して一連のツールを提供し、プラットフォームを普遍的かつアクセスできるようにします。

開発者は、高度な操作、スクリプト作成、自動化のためにPL/SQL APIなどのツールを使用できるため、既存のツールとシームレスに統合し、カスタマイズされたデータベース・ソリューションを効率的に作成できます。詳細は、Autonomous Database提供パッケージ・リファレンスを参照してください。

ビジネス・ユーザーには、データ・インタラクション、探索およびビジュアライゼーションを簡素化するためのWebベースのインタフェースであるData Studioを使用できます。Data Studioを使用すると、技術者以外のユーザーは、インサイトの導出、レポートの作成、効果的なコラボレーションによって、複雑さを軽減し、情報に基づいた意思決定をサポートできます。詳細は、Data Studioの概要ページを参照してください。

マルチCloud Support

すでに他のプラットフォームに既存のデータレイクがある組織の場合、Autonomous Databaseはシームレスに統合されるため、現在の設定を中断することなく、Autonomous Databaseの高度な機能を活用できます。

Autonomous Databaseに接続するデータレイクに必要な権限およびアクセス権を付与することで、データレイクへのAutonomous Databaseアクセスを提供します。必要な資格証明を提供すると、Autonomous Databaseは、AWS、Azure、Google Cloud、Oracle OCIオブジェクト・ストアなど、様々なクラウド環境のデータ・レイクにシームレスに接続できます。

この機能により、各クラウド・プロバイダのネイティブ・セキュリティ機能を活用して、データに安全にアクセスし、管理できます。このマルチクラウド・サポートにより、統一されたセキュアな環境を維持しながら、さまざまなクラウド・プラットフォームにまたがってデータレイクをデプロイおよび拡張する柔軟性を得ることができます。

Oracle Autonomous Databaseは、他のクラウドのネイティブ・セキュリティをサポートしています。詳細は、Amazonリソース名(ARN)を使用したAWSリソースへのアクセスAzureサービス・プリンシパルを使用したAzureリソースへのアクセスおよびGoogleサービス・アカウントを使用したGoogle Cloud Platformリソースへのアクセスの対応するクラウド・プラットフォームに関する項を参照してください。

エンドツーエンドのデータ形式のサポート

Oracle Autonomous Databaseは、幅広いデータ形式を処理できる柔軟性を備えて設計されており、多様なデータ・ソースおよびワークロードに対応するユニバーサル・ソリューションとなっています。

データが構造化形式、半構造化形式、非構造化形式のいずれであっても、Autonomous Databaseは様々なクラウド環境でシームレスにサポートします。これにより、フォーマットの互換性を心配することなく、データの取込み、格納および分析を行うことができます。

Autonomous Databaseは、CSVやJSONなどの従来のフォーマット、およびAVRO、Parquet、ORCなどの高度なフォーマットをネイティブでサポートしています。詳細は、Autonomous Databaseでの外部データの問合せを参照してください。Autonomous Databaseでは、CSV、JSON、XML、AVRO、ORC、Parquet、Delta Sharing、Iceberg、Word、PDFのファイル形式がサポートされています。

Iceberg Table形式のサポートが追加されたAutonomous Databaseは、大規模なデータレイク環境向けの拡張機能を提供します。Icebergは、最適化された高パフォーマンスのクエリ、より優れたバージョン管理、より簡単なデータ管理を可能にし、大規模で進化するデータセットに適しています。詳細は、Apache Iceberg表の問合せを参照してください。

拡張機能: 非構造化データ管理のためのAutonomous Database

Oracle Databaseは、構造化データおよび半構造化データの強力な処理で認識されていますが、Autonomous Databaseは、非構造化データセットも処理できるように機能を拡張しています。

これらの機能には、JPG、PDF、Wordドキュメントなどの幅広い形式の管理と分析が含まれます。これらの進歩により、Autonomous Databaseは、非構造化データ・ソースを処理する企業に包括的なソリューションを提供します。
  • 取得拡張生成(RAG)によるAI主導のインサイト: Autonomous Databaseは、高度なAIモデルを統合し、非構造化データのベクトル検索を可能にします。これにより、AIを使用して大量のデータセットにわたって関連情報を効率的に取得できるため、検索の精度とスピードが向上します。詳細は、「取得拡張生成(RAG)を使用したAIの選択」を参照してください。
  • 全文索引付け: Autonomous Databaseでは、非構造化ファイルに対する全文索引の作成がサポートされており、PDF、Wordファイルなどのドキュメントに対して高度なテキスト検索を実行できます。この機能により、非構造化コンテンツの問合せ、索引付けおよび分析方法が大幅に向上します。オブジェクト・ストレージのファイルでの全文検索の使用を参照してください
  • 非構造化データの解析とロード: Autonomous Databaseの拡張された解析およびデータ取込み機能により、ユーザーは非構造化データをシームレスにロードでき、自動的に表形式に変換され、すぐにデータベースにロードできます。詳細は、「イメージからの表抽出の実行」を参照してください。
  • AI as a Source of Data (Prompt-to-Table): AIを活用することで、Autonomous Databaseは迅速なテーブル機能を実現し、ユーザーがAIモデルから直接データを生成して表にロードできるようにします。これにより、AIによって生成された出力から貴重なインサイトを抽出し、構造化データの新しいソースとして使用できるようになります。AIソースからのデータのロードを参照してください

これらの拡張された機能により、Autonomous Databaseは、構造化されていないデータの需要の高まりに対応するための強力なツールとして位置づけられるとともに、AIを活用したソリューションを活用して、最新のデータ課題に対応する汎用性と将来性に優れたプラットフォームとなっています。

柔軟なメタデータ管理

Oracle Autonomous Databaseは、データセットのメタデータを定義する様々な方法を提供し、データ管理をより適応性と効率よくします。

  • カタログベースのメタデータ統合

    ユーザーは、様々なカタログからメタデータを一元化されたビューに取り込むことができるため、組織全体でのデータの一貫性の制御と維持が容易になります。サポートされているカタログは次のとおりです。

    • OCIデータ・カタログ: Oracle Cloud Infrastructure (OCI)内のツールで、ユーザーがデータ・アセットを検出、編成および管理するのに役立ちます。すべてのデータ・アセットを明確に把握できるため、ユーザーはコンプライアンスを維持し、データ品質を確保し、チーム間のコラボレーションを促進できます。詳細は、例: MovieStreamシナリオを参照してください。

    • AWS Glue: メタデータを編成および管理するためのデータ・カタログを含む、Amazon Web Servicesからの管理対象ETL (抽出、変換、ロード)サービス。詳細は、「AWS Glueデータ・カタログを使用した外部データの問合せ」を参照してください。

  • 手動メタデータ定義

    ユーザーは、Oracle Cloud Infrastructure (OCI) Object StorageやAmazon S3などのオブジェクト・ストア内のデータセットに対して、表レベルでメタデータを直接定義することもできます。これにより、ユーザー要件に合わせて、個々のファイルまたはファイル・グループのデータをカスタマイズして編成できます。また、Autonomous Databaseでは、列名やデータ型などのメタデータを自動的に推測して、時間を節約し、エラーを削減することもできます。たとえば、CSVファイルのアップロード時に、ヘッダーを列名として自動的に検出し、コンテンツに基づいて数値やvarchar2などの適切なデータ型を割り当てることができます。これにより、ユーザーは手作業なしでデータを分析用に迅速に準備できるため、設定時間を短縮し、エラーの可能性を最小限に抑えることができます。

フェデレーテッド・メタデータのサポート

Autonomous Databaseでは、フェデレーテッド・メタデータ・カタログがサポートされており、ユーザーは様々なソースからのメタデータを単一のビューに統合して、メタデータ管理のための統合インタフェースを提供できます。

このアプローチでは、複数のクラウドおよびプラットフォーム間でデータ・ソースを接続することで、様々な環境でのメタデータ管理を簡素化します。カタログベースのメタデータを使用するか、手動で定義するかに関係なく、すべての情報を統合カタログで使用して、簡単に参照できます。たとえば、組織はこのフェデレーテッド・ビューを使用して、AWSとOracle Cloudの両方のデータ・アセットを管理し、プラットフォーム全体で一貫したガバナンスと発見性を確保できます。

Collaboration

ユーザーは分析を終了した後、多くの場合、他のユーザーと結果を共有する必要があります。Oracle Autonomous Databaseは、いくつかのコラボレーション方法を提供することで、共有を容易にします。これにより、統合セキュリティ機能、オープン・プロトコル、シームレスなクラウド接続など、他のデータベースよりも独自のメリットが得られます。

これらのオプションは柔軟性と安全性を確保するため、異なるコラボレーション・ニーズに適合します。

  • デルタ共有プロトコル: これにより、デルタ共有と呼ばれるオープン・プロトコルを使用して、Oracleの外部でデータを共有できます。複雑な統合を必要とせずに、外部パートナーとの安全なデータ共有をサポートし、クロスクラウドおよびクロスプラットフォーム分析に最適です。このようにして、Oracleの一部ではない様々な分析ツールでデータをスムーズに使用できます。詳細は、オブジェクト・ストレージを使用したデータ・バージョンの共有を参照してください。

  • クラウド・リンク: セキュアなクラウド・リンクを使用して、異なるAutonomous Databaseインスタンス間でデータを共有できます。たとえば、クラウド・リンクは、異なるデータベースの接続に特に有効です。これにより、一貫したデータ可用性が確保され、複数のデータベースにわたるデータへの迅速かつ信頼性の高いアクセスを必要とするアプリケーションのレイテンシが軽減されます。コピーや複製は必要ありません。広がり、連携が必要なチームのコラボレーションを円滑に維持します。「直接接続を使用したライブ・データの共有」を参照してください

  • 表のハイパーリンク: 個別のログインを必要とせずにデータへのアクセス権を付与する特別なURLを作成することで、データを直接共有できます。ユーザーは、これらのURLの権限を制御し、有効期限を設定できるため、安全で柔軟な共有オプションを確保できます。この機能は、RESTクライアント専用に構築されています。詳細は、「表またはビューの表ハイパーリンクの生成」を参照してください。

Oracle Databaseのツールとの幅広い互換性

Autonomous Database環境は、様々なOracleデータベース・ツールと完全に互換性があります。

データ視覚化、分析、ETL、管理など、Oracleデータベースとの対話にすでに使用しているあらゆるツールも、シームレスに活用してAutonomous Database内のデータセットを分析できます。この互換性により、摩擦のないエクスペリエンスが確保されるため、ユーザーは新しいツールやプロセスを導入することなく、Autonomous Databaseを既存のワークフローに統合できるため、効率を最大化し、学習曲線を削減できます。

Oracleデータベースで使用できるいくつかのツールの詳細は、Data Studioの「概要」ページを参照してください。