Autonomous AI Databaseでレイクハウスを使用
Autonomous AI Databaseでレイクハウスを使用するメリットをご紹介します。
- Autonomous AI Databaseを使用したレイクハウスについて
Oracle Autonomous AI Databaseは、あらゆるタイプのデータとワークロードに対応するための汎用性の高いソリューションです。 - レイクハウスとは
レイクハウスは、分析にデータが必要になるまで、膨大な量のRAWデータをネイティブ形式で格納するように設計された一元化されたリポジトリです。 - Autonomous AI Databaseの主要なレイクハウスの機能
Oracle Autonomous AI Databaseは、レイクハウスのワークロードをシームレスにサポートし、管理やインストールの必要性を排除するように設計されています。 さまざまなクラウド環境にわたってさまざまなデータ形式を処理する堅牢な機能を提供し、柔軟で包括的なデータ分析を実現します。
親トピック: 機能
Autonomous AI Databaseを使用したレイクハウスについて
Oracle Autonomous AI Databaseは、あらゆるタイプのデータとワークロードに対応するための汎用性の高いソリューションです。
Autonomous AI Databaseは、JSON、Graph、Vectorなどの多様なデータ型をサポートしながら、オブジェクト・ストアと同等のTBあたりのコスト効率の高いストレージを提供します。 Autonomous AI Databaseを使用すると、企業はデータを単一のプラットフォームに統合できます。 Oracle Machine Learning (OML)、Graph、Spatial、Vector、Blockchainなどのコンバージド機能を活用して、データを包括的に管理できます。
すでに他のプラットフォームに既存のレイクハウスがある組織の場合、Oracle Autonomous AI Databaseはシームレスに統合されるため、企業は現在の設定を中断することなく、Autonomous AI Databaseの高度な機能の恩恵を受けることができます。
詳細は、LiveLabs 「Autonomous AI Lakehouseによるレイクハウスの構築」をご覧ください。
レイクハウスとは
レイクハウスは、分析にデータが必要になるまで、膨大な量のRAWデータをネイティブ形式で格納するように設計された一元化されたリポジトリです。
柔軟性と拡張性が高いため、組織は構造化、半構造化、非構造化など、様々なタイプのデータを格納および処理できるため、従来のレイクハウスの強力な補完となります。
-
ファイル形式と表形式を開く
レイクハウスは、CSV、Parquet、Icebergなどのテーブル形式などのオープン・ファイル形式でデータを格納します。 これにより、複数のエンジンがこれらのデータセットを書き込んで読み取ることができるようになり、データ処理の相互運用性と柔軟性が確保されます。
-
複数のデータ処理エンジンのサポート
レイクハウスは、Apache Spark、Presto、Hiveなどの様々なデータ処理エンジンと互換性があり、多様な分析ワークロードを可能にします。
-
スキーマ・オン・リード
レイクハウスは、多くの場合、スキーマ・オン・リード・アプローチを使用します。つまり、事前にスキーマを定義する必要はありません。 これにより、「データを今すぐ取得し、後で質問する」オブジェクト・ストアと同様に、データを事前に構造化せずにロードできる迅速なデータ取込みが可能になります。
-
非構造化データのサポート
レイクハウスは、構造化データだけでなく、画像(JPG)、ドキュメント(PDF、Word)、その他のバイナリ・データなどの非構造化データを格納し、包括的なストレージ・ソリューションを提供できます。
Autonomous AI Databaseのレイクハウスの主な機能
Oracle Autonomous AI Databaseは、レイクハウスのワークロードをシームレスにサポートするように設計されており、管理やインストールが不要になります。 さまざまなクラウド環境にわたってさまざまなデータ形式を処理する堅牢な機能を提供し、柔軟で包括的なデータ分析を実現します。
- レイクハウス・ワークロードに対応
Oracle Autonomous AI Databaseは、レイクハウス・ワークロードをすぐに使用できる状態で、追加コンポーネントを必要としません。 この準備は、データ変換、メタデータ管理、一般的なレイクハウス・ツールとの統合などの主要なレイクハウス・タスクにまで及びます。これらはすべて、追加の設定なしで初日から利用できます。 - マルチCloud Support
すでに他のプラットフォームに既存のレイクハウスがある組織の場合、Autonomous AI Databaseはシームレスに統合されるため、企業は現在の設定を中断することなく、Autonomous AI Databaseの高度な機能を活用できます。 - エンドツーエンドのデータ形式のサポート
Oracle Autonomous AI Databaseは、幅広いデータ形式を柔軟に処理できるように設計されており、多様なデータ・ソースおよびワークロードに対するユニバーサル・ソリューションとなっています。 - 機能強化: 非構造化データ管理のためのAutonomous AI Database
Oracle Databaseは、構造化データおよび半構造化データの強力な処理で認識されていますが、Autonomous AI Databaseは、非構造化データセットも処理できるように機能を拡張しています。 - 柔軟なメタデータ管理
Oracle Autonomous AI Databaseでは、データセットのメタデータを定義する様々な方法がユーザーに提供され、データ管理の適応性と効率が向上します。 - フェデレーテッド・メタデータのサポート
Autonomous AI Databaseでは、フェデレーテッド・メタデータ・カタログがサポートされており、ユーザーは様々なソースから単一のビューにメタデータを統合できるため、メタデータ管理のための統合インタフェースが提供されます。 - コラボレーション
ユーザーが分析を完了した後は、多くの場合、他のユーザーと結果を共有する必要があります。 Oracle Autonomous AI Databaseでは、複数のコラボレーション方法を提供し、統合セキュリティ機能、オープン・プロトコル、シームレスなクラウド接続など、他のデータベースよりも独自の利点をもたらすことで、共有が容易になります。 - Oracle Databaseツールとの広範な互換性
Autonomous AI Database環境は、様々なOracleデータベース・ツールと完全に互換性があります。 - パフォーマンス
Autonomous AI Databaseには、オブジェクト・ストアに格納されているデータの問合せと、Apache Icebergなどのオープン・テーブル・フォーマットの利用専用に設計された多数の最適化が含まれています。
レイクハウスのワークロードに対応
Oracle Autonomous AI Databaseは、レイクハウス・ワークロードをすぐに使用できる状態で、追加コンポーネントを必要としません。 この準備は、データ変換、メタデータ管理、一般的なレイクハウス・ツールとの統合などの主要なレイクハウス・タスクにまで及びます。これらはすべて、追加の設定なしで初日から利用できます。
この包括的なレディネスは、Autonomous AI Databaseを際立たせ、レイクハウスのワークロードのインサイトまでの時間を短縮する、統合された手間のかからないエクスペリエンスを提供します。 つまり、ユーザーは設定や構成を行わずにレイクハウス・タスクの処理をすぐに開始できるため、レイクハウス環境向けの真のプラグ・アンド・プレイ・ソリューションとなります。 この組込み機能により、運用が簡素化され、メンテナンス・コストが削減され、エラーを減らして信頼性が向上します。
Autonomous AI Databaseは、開発者からビジネス・アナリストまで、すべてのユーザー・タイプに対応する一連のツールを提供し、プラットフォームを普遍的かつアクセスできるようにします。
開発者は、高度な操作、スクリプト作成、自動化にPL/SQL APIなどのツールを使用できるため、既存のツールとのシームレスな統合や、カスタマイズされたデータベース・ソリューションの効率的な作成が可能になります。 詳細は、Autonomous AI Databaseが提供するパッケージ・リファレンスを参照してください。
ビジネス・ユーザーにとって、Data Studioは、データ・インタラクション、探索およびビジュアライゼーションを簡素化するwebベースのインタフェースとして使用できます。 Data Studioを使用すると、非技術ユーザーがインサイトを導き出し、レポートを作成し、効果的にコラボレーションできるため、複雑さが軽減され、情報に基づいたディシジョンがサポートされます。 詳細については、Data Studioの「概要」ページを参照してください。
マルチクラウド・サポート
すでに他のプラットフォームに既存のレイクハウスがある組織の場合、Autonomous AI Databaseはシームレスに統合されるため、企業は現在の設定を中断することなく、Autonomous AI Databaseの高度な機能の恩恵を受けることができます。
レイクハウスがAutonomous AI Databaseに接続するために必要な権限およびアクセス権を付与することで、Autonomous AI Databaseにレイクハウスへのアクセス権を提供します。 必要な資格情報を提供すると、Autonomous AI Databaseは、AWS、Azure、Google Cloud、Oracle OCIオブジェクト・ストアなどの様々なクラウド環境でレイクハウスにシームレスに接続できます。
この機能により、各クラウド・プロバイダのネイティブ・セキュリティ機能を利用して、データに安全にアクセスして管理できます。 このマルチクラウド・サポートにより、統合された安全な環境を維持しながら、さまざまなクラウド・プラットフォームにまたがってレイクハウスを導入および拡張する柔軟性を得ることができます。
Oracle Autonomous AI Databaseでは、他のクラウドのネイティブ・セキュリティがサポートされます。詳細は、「Amazonリソース名(ARN)を使用したAWSリソースへのアクセス」、「Azureサービス・プリンシパルを使用したAzureリソースへのアクセス」および「Googleサービス・アカウントを使用したGoogle Cloudプラットフォーム・リソースへのアクセス」を参照してください。
エンド・ツー・エンドのデータ形式のサポート
Oracle Autonomous AI Databaseは、幅広いデータ形式に対応できる柔軟性を備えて設計されており、多様なデータ・ソースおよびワークロードに対応するユニバーサル・ソリューションとなっています。
データが構造化形式、半構造化形式、非構造化形式のいずれであっても、Autonomous AI Databaseは、様々なクラウド環境間でシームレスにデータをサポートします。 これにより、企業はフォーマットの互換性を気にすることなく、データの取込み、格納および分析を行うことができます。
Autonomous AI Databaseは、CSVやJSONなどの従来のフォーマット、およびAVRO、Parquet、ORCなどの高度なフォーマットをネイティブでサポートします。 詳細は、Autonomous AI Databaseを使用した外部データの問合せを参照してください。 Autonomous AI Databaseでは、CSV、JSON、XML、AVRO、ORC、Parquet、Delta Sharing、Iceberg、Word、PDFのファイル形式がサポートされています。
Iceberg Tableフォーマットのサポートが追加されたAutonomous AI Databaseは、大規模なレイクハウス環境向けの拡張機能を提供します。 Icebergは、最適化された高パフォーマンスの問合せ、優れたバージョン管理、簡単なデータ管理を可能にし、大規模で進化するデータセットに適しています。 詳細については、「Apache Iceberg表の問合せ」を参照してください。
機能強化: 非構造化データ管理のためのAutonomous AI Database
Oracle Databaseは、構造化データおよび半構造化データの強力な処理で認識されていますが、Autonomous AI Databaseは、非構造化データセットも処理できるように機能を拡張しています。
- 取得拡張生成(RAG)によるAI主導のインサイト: Autonomous AI Databaseは、高度なAIモデルを統合し、非構造化データのベクトル検索を可能にします。 これにより、AIを使用して大規模なデータセット全体で関連情報を効率的に取得できるため、検索の精度とスピードが向上します。 詳細については、検索拡張生成(RAG)でのSelect AIを参照してください。
- 全文索引付け: Autonomous AI Databaseでは、非構造化ファイルに対する全文索引の作成がサポートされており、PDF、Wordファイルなどのドキュメントに対して高度なテキスト検索を実行できます。 この機能により、非構造化コンテンツを問い合せ、索引付けおよび分析する方法が大幅に改善されます。 「オブジェクト・ストレージのファイルに対する全文検索の使用」を参照してください
- 非構造化データの解析とロード: Autonomous AI Databaseの拡張された解析およびデータ取込み機能により、ユーザーは非構造化データをシームレスにロードでき、自動的に表形式に変換され、すぐにデータベースにロードできます。 詳細については、「イメージからの表抽出の実行」を参照してください。
- AI as a Source of Data (Prompt-to-Table): AIを活用することで、Autonomous AI Databaseは、ユーザーがAIモデルから直接データを生成し、テーブルにロードできるように、迅速なテーブル機能を提供します。 これにより、AIによって生成された出力から貴重なインサイトを抽出し、構造化データの新しいソースとして使用する可能性が広がります。 「AIソースからのデータのロード」を参照してください
これらの拡張された機能により、Autonomous AI Databaseは、構造化されていないデータの需要の高まりに対応するための強力なツールとして位置づけられ、AIを活用したソリューションを活用することで、最新のデータ課題に対する汎用性と将来性に優れたプラットフォームとなっています。
柔軟なメタデータ管理
Oracle Autonomous AI Databaseでは、データセットのメタデータを定義する様々な方法がユーザーに提供されるため、データ管理の適応性が向上し、効率が向上します。
- カタログベースのメタデータ統合
ユーザーは、様々なカタログのメタデータを一元化されたビューにすることで、組織全体のデータの一貫性を簡単に制御および維持できます。 サポートされているカタログは次のとおりです:
-
OCIデータ・カタログ: ユーザーがデータ・アセットを検出、編成および管理するのに役立つ、Oracle Cloud Infrastructure (OCI)内のツール。 すべてのデータ資産を明確に把握できるため、ユーザーはコンプライアンスを維持し、データ品質を確保し、チーム間のコラボレーションを促進できます。 詳細については、「例: MovieStreamシナリオ」を参照してください。
-
AWSグルー: メタデータを編成および管理するためのデータ・カタログを含む、Amazon Web Servicesからの管理対象ETL (抽出、変換、ロード)サービス。 詳細については、「AWS Glueデータ・カタログを使用した外部データの問合せ」を参照してください。
-
- 手動メタデータ定義
ユーザーは、Oracle Cloud Infrastructure (OCI) Object StorageやAmazon S3などのオブジェクト・ストア内のデータセットに対して、表レベルでメタデータを直接定義することもできます。 これにより、ユーザー要件に合わせて、個々のファイルまたはファイル・グループのデータをカスタマイズして編成できます。 Autonomous AI Databaseでは、列名やデータ型などのメタデータを自動的に推測して、時間を節約し、エラーを削減することもできます。 たとえば、CSVファイルをアップロードすると、ヘッダーが列名として自動的に検出され、コンテンツに基づいて番号やvarchar2などの適切なデータ型を割り当てることができます。 これにより、ユーザーは手作業なしで分析のためにデータを迅速に準備できるため、設定時間が短縮され、エラーの可能性が最小限に抑えられます。
フェデレーテッド・メタデータのサポート
Autonomous AI Databaseでは、フェデレーテッド・メタデータ・カタログがサポートされており、ユーザーは様々なソースからのメタデータを単一のビューに統合して、メタデータ管理のための統合インタフェースを提供できます。
このアプローチにより、複数のクラウドおよびプラットフォームにまたがるデータ・ソースを接続することで、様々な環境にわたるメタデータ管理が簡素化されます。 カタログベースのメタデータを使用するか、手動で定義するかに関係なく、すべての情報を統合カタログで簡単に参照できます。 たとえば、組織は、このフェデレーテッド・ビューを使用してAWSとOracle Cloudの両方からデータ・アセットを管理し、プラットフォーム間で一貫したガバナンスと検出性を確保できます。
コラボレーション
ユーザーが分析を完了した後は、多くの場合、他のユーザーと結果を共有する必要があります。 Oracle Autonomous AI Databaseでは、複数のコラボレーション方法を提供し、統合セキュリティ機能、オープン・プロトコル、シームレスなクラウド接続など、他のデータベースよりも独自の利点をもたらすことで、共有が容易になります。
これらのオプションは柔軟で安全であるため、さまざまなコラボレーションのニーズに適合します:
-
デルタ共有プロトコル: これにより、Delta Sharingというオープン・プロトコルを使用して、Oracleの外部でデータを共有できます。 複雑な統合を必要とせずに、外部パートナとの安全なデータ共有をサポートし、クロス・クラウドおよびクロス・プラットフォーム・アナリティクスに最適です。 これにより、Oracleに含まれていない様々なアナリティクス・ツールでデータをスムーズに使用できます。 詳細については、「オブジェクト・ストレージを使用したデータ・バージョンの共有」を参照してください。
-
クラウド・リンク: セキュアなクラウド・リンクを使用して、異なるAutonomous AI Databaseインスタンス間でデータを共有できます。 たとえば、クラウド・リンクは、様々なデータベースの接続に特に有効です。 これにより、データの一貫した可用性が確保され、コピーや複製を必要とせずに、複数のデータベースのデータに迅速かつ信頼性の高いアクセスを必要とするアプリケーションのレイテンシが削減されます。 広がり、連携する必要があるチームのコラボレーションをスムーズに維持します。 「直接接続を使用したライブ・データの共有」を参照してください
-
表ハイパーリンク: データを直接共有するには、個別のログインを必要とせずにデータへのアクセス権を付与する特別なURLを作成します。 ユーザーは、権限を制御し、これらのURLの有効期限を設定できるため、安全で柔軟な共有オプションを確保できます。 この機能は、RESTクライアント用に特別に構築されています。 詳細は、表またはビューの表ハイパーリンクの作成を参照してください。
Oracle Databaseツールとの広範な互換性
Autonomous AI Database環境は、幅広いOracleデータベース・ツールと完全に互換性があります。
データ視覚化、分析、ETL、管理など、Oracleデータベースとの対話にすでに使用しているツールも、シームレスに活用してAutonomous AI Database内のデータセットを分析できます。 この互換性により、スムーズなエクスペリエンスが確保されるため、ユーザーは新しいツールやプロセスを導入することなく、Autonomous AI Databaseを既存のワークフローに統合できるため、効率を最大化し、学習曲線を削減できます。
Oracleデータベースで使用できるいくつかのツールについては、Data Studioの「概要」ページを参照してください。
パフォーマンス
Autonomous AI Databaseには、オブジェクト・ストアに格納されているデータの問合せと、Apache Icebergなどのオープン・テーブル形式の使用専用に設計された多数の最適化が含まれています。
データ・レイク・アクセラレータ
Data Lake Acceleratorは、Autonomous AI Databaseからのフィルタリング、予測、解凍など、集中的なスキャン操作をコンピュート・リソースの専用のプールにオフロードすることで、クエリ・パフォーマンスを大幅に向上させる動的スケールアウト・サービスです。 このサービスは、問合せの実行中のみECPUを動的にプロビジョニングおよび追加するため、ソースで直接データ処理をパラレル化することで、データベースにデータをロードする必要なく、大規模なスキャンをより高速に完了できます。 問合せが完了すると、割り当てられたリソースが自動的に解放され、効率的な消費ベースの使用が保証されます。 詳細は、データ・レイク・アクセラレータを参照してください。
外部表キャッシュ
外部表キャッシュを使用すると、アクセス頻度の高い外部データをローカルに格納できます。 キャッシュを使用すると、外部表に対する問合せは、Autonomous AI Database内からデータを直接取得できるため、非常に高速になります。 このキャッシュ・メカニズムはアプリケーションに対して完全に透過的であるため、アクセスを高速化するために既存のSQL文またはワークフローを変更する必要はありません。 Parquet表、ORC表、AVRO表、CSV表およびIceberg表に作成されたパーティション表および非パーティション表の外部表キャッシュを作成できます。 詳細は、外部表キャッシュを使用した外部表のパフォーマンスの向上を参照してください。
暗黙的なパーティション化
Autonomous AI Databaseの暗黙的パーティション化では、オブジェクト・ストア・パス('.../country=US/year=2024/month=01/'など)内の共通フォルダおよびファイル・ネーミング・パターンが自動的に認識されます。 データベースでは、これらの命名規則がパーティション・キーとして扱われ、問合せフィルタに関係のないファイルおよびフォルダをスキップできます。 これにより、表DDLでパーティションを手動で定義したり、既存のディレクトリ構造を変更する必要なく、パーティション・プルーニングの利点が得られます。 その結果、特に大規模なデータセットを操作する場合、問合せはオブジェクト・ストアから少ないデータをスキャンし、より高速な結果を提供します。 詳細については、「暗黙的なパーティション化による外部表の問合せ」を参照してください。
適切な機能の選択
| 機能 | ユース・ケース | データ容量 |
|
外部表キャッシュ |
繰返しダッシュボード、対話型ダッシュボードまたはスケジュール済ダッシュボードを利用します。 |
中(GBから低TB) |
|
データ・レイク・アクセラレータ |
大規模なデータに対する大量スキャンまたはアドホック・スキャンを活用します。 |
非常に大きい(TBからPB) |
|
暗黙的なパーティション化 |
オブジェクト・ストア内のフォルダまたはファイル・ネーミング・パターン(日付、リージョン、その他の属性など)別に編成された大規模なデータセットを問合せまたは分析する場合に利用します。 |
中から大(GBからTB) |
|
ハイブリッド |
頻繁にアクセスされる(ホットな)データ・サブセットをキャッシュする外部表キャッシュと、完全な履歴データを問い合せるデータ・レイク・アクセラレータ。 |
すべてのボリューム |



