属性は、一連のレコードに関する情報の1つであり、名前が付けられています。レコードのフィールドの名前と値で構成さます。つまり、レコードのコア情報を含みます。
列が表の行を説明するように、属性はDgraphのレコードを説明します。属性のそれぞれのセットは、レコードの特定のデータ・セットに固有です。たとえば、店舗の製品で構成されるデータ・セットには、「品名」、「サイズ」、「色」、「SKU」などの属性が含まれ、レコードにはそれらの値が含まれます。
レコードを表形式で考えると、レコードが行で属性名は列ヘッダーになり、属性値は各列の値です。
Big Data Discoveryに表示されるほとんどの属性は、基礎となるソース・データ内で表示されますが、Big Data Discoveryではプロジェクト内で属性の新規作成、変更または削除を行うこともできます。(このような変更はソース・データには保存されません。)また、一部の属性は、Big Data Discoveryが検出したデータに対して実行した変換の結果として生成されるものです。
単一値属性は、1レコードで1つの値しか割り当てられません。たとえば、各品目が1つしかSKUを持つことができません。
複数値属性は、1レコードで複数の値を割り当てることができます。たとえば、Color属性は1つのレコードで複数の値を持つことが認められます。
属性のこのような特徴は、索引における属性の型とともに、Dgraphで管理されるスキーマに基づくものです。このような属性の特徴の他に、Studioには絞込みモードまたはメトリック・フラグといった追加の特徴があります。Studioでは、属性の説明や表示名をローカライズすることもできます。
「データ・セット」、「索引」、「スキーマ」、「レコード」、「型(属性)」および「値」も参照してください。
データ・セットのベース・ビューは、プロジェクト・データ・セットの基本的な属性を表します。ベース・ビューではデータがありのままに表されます。
データの集計、計算および視覚化に役立つカスタム・ビューを作成できます。
カスタム・ビューには、基礎となるデータで選択された特定の属性(つまり列)のデータしか含まれません。これによって様々なデータの見方が提供されます。各カスタム・ビューには、EQL文として表される定義があります。カスタム・ビューによってベース・ビューが消去されることはりません。ベース・ビューは常にシステムに存在します。
互いに平行な複数のカスタム・ビューをプロジェクト内に作成できます。
リンク・ビューは、データ・セットを結合すると自動的に作成されます。これは拡張されたデータのビューです。リンク・ビューは、元のデータ・セットと別のデータ・セットを結合して、ベース・ビューを拡張したものです。
Big Data Discoveryクラスタは、任意の数のノードへのBig Data Discoveryコンポーネントのデプロイメントです。
本番デプロイメントのノード数は6台未満(一部のソフトウェアを同じ場所に配置)でも6台より多くてもかまいません。
インストレーションおよびデプロイメント・ガイドでデプロイメントの図および同じ場所への配置に関する考慮事項を参照してください。
「カタログ」には、新規データ・セットの作成、データ・セットの検索または既存プロジェクトのナビゲートのためのオプションが含まれます。
Big Data Discoveryのデータ処理コンポーネントが実行しているとき、使用可能なデータ・セットがBig Data DiscoveryによってHiveデータベースで検出され、プロファイリングされ、リストとして「カタログ」に表示されます。
その後、「カタログ」を使用して、データ・セットのメタデータやプロジェクトの様々な特徴に基づいてデータ・セットとプロジェクトのナビゲートしやフィルタ処理を行って、関心があるデータ・セットを特定できます。さらに検索するために、各データ・セットまたはプロジェクトに関するその他の詳細も表示できます。
Big Data Discoveryに最初にログインしたときは、「カタログ」には、検出されたデータ・セットのみが表示され、プロジェクトは表示されません。自分やグループのメンバーがプロジェクトを作成して共有すると、使用可能なデータ・セットに加えてそれらが「カタログ」にログイン時に表示されます。
カスタム・ビューは、データの集計、計算および視覚化に役立ちます。レコードの基礎データを含むベース・ビューに対して、カスタム・ビューには、基礎となるデータで選択された特定の属性(つまり列)のデータしか含まれません。このように、カスタム・ビューによって様々なデータの見方が提供されます。各カスタム・ビューには、EQL文として表される定義があります。
カスタム・ビューによってベース・ビューが消去されることはりません。ベース・ビューは常にシステムに存在します。互いに平行な複数のカスタム・ビューをプロジェクト内に作成できます。
「ベース・ビュー」と「リンク・ビュー」も参照してください。
Big Data Discoveryが起動するとデータ処理は自動的に実行されます。管理者は、データ処理ワークフローを部分的に制御できます。詳細は、データ処理ガイドを参照してください。
「索引」、「エンリッチメント」、「サンプリング」および「プロファイリング」も参照してください。
Big Data Discoveryでは、データ・セットは、CSVファイル、ExcelファイルまたはHive表などのソース・データと対応するデータの論理単位です。データ・セットは、データ処理ワークフロー(データ処理、エンリッチメント、ソース・データの索引付けが含まれる)の結果として得られます。
データ・セットは、Studioで「カタログ」のエントリとして使用できるようになります。データ・セットには、エンリッチメントが行われたデータや「変換」でデータに適用された変換が含まれることもあります。各データ・セットには、一連のDgraph索引ファイルが対応しています。
「属性」、「索引」、「スキーマ」、「レコード」、「型(属性)」および「値」も参照してください。
データ・セットのインポート(または個人データのアップロード)は、ExcelまたはCSV (区切り)ファイルをアップロードして、Studioでデータ・セットを手動で作成するプロセスです。
Dgraphによって、データ・セットの検索分析処理が強化されます。これは、ユーザーがデータ・セットに対して行うリクエストを扱います。Dgraphは、固有のデータ構造とアルゴリズムを使用して、分析処理とデータ・サマリーのクライアント・リクエストにリアルタイムに応答します。
Dgraphは、ソース・データが検出された後でBig Data Discoveryのデータ処理ステージで作成された索引を格納します。索引が格納されると、Dgraphは、Studioアプリケーション層を介してクライアント・リクエストを受信し、索引の問合せを行い、結果を返します。
Dgraphはステートレスになるように設計されています。この設計のため、リクエストごとに完全な問合せが送信される必要があります。ステートレス設計によって、ロード・バランシングや冗長性に備えてDgraphプロセスの追加(デプロイ時)が促進されます。Dgraphのすべてのレプリカは、他のレプリカに関係なく問合せに応答できます。
BDDでは、Dgraph GatewayとStudioは同一のWebLogic Serverに配置される2つのJavaベース・アプリケーションです。デプロイメントでいくつかのWebLogic Serverを使用して、それぞれがStudioとDgraph Gatewayの追加インスタンスをホストすることができます。このケースでは、通常、デプロイメントでWebLogic Serverの前に外部ロード・バランサが含まれます。
「検出」は、「検索」と「変換」と並び、Studioの主要な3つのモードすなわち領域の1つです。ユーザーは常に3つのモードのいずれかを使用します。
「検出」では、直感的に見て発見するための環境が提供され、多様な対話型視覚化コンポーネントを使用し、検出ダッシュボードを作成して共有できます。これを使用すると、異なるデータ・ソースを混ぜ合せて、新しいインサイトを検出し、ブックマーク、スナップショットおよび検出ナレーティブを使用して組織内に公開できます。
「検索」と「変換」とは異なり、「検出」ではデータの永続的な視覚化を作成してプロジェクトの他のユーザーと共有します。
「エンリッチメント」は、Big Data Discoveryに表示されるデータを検索と分析のために変更できるBig Data Discoveryのモジュールです。
エンリッチメントによって、検索と分析のためにRAWデータからセマンティック情報が抽出されます。たとえば、Big Data DiscoveryにはジオコードとIPアドレスから行政区分(都道府県や郡)を検索するエンリッチメントがあります。エンティティ、場所、キー・フレーズ、センチメントおよび他の項目をロング・テキスト・フィールドから抽出する、高度な統計方法を使用したテキスト・エンリッチメントもあります。
エンリッチメントの中には、抽出した意味をデータ・セットに追加できるものもあります。たとえば、データ・セットから肯定または否定のセンチメントを抽出できます。または、無効な値や一貫性のない値に対処するためのエンリッチメントもあります。
プロファイリングによって属性が特定のエンリッチメントに適しているとわかると、データ処理ワークフローで自動的に実行されるエンリッチメントもあります。データ処理の際には、Big Data DiscoveryがHive表のデータを検出し、データ・セット・サンプリングと初期データ・プロファイリングを実行します。
エンリッチメントは、データ・セットの追加情報(語、場所、使用言語、センチメント、キー・フレーズなど)から導出されます。Big Data Discoveryが、検出したデータ・セットごとに役立つエンリッチメントを判別し、データのサンプルに対して自動的にそのエンリッチメントを実行します。自動的に適用されたエンリッチメントの結果として、地理的データや検出された言語の提案など、導出された追加属性(列)がデータ・セットに追加されます。
この追加情報を含むデータ・セットが「カタログ」に表示されます。これによって、検出された各データ・セットの最初のインサイトが提供され、さらに検索や分析を行う候補として価値があるかどうかを判別できます。
自動適用エンリッチメントの他に、「変換」の「変換エディタ」でもプロジェクト・データ・セットにエンリッチメントを適用できます。「変換」では、各タイプのエンリッチメントのパラメータを構成できます。このケースでは、エンリッチメントは使用可能な変換の1タイプです。
「変換」も参照してください。
Big Data Discovery対応Enterprise Managerプラグインによって、Oracle Enterprise Manager Cloud Controlが拡張され、Big Data Discoveryコンポーネントのモニタリング、診断および管理のサポートが追加されます。
「検索」は、Studioのユーザー・インタフェースのエリアです。ユーザーはここで「カタログ」とプロジェクトのいずれかから1つのデータ・セットを検索できます。
「検索」では、データの自動ガイド・ツアーが提供されます。各属性はタイルで表され、これには属性のプロファイリングに基づいた対話型のデータ視覚化が含まれます。これらの視覚化を使用して、RAW Hadoopデータを直感的に把握して、関心のあるパターンを見つけたり、クリーンでないデータの優先順位を決定したりできます。
「検索」を使用して、データ・セットの属性と値を分析します。一度に検索できるのは1つのデータ・セットです。
「検索」には、データ・セットの使用可能な属性が表示されます。属性は最初は名前順にソートされています。表示されている属性をフィルタ処理したり、ソート順序を変更したりすることができます。
「検索」では、属性ごとに、その属性のデータ型と値分布に最適な視覚化のセットが提供されます。
データ・セットの検索ではデータ・セットは変更されませんが、1つ以上のデータ・セット属性を使用する視覚化を作成して、プロジェクト・ページに保存することはできます。
HDFS/Hiveへのエクスポートは、Big Data DiscoveryからHDFS/Hiveに分析結果をエクスポートするプロセスです。
Big Data Discoveryの観点では、このプロセスはBig Data DiscoveryからHDFS/Hiveへのエクスポートです。HDFSの観点では、Big Data Discoveryでの作業成果のHDFSへのインポートです。Big Data Discoveryでは、Dgraph HDFSエージェントがHDFSとの間のエクスポートとインポートを処理します。
HDFSへのエクスポート・プロセスをデータ・セットのインポート(個人データ・アップロード)と間違えないでください。この操作では、ファイルをアップロードしてデータ・セットを明示的にHDFSに追加します。
索引は、Big Data DiscoveryにおいてDgraphで問合せを実行できるデータ・セットの内容を表します。
索引によって分析処理が強化されます。メモリーの永続ファイルとディスク上の両方に存在します。
索引は、一連のファイルすべてと、それらに含まれる情報が内部で編成されている論理構造を指します。論理構造によって、データ・セットの内容と構造(スキーマ)の両方が説明されます。
索引には、問合せエンジン(Dgraph)が対話型問合せワークロードを効率よく実行できるようにデータが格納されています。また、問合せと更新を効果的に処理できるように設計されています。
データ・レコードとその属性を検索するとき、Big Data Discoveryはスキーマと索引を使用して、ユーザーがレコードのフィルタ処理、由来の特定(プロファイリング)、および使用可能な絞込みを使用したデータ検索を行えるようにします。
「属性」、「データ・セット」、「スキーマ」、「レコード」、「絞込み」、「型(属性)」および「値」も参照してください。
リンク・ビューは、データ・セットを結合すると自動的に作成されます。これは拡張されたデータのビューです。リンク・ビューは、元のデータ・セットと別のデータ・セットを結合して、ベース・ビューを拡張したものです。
「ベース・ビュー」と「カスタム・ビュー」も参照してください。
各データ・セットには、様々なタイプのメタデータ(データ・セットの属性と値に関する概要情報)が含まれます。
基本的なメタデータは、データ処理の際にデータ・セットがHiveに登録されるときにデータ・セットの特徴から導出されます。これはデータ・プロファイリングと呼ばれます。Big Data Discoveryが初期データ・プロファイリングを実行し、様々なデータ・エンリッチメントの実行によって導出されたメタデータ(ジオコード値など)を追加します。
一部のメタデータ(属性の型や、属性が複数値か単一値かなど)は、「変換」で変更できます。それ以外のメタデータは、データ処理時に割り当てられた値を使用します。
さらに、Studioでは様々なタイプの属性メタデータを使用できます。次のものがあります。
Oracle Big Data Discoveryは総合的な視覚分析機能のセットです。Hadoopの性能を活用して数分のうちにRAWデータをビジネス・インサイトに変換することができ、複雑な製品について学んだり、高度な技術力を備えた人材のみに依存したりする必要がありません。
データを見つけて検索や分析を行い、インサイトを見出して、意思決定や行動につなげることができます。
「カタログ」を使用してデータ・セットを見つけ、「検索」を使用して検索できます。
次に、データ・セットをプロジェクトに追加できます。ここでデータ・セットを分析するか、「変換」を使用して変更を適用できます。
また、Rなど他のツールでさらに分析するために、データをHiveにエクスポートすることもできます。「検索」と「変換」は、ユーザー・インタフェースでプロジェクトと呼ばれる領域に含まれます。プロジェクトの一部としてのデータ・セットを検索することも、どのプロジェクトにも含まれないソース・データ・セットを検索することもできます。
プロファイリングは、ソース・データ(Hive表またはCSVファイル)やそれに含まれる属性の特徴を検出するデータ処理ワークフローのステップです。
Big Data Discoveryでは、プロファイリングによってメタデータが作成されます。これは、ユーザーの操作性の強化に使用され、インテリジェント機能に基づいて構成が自動化されます。プロファイリングで検出されるメタデータには、属性名、属性のデータ型、属性のカーディナリティ(1レコードの属性に含まれる個別値の数)およびデータ・セットの作成日時と更新日時が含まれます。たとえば、特定のデータ・セットは、構造化データ、ソーシャル・データまたは地理データのコレクションとして識別できます。
「検索」を使用すると、属性の値や型の分布を詳しく調べることができます。
「変換」を使用すると、これらのメタデータの一部を調整または変更できます。たとえば、Null属性値を実際の値で置き換えたり、その他の不一致を修正したりできます(プロファイリングで文字列値と判断された属性の数値への変更など)。
プロジェクトは、データ・セットとユーザーがカスタマイズしたページのStudioでのコンテナです。
プロジェクトには、グラフや表などの視覚化を含むページを作成できます。このような視覚化を使用して、1つ以上のデータ・セットに対してさらに分析や検出を実行できます。
プロジェクトを保存して他のユーザーと共有できます。
レコードは、属性に対する代入(値と呼ばれる)のコレクションです。レコードはデータ・セットに含まれます。
たとえば、店で販売された製品を含むデータ・セットの場合、レコードには品目名「t-shirt」、サイズ「S」、色「red」、SKU「1234」が含まれます。これらが属性の値です。
レコードを表形式で考えると、レコードが行で属性名は列ヘッダーになり、属性値は各列の値です。
絞込み状態は、データ・セットをレコードのサブセットに絞り込むための一連のフィルタ指定(属性値の選択、範囲の選択、検索)です。
サンプルは、Studioで対話型操作を行うデータの索引付き代理サブセットです。データ処理によって、単純なランダム・サンプルが基礎となるHive表から抽出され、Dgraphで無制限のサイズのデータの検索、対話型分析および検索を行えるように索引が作成されます。
サンプルのデフォルト・サイズは100万レコードですが、必要に応じてサンプル・サイズの指定や異なるサイズのサンプルの受入れが可能です。
サンプリングは、サンプルが取得されるBig Data Discoveryデータ処理ステージのステップです。非常に大規模なデータを扱うと、待機時間が発生し、データ分析のインタラクティブ性が損なわれます。Big Data Discoveryでのこれらの問題を回避するために、HDFSで検出された大きな表からレコードのサブセットをサンプリングして作業します。サンプル・データを完全な表のかわりに使用して、完全なセットを使用しているかのようにデータを分析できます。
データ処理の際に、データのランダム・サンプルが取得されます。デフォルトのサンプル・サイズは100万レコードです。管理者はサンプル・サイズを調整できます。ソースのHive表に現在の指定サンプル・サイズよりも少ないレコードが含まれる場合は、すべてのレコードがフェッチされます。
スキーマは、各属性のすべての特徴を含め、データ・セットのすべての属性を定義します。
「属性」、「データ・セット」、「索引」、「レコード」、「型(属性)」および「値」も参照してください。
スクラッチパッド(「検索」に含まれる)を使用すると、複数の属性を使用して簡単に視覚化を作成できます。タイルをクリックするか、スクラッチパッドの入力支援機能を利用して、スクラッチパッドに属性を追加すると、スクラッチパッドのすべての属性に基づいてベストプラクティス・データ視覚化が自動的に描画されます。これにより、グラフの構成ではなくデータに集中することができます。視覚化が自動描画されるだけでなく、スクラッチパッドによって属性に対するかわりの視覚化がいくつか用意されるため、構成を変更せずに別のビューにすぐに切り替えることができます。プロジェクト内では、「検出」でスクラッチパッドの視覚化をページに保存できます。このページを検出ダッシュボードで使用して、さらにきめ細かい構成を適用できます。
ソース・データには、CSVファイル、ExcelファイルまたはHive表があります。すべてのソース・データはHadoopで表示でき、HDFSに格納され、Hive表として登録されます。
ソースHive表は、Big Data Discoveryのデータ処理ワークフローで検出できます。データ処理は、特定サイズのランダム・サンプルを取得し、データ・セットをDgraphに作成し、検索や選択に備えて「カタログ」に表示します。
サンプリングされたソース・データが「カタログ」に表示されると、Big Data Discoveryのデータ・セットになり、ソースHive表のサンプルを表します。
Studioは、Big Data DiscoveryのフロントエンドWebアプリケーションです。Studioは、Big Data Discoveryのコンポーネントであり、ユーザー・インタフェースを含み、データ・セットとプロジェクトを作成して管理するツールをユーザーに提供し、ユーザー・アクセスや他の設定を管理するツールを管理者に提供します。
プロジェクトと設定はリレーショナル・データベースに格納されます。
「変換」は、「検索」と「検出」と並び、Studioの主要な3つの領域の1つです。「変換」では、プロジェクト・データ・セットを変更します。データをクリーンアップするため、または値を追加するために、データ・セットの値やスキーマを編集できます。
「変換」では、一般的には厳密なETLプロセスに限定されている、データの整備、処理およびエンリッチメントのアクティビティが解放されます。「変換」では、簡単なユーザーガイド変換や、Groovyベースの高度なカスタム変換関数のリストを使用して、変換スクリプトを簡単に作成できます。
「変換」では、デフォルトのエンリッチメントと変換のリストを対話的に指定するか、独自のカスタム変換を記述できます。変換の適用結果のプレビューを表示できます。その後、編集可能な変換スクリプトに変換を追加し、プロジェクト・データ・セットに適用して保存します。
変換スクリプトを現在のプロジェクトに適用することも、変換スクリプトを使用して新しいデータ・セットを作成することもできます。変換スクリプトがプロジェクト・データ・セット(サンプル)に適用されると、新しいバージョンのプロジェクト・データ・セットが作成され、それが「カタログ」に公開されます。変換スクリプトを使用して新しいデータ・セットを作成することもできます。この場合、新しい完全なデータ・セットがHadoopに作成されるため、変換済データがBig Data DiscoveryおよびHadoopの他のアプリケーションやツールで検索できるように解放されます。「変換エディタ」はStudioの「変換」に含まれます。ここでは、Groovy言語を使用してデータを変換し、導出された属性を作成します。「変換エディタ」では、Groovyのサポートと一緒に、追加の使いやすいカスタム変換関数(Groovyベース)のリストへのアクセスが提供されます。これによって、データ変換、処理およびエンリッチメントのプロセスが短縮されます。
変換は、データをクリーンアップするETLプロセスのかわりと考えることもできます。変換を使用して、既存の属性の上書き、属性の変更、または新しい属性の作成を行うことができます。
ほとんどの変換は、「変換」で直接実行できる特定のオプションとして用意されています。変換の一部はエンリッチメントです。
Groovyスクリプト言語と、Big Data Discoveryで提供されるカスタムの定義済Groovyベース変換関数のリストを使用して、変換スクリプトを作成できます。
「エンリッチメント」、「変換」および「変換エディタ」も参照してください。
属性の型によって、その属性に割り当てられる値が決まります。属性の型の例としては、Boolean、Integer、String、Date、DoubleおよびGeocodeがあります。
String属性には、テキスト検索に関連する追加の特徴があります。
「属性」、「データ・セット」、「索引」、「スキーマ」、「レコード」および「値」も参照してください。
属性の値は、特定のレコードの属性に対する代入です。
「属性」、「データ・セット」、「索引」、「スキーマ」、「レコード」および「型(属性)」も参照してください。