プライマリ・コンテンツに移動
Oracle® Big Data Discovery Cloud Serviceスタート・ガイド

E65362-05
目次へ
目次
索引へ移動
索引

前
次
機械翻訳について

A 用語集

属性

「属性」はレコード上の名前と値で構成されます。

列が表の行を説明するように、属性はBig Data Discoveryのレコードを説明します。 各属性セットは、レコードの特定のデータセットに固有です。 たとえば、ストア製品で構成されるデータ・セットには、"item name"、"size"、"color"、"SKU"など、レコードに値を含めることができる属性が含まれます。 レコードを表形式で考えると、レコードが行で属性名は列ヘッダーになります。 属性値は各列の値です。

スキーマ内の属性構成により、各属性の3つの特性が制御されます: 必須(または一意でない)、単一または複数の割当があります。 つまり、スキーマにおける属性構成によって、属性の次の特徴が決定されます:
  • 必須。 必須属性の場合、各レコードには少なくとも1つの値が割り当てられている必要があります。
  • 一意。 一意属性では、2つのレコードに同じ値を割り当てることはできません。
  • 単一値または複数値(単一割当てまたは複数割当てとも呼ばれる)。 レコードで同一の属性について最大で1つの値しか持つことができないか、複数の値を割り当てることができるのかを示します。 単一値属性は、1レコードで1つの値しか割り当てられません。 たとえば、各品目にはSKUを1つのみ含めることができます。 複数値属性では、1つのレコードで複数の割当値を使用できます。 たとえば、色属性で特定のレコードに対して複数の値を許可できます。

属性の特性と、Dgraphに保持されているスキーマからの属性タイプの特性です。 また、Studioには、絞込みモードまたはメトリック・フラグなどの追加の属性特性があります。 Studioでは、属性の説明や表示名をローカライズすることもできます。

Big Data Discoveryに表示される大半の属性は、基礎となるソース・データに表示されます。 また、Big Data Discoveryでは、プロジェクト内で新しい属性の作成、属性の変更または削除を行うことができます。 これらの変更はHiveのソース・データには保持されません。 一部の属性は、Big Data Discoveryが検出したデータに対して実行するエンリッチメントの結果として生成されます。

データ・セット、Dgraphデータベース、スキーマ、レコード、型(属性)および値も参照してください。

ベース・ビュー

データ・セットの「ベース・ビュー」は、プロジェクト・データ・セットの基本属性を表します。 ベース・ビューは、データをそのまま表します。 データの集計、計算およびビジュアライゼーションに役立つカスタム・ビューを作成できます。

「カスタム・ビュー」は、基礎となるデータで特定の選択した属性(または列)のデータのみを含めます。 データを確認する様々な方法が用意されています。 各カスタム・ビューには、EQL文として表される定義があります。 カスタム・ビューでは、常にシステムに存在するベース・ビューは排除されません。

プロジェクト内に複数のカスタム・ビューを互いに平行に作成できます。

「リンクされたビュー」は、データ・セットを結合するときに自動的に作成されます。 幅広いデータのビューです。 リンク・ビューは、元のデータ・セットを別のデータ・セットに結合することによって、ベース・ビューを拡張します。

BDDアプリケーション

「BDDアプリケーション」は特別な特性を持つBDDプロジェクトの一種です。 アプリケーションには一般的に、少なくとも1つのデータ・セットが完全にロードされる場合があるデータ・セットが1つ以上含まれます。 BDDアプリケーションではデータの変換および更新が可能です。 データ更新は定期的に実行できます。 BDDアプリケーションでは、長期のデータ分析および最新データのレポートを管理します。

BDDのユーザーが作成できる非定型BDDプロジェクトとは対照的に、BDD管理者は、そのチームと共有できるBDDアナリティク・アプリケーションを所有および証明します。

プロジェクトも参照してください。

Big Data Discoveryクラスタ

「Big Data Discoveryクラスタ」は、任意の数のノード上でのBig Data Discoveryコンポーネントのデプロイメントです。

デプロイメントのノードには次に示す様々なロールがあります:
  • 「Hadoopノード」は、Hadoopクラスタ内のマシンを表します。 Big Data Discoveryをデプロイするときには、既存のHadoopクラスタが想定されます。 既存のHadoopクラスタの一部のマシンは、Big Data Discoveryのコンポーネント(Hadoopでの実行が必要なコンポーネント)がデプロイされるノードになることもあります。
  • 「WebLogicサーバー・ノード」は、Big Data DiscoveryのJavaベースのコンポーネントとなるマシンです - StudioおよびDgraphゲートウェイ - WebLogicサーバー内で実行します。 デプロイメント時に、これらのWebLogicサーバー・マシン(またはノード)のうち複数をBDDクラスタに追加できます。
  • 「Dgraphのみのノード」は、Dgraphインスタンスが実行されているBig Data Discoveryクラスタ内のマシンを表します。 これら自体が、Big Data Discoveryクラスタ・デプロイメント内のDgraphクラスタを形成します。

ハードウェアを効率よく使用するためにBig Data Discoveryのデプロイには複数のオプションがあります。 たとえば、同じノード上でBig Data Discoveryの様々な部分を共存させることができます。 BDDクラスタ・デプロイメント・オプションの詳細は、「インストレーションおよびデプロイメント・ガイド」を参照してください。

カタログ

カタログは、次のものを表示するStudioアプリケーションの領域です:
  • 使用可能なデータ・セット
  • ユーザーがアクセスできるプロジェクト

カタログには、新規データ・セットの作成、データ・セットの検索、または既存のプロジェクトへの移動を行うためのオプションが含まれています。

Big Data Discoveryのデータ処理コンポーネントが実行されると、使用可能なデータ・セットがHiveデータベースでBig Data Discoveryによって検出されて、プロファイリングされ、カタログのリストとして表示されます。

その後、カタログを使用して、データ・セット・メタデータやプロジェクトの様々な特性に基づいてデータ・セットおよびプロジェクトのナビゲートやフィルタ処理を行って、関心があるデータ・セットを特定できます。 さらに探索するために、各データ・セットまたはプロジェクトに関する追加詳細を表示することもできます。

Big Data Discoveryに初めてログインするとき、カタログには検出されたデータ・セットのみが表示され、プロジェクトは表示されない場合があります。 ユーザーまたはグループのメンバーがプロジェクトを作成および共有した後、カタログには、ログインすると使用可能なデータ・セットに加えて、これらが表示されます。

データ・セットおよびプロジェクトも参照してください。

カスタム視覚化コンポーネント

「カスタム視覚化コンポーネント」はStudioの拡張機能で、Studioのデフォルト・コンポーネントが特定のデータ視覚化のニーズを満たさない場合に、カスタマイズされたビジュアライゼーションを作成できます。

カスタム・ビュー

「カスタム・ビュー」はデータの集約、計算およびビジュアライゼーションに便利です。 レコードの基本データを含むベース・ビューと比較した場合、カスタム・ビューには、基礎となるデータで選択した特定の属性(または列)のデータのみが含まれます。 このように、カスタム・ビューでは様々なデータ確認方法が提供されます。 各カスタム・ビューには、EQL文として表される定義があります。

カスタム・ビューでは、常にシステムに存在するベース・ビューは排除されません。 プロジェクト内に複数のカスタム・ビューを互いに平行に作成できます。

ベース・ビューとリンク・ビューも参照してください。

データのロード

「データのロード」は、データ・セットをBDDにロードするプロセスです。 データのロードは、Studio内で、またはData Processing CLIで行うことができます。

Studioでは、個人ファイルをアップロードまたはJDBCソースからデータをロードすることでデータをロードできます。 また、既存のデータ・セットを変換する最後のステップとして、新しいデータ・セットを追加することもできます。

DP CLIを使用すると、データ・ロード・ワークフローを手動で実行するか、Hiveでソース・データに対して実行されるスクリプトにデータを追加して、ホワイトリストとブラックリストを使用し、さらに、その他のDP CLIパラメータを使用してソース・データを検出してBDDにロードできます。

多くの場合、データのサンプルをBDDにロードします。 DP CLIのオプションを使用して、サンプル・サイズを変更できます。 また、Studioでは、サンプリングされたデータを使用して作成したプロジェクトに完全なデータ・セットをロードできます。 データ全体のロードの詳細は、「データの探索および分析ガイド」を参照してください。

サンプリングおよびデータ更新も参照してください。

データ処理(BDDのコンポーネント)

「データ処理」は、様々なデータ処理ワークフローを実行するBig Data Discoveryのコンポーネントです。

たとえば、データ・ロードのワークフローは、次のタスクを実行します:
  • Hive表のデータの検出
  • BDDでのデータ・セットの作成
  • 検出されたデータ・セットに対するエンリッチメントの選択セットの実行
  • データ・セットのプロファイリング
  • 索引付け(Dgraphデータベースを作成するDgraphプロセスを実行)

Big Data Discoveryの起動時にデータ処理ワークフローを起動するには、データ処理コマンドライン・インタフェース(DP CLI)を使用します。 これにより、様々なデータ処理ワークフローを起動して、その動作を制御できます。 詳細は、「データ処理ガイド」を参照してください。

Dgraphデータベース、エンリッチメント、サンプリングおよびプロファイリングも参照してください。

データ・セット

Big Data Discoveryでは、「データ・セット」はデータの論理単位で、デリミタ付きファイル、Excelファイル、JDBCデータ・ソース、Hive表などのソース・データに対応します。

データ・セットは、Studioでカタログのエントリとして使用可能になります。 データ・セットには、「変換」から適用されるエンリッチ・データおよび変換が含まれる場合があります。 各データセットには、Dgraphデータベース内に対応する一連のファイルがあります。

Big Data Discoveryでは、次のように様々な方法でデータ・セットを作成できます:
  • Big Data Discoveryの起動時、データをロードするためのデータ処理ワークフローの実行時
  • Studioを使用して個人データ・ファイル(区切りファイルまたはExcelファイル)をロードする場合
  • Studioを使用してJDBCデータ・ソースからデータをロードする場合
  • 変換機能を使用して、変換スクリプトの実行後に新しいデータ・セットを作成する場合
  • BDDからHiveにデータ・セットをエクスポートすると、BDDによって検出されてカタログに追加されます。

サンプリング、属性、データベース、スキーマ、レコード、型(属性)および値も参照してください。

データ・セットのインポート(個人データのアップロード)

「データ・セット・インポート」 (または「個人データのアップロード」)は、Excelまたは区切り(CSV)ファイルからデータをアップロードすることによってStudioでデータ・セットを手動で作成するプロセスです。

データ更新

「データ更新」は、BDDにロードされるデータ・セットに対する変更を表しています。 複数のタイプの更新がサポートされています。

Studioカタログでは、個人ファイルまたはJDBCソースからロードしたデータ・セットに対して「データ・セットのリロード」を実行できます。 これは個人的にロードされたファイルの更新、またはJDBCのサンプルの更新です。

DP CLIを使用すると、2つのタイプの更新を実行できます: Refresh dataおよびIncremental update このような更新はスクリプトで使用でき、Studioのプロジェクトのデータ・セットで定期的に実行できるため、スクリプト更新とも呼ばれます。

DP CLIからのRefresh data操作はStudioプロジェクトに既存のデータ・セットを再ロードし、データ・セットのコンテンツをHiveからの最新データで全体に置き換えます。 この更新タイプでは、古いデータが削除され、新しいデータで置換されます。 新しい属性が追加されたり、属性が削除される場合があります。 また、属性のデータ型が変わる場合があります。

DP CLIからのIncremental update操作では、すでにロードされているデータを削除せずに、既存のBDDアプリケーションに新しいデータを追加できます。 このタイプの更新では、レコード・スキーマを変更できません。 増分更新は、すでにロードされたデータを保持しているが、新しいデータを引き続き追加する場合に最も有効です。 たとえば、すでにロードされているバッチに、より新しい12個のフィードを追加できます。

Dgraph

Dgraphは、データ・セットの検索アナリティク処理を実行するBig Data Discoveryのコンポーネントです。 これは、ユーザーがデータ・セットに対して行うリクエストを処理します。 Dgraphでは、データ構造とアルゴリズムを使用して、アナリティク処理およびデータ要約のために、クライアントのリクエストに対するリアルタイムのレスポンスを提供します。

Dgraphには、ソース・データがBig Data Discoveryにロードされた後に作成されたデータベースが格納されます。 データベースが格納されると、DgraphはStudioを介してクライアント・リクエストを受け取り、そのデータベースを問い合せて結果を返します。

Dgraphはステートレスとして設計されています。 このような設計の場合、各リクエストに対して完全な問合せをこれに送信する必要があります。 ステートレス設計では、ロード・バランシングと冗長性のために、(インストール中に) Dgraphプロセスを容易に追加できます。 - Dgraphのどのレプリカでも、他のレプリカから独立した問合せに応答できます。

Dgraphデータベース

「Dgraphデータベース」は、Big Data DiscoveryにおいてDgraphによって問合せ可能なデータ・セットのコンテンツを表しています。 各データ・セットには独自のDgraphデータベースがあります。 Dgraphデータベースはアナリティク処理を可能にするものです。 メモリーの永続ファイルとディスク上の両方に存在します。 データベースとは、データセットのファイル全体と、それに含まれる情報が内部的に構成される論理構造を指します。 論理構造によって、データ・セットの内容と構造(スキーマ)の両方が説明されます。

Dgraphデータベースには、問合せエンジン(Dgraph)が対話型問合せワークロードを効果的に実行するためのデータの格納方法があり、問合せと更新の効率的な処理を可能にするように設計されています。 (Dgraphデータベースは、索引と呼ばれることもあります)。

データ・レコードとその属性を調べる場合、Big Data Discoveryは、スキーマとそのデータベースを使用してレコードのフィルタ処理、証明済み(プロファイリング)の識別、および使用可能な絞込みを使用したデータの探索を実行します。

属性、データ・セット、スキーマ、レコード、絞込み、タイプ(属性)および値も参照してください。

Dgraphゲートウェイ

「Dgraphゲートウェイ」は、Dgraphに対するBig Data DiscoveryのJavaベースのインタフェースです。次に例を示します:
  • Dgraphインスタンスへのリクエストのルーティング
  • キャッシュ
  • HadoopのZooKeeperパッケージを使用したDgraphインスタンスに対するクラスタ・サービスの処理

BDDでは、Dgraph GatewayとStudioは同一のWebLogicサーバーに配置される2つのJavaベース・アプリケーションです。

検出

Discoverは、「探索」および「変換」とともに、3つのメイン・モード(Studioの主要領域)の1つです。 ユーザーは、これらの3つのモードのいずれかで一度に作業します。

Discoverは、インタラクティブなデータ視覚化コンポーネントの広範囲な配列を使用して検出ダッシュボードを構成および共有できる、直感的な視覚検出環境を提供します。 これを使用すると、異なるデータ・ソースをリンクして、新しいインサイトを検出し、スナップショットを使用して企業内に公開できます。

Discoverは、データの永続的なビジュアライゼーションを作成し、それをプロジェクトの他のユーザーと共有する場所です。

「探索」および「変換」も参照してください。

エンリッチメント

「エンリッチメント」は、Big Data Discoveryの中にあるモジュールで、探索や分析を可能にするためにRAWデータからセマンティック情報を抽出します。 エンリッチメントは、用語、ロケーション、使用言語、センチメントおよびキー・フレーズなどのデータ・セット追加情報から導出されます。 エンリッチメントの結果、追加の派生属性(列)がデータ・セットに追加されます(地理データなど)。また、検出された言語の提案にも追加されます。

たとえば、BDDには、州や郡などの管理境界をジオコードとIPアドレスから検索するためのエンリッチメントが含まれています。 エンティティ、場所、キー・フレーズ、センチメントおよび他のアイテムをロング・テキスト・フィールドから抽出する、高度な統計メソッドを使用したテキスト・エンリッチメントもあります。

エンリッチメントには、導出された追加の意味をデータ・セットに追加できるものがあります。 たとえば、データ・セットのレコードからポジティブまたはネガティブなセンチメントを導出できます。 または、無効な値や一貫性のない値に対処するためのエンリッチメントもあります。

一部のエンリッチメントは、データをロードするためのデータ処理ワークフロー中に自動的に実行されます。 このワークフローによって、Hive表内のデータが検出され、データ・セットのサンプリングおよび初期データ・プロファイリングが実行されます。 プロファイリングによって属性が指定されたエンリッチメントに有用であると判断された場合、データ・ロード・ワークフローの一部としてエンリッチメントが適用されます。

適用されたエンリッチメントを持つデータ・セットは、カタログに表示されます。 これにより、検出された各データ・セットに関する初期インサイトが提供され、さらに探索や分析のためにデータ・セットが有益な候補であるかどうかを判断できます。

データ処理によるデータ・ロードの一部として適用可能なエンリッチメントの他に、「変換」「変換エディタ」からプロジェクト・データ・セットにエンリッチメントを適用できます。 「変換」から、エンリッチメントのタイプごとにパラメータを構成できます。 この場合、エンリッチメントは、単に別のタイプの使用可能な変換です。

変換も参照してください。

検索

「探索」はStudioの領域で、単一のデータ・セットの属性およびその値を分析します。 「探索」には、カタログから、またはプロジェクト内からアクセスできます。 「探索」を使用すると、一度に1つのデータ・セットの属性とその値の分布を分析できます。

「探索」の属性は、最初は名前でソートされます。 表示された属性のフィルタ処理およびソート順の変更ができます。

「探索」では、属性ごとにその属性のデータ型と値の分布に最も適したビジュアライゼーションのセットが提供されます。 これらのビジュアライゼーションによって、データを利用して関心のあるパターンや乱雑なデータをトリアージできます。

データ・セットを検索しても、そのデータ・セットは変更されませんが、1つ以上のデータ・セット属性を使用してビジュアライゼーションを構築し、それをプロジェクト・ページに保存できます。

Discoverおよび「変換」も参照してください。

HDFS/Hiveへのエクスポート

「HDFS/Hiveへのエクスポート」は、Big Data DiscoveryからHDFS/Hiveへ分析結果をエクスポートするプロセスです。

Big Data Discoveryのパースペクティブでは、Big Data DiscoveryからHDFS/Hiveへファイルをエクスポートしています。 HDFSのパースペクティブから、Big Data DiscoveryからHDFSに作業結果をインポートしています。 Big Data Discoveryでは、「Dgraph HDFSエージェント」はHDFSへのエクスポートおよびHDFSからのインポートを担当しています。

HDFSへのエクスポート・プロセスは、Studioでファイルをアップロードすることによりデータ・セットをBDDに追加する、個人データのアップロードとも呼ばれるデータ・セット・インポートと混同しないでください(この場合、BDDはデータ・セットをHiveに追加します)。

リンク・ビュー

「リンクされたビュー」は、データ・セットを結合するときに自動的に作成されます。 幅広いデータのビューです。 リンク・ビューは、元のデータ・セットを別のデータ・セットに結合することによって、ベース・ビューを拡張します。

ベース・ビューとカスタム・ビューも参照してください。

metadata

各データ・セットには、様々なタイプの「メタデータ」が含まれています - データ・セットの属性と値に関する詳細な情報。

基本的なメタデータは、データ処理中にHiveに登録したデータ・セットの特性から導出されます。 これは「データ・プロファイリング」と呼ばれます。 Big Data Discoveryは、初期データ・プロファイリングを実行し、様々なデータ・エンリッチメントの実行から導出されたジオコード値などのメタデータを追加します。

Big Data Discovery内のデータを探索して分析すると、次のような追加のメタデータが追加されます:
  • このデータ・セットを使用するプロジェクト
  • ソース・データが更新されたかどうか

一部のメタデータ(属性の型や、属性が複数値か単一値かなど)は、「変換」で変更できます。 その他のメタデータでは、データの処理中に割り当てられる値が使用されます。

また、Studioでは、様々なタイプの属性メタデータを使用できます。 これには次のものがあります。

  • 属性の表示名と説明
  • 属性のフォーマット・プリファレンス
  • 属性の使用可能な集計関数およびデフォルトの集計関数

Oracle Big Data Discovery

Oracle Big Data Discoveryは、Hadoopの機能を利用して、生データをビジネスの洞察に変換するエンド・ツー・エンドの視覚的アナリティク機能のセットであり、複雑な製品を学習したり、スキルの高いリソースのみに依存する必要はありません。

データを見つけて検索や分析を行い、インサイトを見出して、意思決定や行動につなげることができます。

Big Data Discoveryソフトウェア・パッケージは、次の主なコンポーネントで構成されます:
  • Studioは、製品のフロントエンドWebアプリケーションであり、データ探索の様々なステージの統合されたインタフェースのセットが提供されます:

    カタログを使用してデータ・セットを見つけ、「探索」を使用して検索できます。

    次に、データ・セットをプロジェクトに追加できます。ここでデータ・セットを分析するか、「変換」を使用して変更を適用できます。

    Oracle Rなど他のツールでさらに分析するために、データをHiveにエクスポートすることもできます。 「探索」「変換」はどちらも、「プロジェクト」と呼ばれるユーザー・インタフェースの領域の一部です。 プロジェクトの一部であるデータ・セットや、プロジェクトには含まれないが「探索」には表示されるソース・データ・セットも確認できます。

  • 「Dgraphゲートウェイ」。データ索引付けおよび問合せ処理を実行するDgraphインスタンスへのリクエストのルーティングを実行します。
  • Dgraphは、Big Data Discoveryの問合せエンジンです。
  • 「データ処理」。HadoopのBDDの様々なデータ処理ワークフローを実行します。 たとえば、データ・ロードのワークフローの場合、Hiveにあるソース・データの検出、サンプリング、プロファイリングおよびエンリッチメントを実行します。

プロファイリング

「プロファイリング」は、データ処理コンポーネントによって実行されるデータ・ロード・ワークフローのステップです。

これにより、Hive表やCSVファイルなどのソース・データの特性と、そこに含まれる属性が検出され、属性名、属性データ型、属性のカーディナリティ(レコードが属性から持つ多数の個別値)、データ・セットの作成および更新日時などのメタデータが作成されます。 たとえば、特定のデータ・セットを構造化データ、ソーシャル・データまたは地理データの集合として認識できます。

「探索」を使用すると、属性値またはタイプの分布を詳細に確認できます。

「変換」を使用すると、これらのメタデータを調整または変更できます。 たとえば、Nullの属性値を実際の値で置き換えることや、他の非一貫性を修正すること(数値になるように調整する属性の変更など)ができます。

project

BDD 「プロジェクト」は、Studioのデータ・セットおよびユーザー・カスタマイズ・ページ用のコンテナです。 BDDのデータ・セットを使用する場合、Studioでプロジェクトにデータ・セットを配置します。 プロジェクトでは、チャートや表など、ビジュアライゼーションを使用してページを作成できます。

Studioのユーザーは、独自のプロジェクトを作成できます。 これは、独自のデータを検索するための個別のサンドボックスとして機能します。 プロジェクトでは、様々なサンプル・データ・セットの追加を試し、将来の詳細な分析のために、関心のあるデータ・セットを特定できます。

BDDプロジェクトでは、多くの場合(ただし常にそうではない)、サンプル・データで新規バージョンのサンプル・データをロードできます。 各BDDデプロイメントは、すべてのStudioユーザーに対して、何十個もの非定型のBDDプロジェクトをサポートできます。 最も興味深いまたは一般的なBDDプロジェクトをBDDアプリケーションに変えることができます。

プロジェクト内から、次のことが可能です:
  • データのサンプルについて考えてみましょう
  • データ・セットの探索および単純なアナリティクス質問への回答
  • データ・セットの変換
  • データ・セットのリンク
  • データ・セット・データのカスタム・ビューの作成
  • 保存して他のユーザーと共有

BDDアプリケーションも参照してください。

レコード

「レコード」は、属性についての割当ての集合です(値と呼ばれます)。 レコードはデータ・セットに属します。

たとえば、ストアで販売された製品を含むデータ・セットの場合、レコードにTシャツというアイテムを含めることができ、サイズはs、色はred、SKU1234が割り当てられます。 これらは、属性上の「値」です。

レコードを表形式で考えると、レコードが行で属性名は列ヘッダーになり、属性値は各列の値です。

レコード識別子(Studio)

Studio内の「レコード識別子」は、データ・セット内のレコードを一意に識別する1つ以上の属性です。

プロジェクト・データ・セットに対して増分更新を実行するには、データ・セット用に「レコード識別子」を用意し、データ処理ワークフローが更新する増分変更を決定し、プロジェクトにデータ・セット全体をロードする必要があります。 キーの一意性の割合が最も高い(100%が最適です)のレコード識別子を選択することをお薦めします。

絞込み状態

「絞込み状態」は、データ・セットをレコードのサブセットに絞り込むためのフィルタ指定(属性値の選択、範囲選択、検索)のセットです。

サンプル

「サンプル」は、Studioで対話するデータ・セットの索引付けされた代表的なサブセットです。 データ・ロードのワークフローの一部として、データ処理は、基礎となるHive表から単純なランダム・サンプルを抜き出し、Dgraphのデータベースを作成して、検索、対話型分析および無制限サイズのデータの探索を可能にします。

サンプルのデフォルト・サイズは100万レコードです。 サンプル・サイズは変更できます。

サンプリング

「サンプリング」は、データ・ロード・ワークフローにおいてデータ処理が実行されるステップです。 非常に大きなスケールでデータを操作すると、待機時間が発生し、データ分析のインタラクティブ性が低下します。 Big Data Discoveryでのこれらの問題を回避するために、HDFSで検出された大規模な表のレコードのサンプリングされたサブセットを操作できます。 完全な表のプロキシとしてサンプル・データを使用すると、フル・セットを使用しているかのようにデータを分析できます。

データ・ロード・ワークフローでは、データ処理がデータのランダムなサンプルを取ります。 デフォルトのサンプル・サイズは100万レコードです。 サンプル・サイズを調整できます。 ソースのHive表に現在の指定サンプル・サイズよりも少ないレコードがある場合は、すべてのレコードがロードされます。 これをデータ・セットは完全にロードされましたと呼びます。 レコードのサンプルをロードする場合でも、Studioデータ・セット・マネージャのオプションを使用して、後でBDDにフル・データ・セットをロードできます。

schema

「スキーマ」は、各属性の特性を含めて、データ・セット内の属性を定義します。

属性、データ・セット、Dgraphデータベース、レコード、型(属性)および値も参照してください。

スクラッチ・パッド

「スクラッチ・パッド」「探索」の一部で、複数の属性を使用してビジュアライゼーションをすばやく作成できます。 タイルをクリックするか、スクラッチ・パッド自体でtypeaheadを使用して、スクラッチ・パッドに属性を追加すると、スクラッチ・パッドの属性に基づいてデータの可視化がレンダリングされます。 これにより、このビジュアライゼーションを自分で構成するかわりにデータに集中できます。

スクラッチ・パッドでは、可視化のレンダリングに加えて、属性に対するいくつかの代替可視化が提供され、構成を変更することなく代替ビューに簡単に切り替えることができます。 プロジェクト内から、より詳細な構成を適用できるDiscoverのページにスクラッチ・パッドの可視化を保存できます。

セマンティク型

「セマンティク型」はStudioでの設定で、属性に関する追加情報を提供します。 Studioでの属性の使用方法を調整する属性への論理的な追加です。 属性にセマンティク型を追加した後、セマンティク型に基づいて検索およびナビゲートできます。 セマンティク型は、属性のデータ型を変更しません。

セマンティック・タイプは、属性がエンティティ(場所、個人、組織)、個人情報(SSN、電話番号、電子メールなど)、単位(通貨、温度など)、日時(年、月、日など)、およびデジタル情報(OSバージョン、IPアドレスなど)を表すかどうかを指定できます。たとえば、セマンティック・タイプを属性に追加し、価格や検索値で設定されたデータを絞り込むことができます。

セマンティク型の作成の詳細は、「Studioユーザー・ガイド」を参照してください。

ソース・データ

「ソース・データ」はCSVファイル、Excelファイル、JDBCデータ・ソースまたはHive表のいずれかです。 すべてのソース・データはHadoopに表示され、HDFSに格納されてHive表として登録されます。

データ・ロード・ワークフローによって、データ処理(DP)コンポーネントが実行されるソースHive表を検出できます。 データのロードの一部として、DPは特定のサイズのランダムなサンプルを取得し、データ・セットをDgraphに作成します。カタログには、探索と選択の可能性があります。

サンプリングされたソース・データがカタログに表示されると、Big Data Discoveryデータ・セットになり、ソースHive表のサンプルを表します。

BDDとHiveで見つかったソース・データ・セットとの相互作用の方法を次に示します:
  • BDDは、ソースHive表の更新や削除を行いません。 BDDが実行される場合は、BDDデータ・セットを表すために、新規のHive表のみが作成されます。 このようにして、Big Data Discoveryの外部で使用する場合、ソースHive表はそのまま保持されます。
  • BDDデータ・セット・ライフサイクルのほとんどのアクションは、ユーザーが選択すると実行されます。 実行する処理を制御します。 BDD内の索引付けは、自動的に実行されるステップです。

Studio

StudioはBig Data Discoveryのコンポーネントです。 Studioでは、様々なデータ操作に対応した、ビジネス・ユーザーによって使いやすいユーザー・インタフェースが用意されています。

Studioの表示内容の一部は常に表示されます。 たとえば、Studioには常に検索、「探索」「変換」およびDiscoverの各領域が含まれています。 インタフェースの他の部分は、必要に応じて追加できます。 これには、様々なタイプのデータ視覚化コンポーネントが含まれます。 たとえば、チャート、マップ、ピボット表、サマリー・バー、タイムラインおよびその他のコンポーネントを追加できます。 カスタム視覚化コンポーネントを作成することもできます。

Studioには、データ・セットのロード、探索、更新および変換のツールが用意されています。 これにより、1つ以上のデータ・セットを含むプロジェクトを作成し、データ・セットをリンクできます。 追加のデータを既存のプロジェクトにロードできます。 これにより、サンプルから完全にロードされたセットまでの分析済データのコーパスが増えます。 データ・セットを更新することもできます。 単純な変換でデータを変換し、変換スクリプトを記述できます。

Studio管理者は、プロジェクトに対するデータ・セットのアクセスおよびアクセスを制御できます。 ユーザー・ロールの設定と、その他のStudio設定の構成を行うことができます。

プロジェクトと設定はリレーショナル・データベースに格納されます。

トークン(Studio)

「トークン」は、カスタムのビジュアライゼーションを強化するEQL問合せでStudioが使用するプレースホルダー(または変数)です。 これにより、抽象EQL問合せを1回記述するだけで、Studioプロジェクトの他のユーザーが、必要に応じてトークンを別の値で置き換えることができます。

トークンには、EQL問合せの様々な側面(属性、ビュー、ソート、データなど)を表すことができます。 たとえば、EQL問合せでビュー・トークンを使用すると、プロジェクト・ユーザーは同じ問合せを複数回使用して、異なるビューをビジュアル化できます。 Studioカスタム視覚化エディタのEQL問合せ構文では、トークンはパーセント記号(%)で囲まれた文字列です。

EQL問合せを記述した後、書き込むEQLスクリプト内のトークンを検出するようにStudioにリクエストできます。 これにより、属性、ビューまたはソートを表すトークンを指定できます。 各トークンの対象を指定するまで、トークンは未割当てです。 データ以外のすべてのトークンは、ビジュアライゼーションの完了前に問合せロールに割り当てる必要があります。

カスタム視覚化コンポーネントも参照してください。

変換

「変換」は、「探索」およびDiscoverとともに、Studioの3つの主要領域の1つです。 「変換」は、プロジェクト・データ・セットを変更する場所です。 データ・セットの値とスキーマを編集して、データをクリーンアップするか、追加の値を追加できます。

「変換」は、通常、rigid ETLプロセスに制限されているデータ・クレンジング、操作およびエンリッチメント・アクティビティをロック解除します。 「変換」では、迅速でユーザー・ガイドの変換と、強力でGroovyベースのカスタム変換機能のリストを使用して、変換スクリプトを簡単に作成できます。

「変換」では、デフォルトのエンリッチメントおよび変換のリストを対話形式で指定するか、独自のカスタム変換を記述できます。 変換の適用結果のプレビューを表示できます。その後、編集可能な変換スクリプトに変換を追加し、プロジェクト・データ・セットに対して実行して保存します。

エクスプローラおよびDiscoverも参照してください。

変換エディタ

「変換エディタ」は、Studioでデータを変換し、多くの場合導出属性を作成する「変換」の一部です。 Groovyサポートとともに、「変換エディタ」は、データ変換、操作およびエンリッチメントのプロセスを高速化する、使いやすいデフォルト変換(Groovyに基づく)のリストへのアクセスを提供します。

変換スクリプト

「変換スクリプト」は、プロジェクト・データ・セットに対して実行するスクリプト内に編成された変換の連続セットです。 プロジェクト・データ・セットに対して変換スクリプトを実行すると、カタログには新しいエントリが作成されませんが、スクリプトの各変換ステップの影響は現在のプロジェクトに反映されます。

プロジェクト・データ・セットに対して変換スクリプトを実行した後、新しいバージョンのプロジェクト・データ・セットを作成して、それをカタログに公開することもできます。 これにより、Hadoopに新しいフル・データ・セットが作成されるため、Big Data DiscoveryおよびHadoop内の他のアプリケーションやツールで、変換されたデータの探索がロック解除されます。

変換スクリプトが他のStudioユーザーに役立つ場合は、スクリプトを公開することでスクリプトを共有でき、他のプロジェクトでのロードや実行が可能になります。

トランスフォーメーション

「変換」 (transformsとも呼ばれる)は、プロジェクト・データ・セットに対する個々の変更です。 たとえば、次の変換をすべて適用できます:
  • データ型の変更
  • 値の資産計上の変更
  • レコードの削除
  • 列の新たな列への分割(新しい属性の作成)
  • グループ値またはビン値
  • 値から情報を抽出

変換は、データのクレンジングを行うETLプロセスのかわりとみなすことができます。 変換は、既存の属性の上書き、属性の変更または新しい属性の作成に使用できます。

ほとんどの変換は、「変換」では直接一意のエディタとして使用できます。 変換の一部はエンリッチメントです。

Big Data Discoveryで使用できるGroovyスクリプト言語と、事前定義済のカスタムGroovyベース変換関数のリストを使用して、カスタム変換を作成できます。

エンリッチメント、変換、変換エディタも参照してください。

型(属性)

属性「タイプ」は、属性に割り当てることのできる値を決定します。 属性タイプの例には、Boolean、Integer、String、Date、DoubleおよびGeocodeがあります。

文字列属性には、テキスト検索に関連する追加特性があります。

属性、データ・セット、Dgraphデータベース、スキーマ、レコードおよび値も参照してください。

値(属性)

属性「値」は、特定のレコードの属性に割り当てられています。

たとえば、ストアで販売された製品を含むデータ・セットでは、レコードに次のものが含まれます:
  • "Item Name"という名前の属性の場合、属性値"t-shirt"への代入。
  • "Color"という名前の属性の場合、属性値に対する割当ては"red"になります。
  • "SKU"という名前の属性の場合、属性値"1234"への割当て

属性、データ・セット、Dgraphデータベース、スキーマ、レコードおよび型(属性)も参照してください。