用語集

属性

属性は、レコードの名前と値で構成され、レコードの情報を含みます。

列が表の行を説明するように、属性はBig Data Discoveryのレコードを説明します。属性のそれぞれのセットは、レコードの特定のデータ・セットに固有です。たとえば、店舗の製品で構成されるデータ・セットには、「品名」、「サイズ」、「色」、「SKU」などの属性が含まれ、レコードにはそれらの値が含まれます。レコードを表形式で考えると、レコードが行で属性名は列ヘッダーになります。属性値は各列の値です。

スキーマでの属性の構成によって、必須かどうか、一意かどうか、単一割当てか複数割当てかという、各属性の3つの特徴が制御されます。つまり、スキーマにおける属性の構成によって、属性の次の特徴が決定されます。
  • 必須。必須属性では、各レコードでその属性に少なくとも1つの値を割り当てる必要があります。
  • 一意。一意属性では、2つのレコードに同じ値を割り当てることはできません。
  • 単一値または複数値(単一割当てまたは複数割当てとも呼ばれる)。レコードで同一の属性について最大で1つの値しか持つことができないか、複数の値を割り当てることができるのかを示します。単一値属性は、1レコードで1つの値しか割り当てられません。たとえば、各品目が1つしかSKUを持つことができません。複数値属性は、1レコードで複数の値を割り当てることができます。たとえば、Color属性は1つのレコードで複数の値を持つことが認められます。

属性のこのような特徴は、索引における属性の型とともに、Dgraphで管理されるスキーマに基づくものです。さらに、Studioには絞込みモードまたはメトリック・フラグといった追加の特徴があります。Studioでは、属性の説明や表示名をローカライズすることもできます。

Big Data Discoveryに表示されるほとんどの属性は、基礎となるソース・データ内で表示されます。Big Data Discoveryではプロジェクト内で属性の新規作成、変更または削除を行うこともできます。このような変更はHiveのソース・データには保存されません。一部の属性は、Big Data Discoveryが検出したデータに対して実行するエンリッチメントの結果として生成されるものです。

「データ・セット」、「索引」、「スキーマ」、「レコード」、「型(属性)」および「値」も参照してください。

ベース・ビュー

データ・セットのベース・ビューは、プロジェクト・データ・セットの基本的な属性を表します。ベース・ビューではデータがありのままに表されます。データの集計、計算および視覚化に役立つカスタム・ビューを作成できます。

カスタム・ビューには、基礎となるデータで選択された特定の属性(つまり列)のデータしか含まれません。これによって様々なデータの見方が提供されます。各カスタム・ビューには、EQL文として表される定義があります。カスタム・ビューによってベース・ビューが消去されることはりません。ベース・ビューは常にシステムに存在します。

互いに平行な複数のカスタム・ビューをプロジェクト内に作成できます。

リンク・ビューは、データ・セットを結合すると自動的に作成されます。これは拡張されたデータのビューです。リンク・ビューは、元のデータ・セットと別のデータ・セットを結合して、ベース・ビューを拡張したものです。

BDDアプリケーション

BDDアプリケーションは、特性を持つ一種のBDDプロジェクトです。多くの場合、アプリケーションには1つ以上のデータ・セットが含まれ、その中の少なくとも1つは完全にロードされます。BDDアプリケーションではデータの変換および更新が可能です。データ更新は定期的に実行できます。BDDアプリケーションでは、長期のデータ分析および最新データのレポートを管理します。

BDDの任意のユーザーが作成可能な非定型の探索的BDDプロジェクトとは対照的に、BDD管理者は、BDD分析アプリケーションを所有および動作保証し、これらを他のチームと共有できます。

「プロジェクト」も参照してください。

Big Data Discoveryクラスタ

Big Data Discoveryクラスタは、任意の数のノードへのBig Data Discoveryコンポーネントのデプロイメントです。

デプロイメントのノードには次に示す様々な役割があります。
  • Hadoopノードは、Hadoopクラスタのマシンです。Big Data Discoveryをデプロイするときは、既存のHadoopクラスタがあるとみなされます。既存のHadoopクラスタの一部のマシンが、Big Data Discoveryのコンポーネント(Hadoopでの実行が必要なコンポーネント)がデプロイされるノードになることもあります。
  • WebLogic Serverノードは、Big Data DiscoveryのJavaベース・コンポーネント(StudioおよびDgraph Gateway)がWebLogic Server内で実行するマシンです。デプロイメント時に、これらのWebLogic Serverマシン(ノード)複数をBDDクラスタに追加できます。
  • Dgraph専用ノードは、Dgraphインスタンスが実行するBig Data Discoveryクラスタ内のマシンです。これらによって、Big Data Discoveryクラスタ・デプロイメント内にDgraphクラスタが形成されます。

ハードウェアを効率よく使用するためにBig Data Discoveryのデプロイには複数のオプションがあります。たとえば、Big Data Discoveryの様々な部分を同一ノードに配置できます。BDDクラスタ・デプロイメント・オプションの詳細は、『Oracle Big Data Discoveryインストレーションおよびデプロイメント・ガイド』を参照してください。

カタログ

「カタログ」は、次の項目がリストされるStudioアプリケーション内の場所です。
  • ユーザーにとって使用可能なデータ・セット
  • ユーザーがアクセスできるプロジェクト

「カタログ」には、新規データ・セットの作成、データ・セットの検索または既存プロジェクトのナビゲートのためのオプションが含まれます。

Big Data Discoveryのデータ処理コンポーネントが実行しているとき、使用可能なデータ・セットがBig Data DiscoveryによってHiveデータベースで検出され、プロファイリングされ、リストとして「カタログ」に表示されます。

その後、「カタログ」を使用して、データ・セットのメタデータやプロジェクトの様々な特徴に基づいてデータ・セットとプロジェクトのナビゲートしやフィルタ処理を行って、関心があるデータ・セットを特定できます。さらに検索するために、各データ・セットまたはプロジェクトに関するその他の詳細も表示できます。

Big Data Discoveryに最初にログインしたときは、「カタログ」には、検出されたデータ・セットのみが表示され、プロジェクトは表示されません。自分やグループのメンバーがプロジェクトを作成して共有すると、使用可能なデータ・セットに加えてそれらが「カタログ」にログイン時に表示されます。

「データ・セット」および「プロジェクト」も参照してください。

カスタム視覚化コンポーネント

カスタム視覚化コンポーネントは、Studioのデフォルトのコンポーネントが特定のデータ視覚化のニーズを満たさない場合に、カスタマイズされた視覚化の作成を可能にする、Studioへの拡張機能です。

カスタム・ビュー

カスタム・ビューは、データの集計、計算および視覚化に役立ちます。レコードの基礎データを含むベース・ビューに対して、カスタム・ビューには、基礎となるデータで選択された特定の属性(つまり列)のデータしか含まれません。このように、カスタム・ビューによって様々なデータの見方が提供されます。各カスタム・ビューには、EQL文として表される定義があります。

カスタム・ビューによってベース・ビューが消去されることはりません。ベース・ビューは常にシステムに存在します。互いに平行な複数のカスタム・ビューをプロジェクト内に作成できます。

「ベース・ビュー」と「リンク・ビュー」も参照してください。

データ・ロード

データ・ロードは、データ・セットをBDDにロードするためのプロセスです。データ・ロードは、Studio内、またはデータ処理CLIで実行できます。

Studioでは、個人ファイルをアップロードまたはJDBCソースからデータをアップロードすることでデータをロードできます。既存のデータ・セットを変換する最後のステップとして、新しいデータ・セットを追加することもできます。

DP CLIを使用してデータをロードするには、データ・ロード・ワークフローを手動で実行するか、スクリプトにデータ・ロード・ワークフローを追加します(このスクリプトは、Hiveのソース・データに対して実行され、ホワイトリストとブラックリスト、および他のDP CLIパラメータを使用して、ソース・データを検出してBDDにロードします)。

多くの場合、データのサンプルをBDDにロードできます。DP CLIのオプションを使用して、サンプル・サイズを変更できます。また、Studioでは、サンプリングされたデータで作成されたプロジェクトに完全なデータ・セットをロードできます。完全なデータのロードの詳細は、『Oracle Big Data Discoveryデータ検索および分析ガイド』を参照してください。

「サンプリング」および「データ更新」も参照してください。

データ処理(BDDのコンポーネント)

データ処理は、様々なデータ処理ワークフローを実行するBig Data Discoveryのコンポーネントです。

たとえば、データ・ロード・ワークフローでは、次のタスクを実行します。
  • Hive表内のデータの検出
  • BDD内へのデータ・セットの作成
  • 検出されたデータ・セットに対する一連のエンリッチメントの選択的実行
  • データ・セットのプロファイリング
  • 索引付け(索引を作成するDgraphプロセスを実行)

Big Data Discoveryの起動時にデータ処理ワークフローを起動するには、データ処理コマンドライン・インタフェース(DP CLI)を使用します。これにより、様々なデータ処理ワークフローを起動して、その動作を制御できます。詳細は、『Oracle Big Data Discoveryデータ処理ガイド』を参照してください。

「索引」、「エンリッチメント」、「サンプリング」および「プロファイリング」も参照してください。

データ・セット

Big Data Discoveryでは、データ・セットは、デリミタ付きファイル、Excelファイル、JDBCデータ・ソース、Hive表などのソース・データと対応するデータの論理単位です。

データ・セットは、Studioで「カタログ」のエントリとして使用できるようになります。データ・セットには、エンリッチメントが行われたデータや「変換」でデータに適用された変換が含まれることもあります。各データ・セットには、一連のDgraph索引ファイルが対応しています。

Big Data Discoveryではデータ・セットを次に示す様々な方法で作成できます。
  • Big Data Discoveryを起動して、そのデータ処理ワークフローをデータ・ロードに実行する場合
  • Studioを使用して個人データ・ファイル(デリミタ付きファイルまたはExcelファイル)をロードする場合
  • Studioを使用してJDBCデータ・ソースからデータをロードする場合
  • 「変換」機能を使用して、変換スクリプトの実行後に新しいデータ・セットを作成する場合
  • データ・セットをBDDからHiveにエクスポートし、BDDがそれを検出して「カタログ」に追加する場合。

「サンプリング」、「属性」、「索引」、「スキーマ」、「レコード」、「型(属性)」および「値」も参照してください。

データ・セットのインポート(個人データのアップロード)

データ・セットのインポート(または個人データのアップロード)は、ExcelまたはCSV (区切り)ファイルをアップロードして、Studioでデータ・セットを手動で作成するプロセスです。

データ更新

データ更新は、BDDにロードされたデータ・セットの変更を表します。複数のタイプの更新がサポートされています。

Studioの「カタログ」では、個人ファイルまたはJDBCソースからロードしたデータ・セットに対してデータ・セットのリロードを実行できます。これは、個人的にロードしらファイルまたはJDBCからのサンプルへの更新です。

DP CLIを使用すると、データのリフレッシュ増分更新の2つのタイプの更新を実行できます。これらの更新はスクリプトで実行可能なため、スクリプト化された更新とも呼ばれ、Studioのプロジェクトのデータ・セットに対して定期的に実行されます。

DP CLIのデータのリフレッシュ操作では、Studioプロジェクトの既存のデータ・セットをリロードし、データ・セットの内容全体をHiveからのデータ・セットで置き換えます。このタイプの更新では、古いデータは削除され、新しいデータに置き換わります。新しい属性が追加されたり、属性が削除される場合があります。また、属性のデータ型が変更される場合もあります。

DP CLIの増分更新操作では、すでにロードされているデータを削除することなく、新しいデータを既存のBDDアプリケーションに追加できます。このタイプの更新では、レコードのスキーマは変更できません。増分更新は、すでにロードされたデータを保持しながら、新しいデータの追加を続行する場合に最も便利です。たとえば、最近のTwitterフィードをすでにロードしたフィードに追加できます。

Dgraph

Dgraphは、データ・セットの検索分析処理を実行するBig Data Discoveryのコンポーネントです。これは、ユーザーがデータ・セットに対して行うリクエストを扱います。Dgraphは、データ構造とアルゴリズムを使用して、分析処理とデータ・サマリーのクライアント・リクエストにリアルタイムに応答します。

Dgraphは、ソース・データがBig Data Discoveryにロードされた後で作成される索引を格納します。索引が格納された後、Dgraphは、Studioを介してクライアント・リクエストを受信し、索引の問合せを行い、結果を返します。

Dgraphはステートレスになるように設計されています。この設計のため、リクエストごとに完全な問合せが送信される必要があります。ステートレス設計によって、ロード・バランシングや冗長性に備えてDgraphプロセスの追加(インストール時)が促進され、Dgraphのすべてのレプリカは、他のレプリカに関係なく問合せに応答できます。

Dgraph Gateway

Dgraph Gatewayは、Big Data DiscoveryのDgraph用のJavaベース・インタフェースであり、次の機能を備えています。
  • Dgraphインスタンスへのリクエストのルーティング
  • キャッシュ
  • Dgraphインスタンスのためのクラスタ・サービスの処理(HadoopのZooKeeperパッケージを使用)

BDDでは、Dgraph GatewayとStudioは同一のWebLogic Serverに配置される2つのJavaベース・アプリケーションです。

検出

「検出」は、「検索」「変換」と並び、Studioの主要な3つのモードすなわち領域の1つです。ユーザーは常に3つのモードのいずれかを使用します。

「検出」では、直感的に見て発見するための環境が提供され、多様な対話型視覚化コンポーネントを使用し、検出ダッシュボードを作成して共有できます。これを使用すると、異なるデータ・ソースをリンクして、新しいインサイトを検出し、スナップショットを使用して組織内に公開できます。

「検出」では、データの永続的な視覚化を作成し、プロジェクトの他のユーザーと共有します。

「検索」および「変換」も参照してください。

エンリッチメント

エンリッチメントは、RAWデータからセマンティック情報を抽出して検索と分析を可能にする、Big Data Discoveryのモジュールです。エンリッチメントは、データ・セットの追加情報(語、場所、使用言語、センチメント、キー・フレーズなど)から導出されます。エンリッチメントの結果として、地理的データや検出された言語の提案など、導出された追加属性(列)がデータ・セットに追加されます。

たとえば、BDDにはジオコードとIPアドレスから行政区分(都道府県や郡)を検索するエンリッチメントがあります。エンティティ、場所、キー・フレーズ、センチメントおよび他の項目をロング・テキスト・フィールドから抽出する、高度な統計方法を使用したテキスト・エンリッチメントもあります。

エンリッチメントには、導出された追加の意味をデータ・セットに追加できるものがあります。たとえば、正負のセンチメントをデータ・セットのレコードから導出できます。または、無効な値や一貫性のない値に対処するためのエンリッチメントもあります。

データのロードのデータ処理ワークフロー中に自動的に実行されるエンリッチメントもあります。このワークフローでは、Hive表のデータを検出し、データ・セット・サンプリングと初期データ・プロファイリングを実行します。プロファイリングによって属性が特定のエンリッチメントに適しているとわかると、データ・ロード・ワークフローの一部としてエンリッチメントが適用されます。

エンリッチメントが適用されたデータ・セットは「カタログ」に表示されます。これによって、検出された各データ・セットの最初のインサイトが提供され、さらに検索や分析を行う候補として価値があるかどうかを判別できます。

データ処理によるデータ・ロードの一部として適用可能なエンリッチメントの他に、「変換」「変換エディタ」からでもプロジェクト・データ・セットにエンリッチメントを適用できます。「変換」では、各タイプのエンリッチメントのパラメータを構成できます。このケースでは、エンリッチメントは使用可能な変換の1タイプです。

「変換」も参照してください。

Big Data Discovery対応Enterprise Managerプラグイン

Big Data Discovery対応Enterprise Managerプラグインによって、Oracle Enterprise Manager Cloud Controlが拡張され、Big Data Discoveryコンポーネントのモニタリング、診断および管理のサポートが追加されます。

Enterprise Managerプラグインには次の3つのターゲット・タイプが含まれます。
  • クラスタ・ターゲット
  • Dgraphターゲット
  • Studioターゲット

検索

「検索」は、単一のデータ・セットの属性およびその値を分析するStudioの領域です。「検索」には、「カタログ」またはプロジェクト内からアクセスできます。「検索」を使用して、単一のデータ・セットの属性とその値の分布を一度に分析できます。

「検索」の属性が名前で最初にソートされます。表示されている属性をフィルタ処理したり、ソート順序を変更したりすることができます。

「検索」では、属性ごとに、その属性のデータ型と値分布に最適な視覚化のセットが提供されます。これらの視覚化を使用して、データを把握して、関心のあるパターンを見つけたり、クリーンでないデータの優先順位を決定したりできます。

データ・セットの検索ではデータ・セットは変更されませんが、1つ以上のデータ・セット属性を使用する視覚化を作成して、プロジェクト・ページに保存することはできます。

「検出」および「変換」も参照してください。

HDFS/Hiveへのエクスポート

HDFS/Hiveへのエクスポートは、Big Data DiscoveryからHDFS/Hiveに分析結果をエクスポートするプロセスです。

Big Data Discoveryの観点では、Big Data DiscoveryからHDFS/Hiveへのファイルのエクスポートです。HDFSの観点では、Big Data Discoveryでの作業成果のHDFSへのインポートです。Big Data Discoveryでは、Dgraph HDFSエージェントがHDFSとの間のエクスポートとインポートを処理します。

HDFSへのエクスポート・プロセスをデータ・セットのインポート(個人データ・アップロード)と間違えないでください。この操作では、ファイルをStudioにアップロードしてデータ・セットをBDDに追加します(BDDがデータ・セットをHiveに追加する場合)。

索引

索引は、Big Data DiscoveryにおいてDgraphで問合せを実行できるデータ・セットの内容を表します。索引によって分析処理が強化されます。メモリーの永続ファイルとディスク上の両方に存在します。索引は、一連のファイルすべてと、それらに含まれる情報が内部で編成されている論理構造を指します。論理構造によって、データ・セットの内容と構造(スキーマ)の両方が説明されます。

索引には、問合せエンジン(Dgraph)が対話型問合せワークロードを効率よく実行できるようにデータが格納されています。また、問合せと更新を効果的に処理できるように設計されています。

データ・レコードとその属性を検索するとき、Big Data Discoveryはスキーマと索引を使用して、ユーザーがレコードのフィルタ処理、由来の特定(プロファイリング)、および使用可能な絞込みを使用したデータ検索を行えるようにします。

「属性」、「データ・セット」、「スキーマ」、「レコード」、「絞込み」、「型(属性)」および「値」も参照してください。

リンク・ビュー

リンク・ビューは、データ・セットを結合すると自動的に作成されます。これは拡張されたデータのビューです。リンク・ビューは、元のデータ・セットと別のデータ・セットを結合して、ベース・ビューを拡張したものです。

「ベース・ビュー」と「カスタム・ビュー」も参照してください。

メタデータ

各データ・セットには、様々なタイプのメタデータ(データ・セットの属性と値に関する概要情報)が含まれます。

基本的なメタデータは、データ処理の際にデータ・セットがHiveに登録されるときにデータ・セットの特徴から導出されます。これはデータ・プロファイリングと呼ばれます。Big Data Discoveryが初期データ・プロファイリングを実行し、様々なデータ・エンリッチメントの実行によって導出されたメタデータ(ジオコード値など)を追加します。

Big Data Discoveryでユーザーがデータを検索および分析すると、さらに次のようなメタデータが追加されます。
  • このデータ・セットを使用するプロジェクト
  • ソース・データが更新されたかどうか

一部のメタデータ(属性の型や、属性が複数値か単一値かなど)は、「変換」で変更できます。それ以外のメタデータは、データ処理時に割り当てられた値を使用します。

さらに、Studioでは様々なタイプの属性メタデータを使用できます。これには次のものがあります。

  • 属性の表示名と説明
  • 属性の書式設定プリファレンス
  • 属性で使用可能な集計関数とデフォルトの集計関数

Oracle Big Data Discovery

Oracle Big Data Discoveryは総合的な視覚分析機能のセットです。Hadoopの性能を活用して数分のうちにRAWデータをビジネス・インサイトに変換することができ、複雑な製品について学んだり、高度な技術力を備えた人材のみに依存したりする必要がありません。

データを見つけて検索や分析を行い、インサイトを見出して、意思決定や行動につなげることができます。

Big Data Discoveryソフトウェア・パッケージは次の主要なコンポーネントで構成されます。
  • Studio: 製品のフロントエンドWebアプリケーションです。データ検索の様々なステージのために統一された一連のインタフェースを備えています。

    「カタログ」を使用してデータ・セットを見つけ、「検索」を使用して検索できます。

    次に、データ・セットをプロジェクトに追加できます。ここでデータ・セットを分析するか、「変換」を使用して変更を適用できます。

    また、Oracle Rなど他のツールでさらに分析するために、データをHiveにエクスポートすることもできます。「検索」「変換」は、ユーザー・インタフェースでプロジェクトと呼ばれる領域に含まれます。プロジェクトの一部としてのデータ・セットを検索することも、どのプロジェクトにも含まれないが、「検索」に表示されるソース・データ・セットを検索することもできます。

  • Dgraph Gateway: データの索引付けと問合せ処理を実行するDgraphインスタンスへのリクエストのルーティングを実行します。
  • Dgraph: Big Data Discoveryの問合せエンジンです。
  • データ処理: HadoopのBDDの様々なデータ処理ワークフローを実行します。たとえば、データ・ロード・ワークフローの場合は、Hiveのソース・データに対して検出、サンプリング、プロファイリングおよびエンリッチメントを実行します。

プロファイリング

プロファイリングは、データ処理コンポーネントによって実行されるデータ・ロード・ワークフローのステップです。

Hive表やCSVファイルなどのソース・データの特性およびそれに含まれる属性を検出し、属性名、属性のデータ型、属性のカーディナリティ(1レコードの属性に含まれる個別値の数)およびデータ・セットの作成日時と更新日時などのメタデータを作成します。たとえば、特定のデータ・セットは、構造化データ、ソーシャル・データまたは地理データのコレクションとして識別できます。

「検索」を使用すると、属性の値や型の分布を詳しく調べることができます。

「変換」を使用すると、これらのメタデータの一部を調整または変更できます。たとえば、Null属性値を実際の値で置き換えたり、その他の不一致を修正したりできます(プロファイリングで文字列値と判断された属性の数値への変更など)。

プロジェクト

BDDプロジェクトは、データ・セットとユーザーがカスタマイズしたページのStudioでのコンテナです。BDDでデータ・セットを操作する場合は、Studioのプロジェクトに配置します。プロジェクトには、グラフや表などの視覚化を含むページを作成できます。

Studioのユーザーとして、独自のプロジェクトを作成できます。これは、独自のデータを検索するための個別のサンドボックスとして機能します。プロジェクトでは、様々なサンプル・データ・セットの追加を試し、将来の詳細な分析のために、関心の高いデータ・セットを特定できます。

BDDプロジェクトは、常にではありませんが多くの場合、サンプル・データで実行され、新しいバージョンのサンプル・データをロードできます。各BDDデプロイメントでは、すべてのStudioユーザーに対して数十の非定型の探索的BDDプロジェクトをサポートできます。最も関心のある、または最も一般的なBDDプロジェクトをBDDアプリケーションにすることができます。

プロジェクト内では次の操作を実行できます。
  • データのサンプルでのアイデアの試行
  • データ・セットの検索と分析に関する簡単な質問への回答
  • データ・セットの変換
  • データ・セットのリンク
  • データ・セット・データのカスタム・ビューの作成
  • 保存および他のユーザーとの共有

「BDDアプリケーション」も参照してください。

レコード

レコードは、属性に対する代入(値と呼ばれる)のコレクションです。レコードはデータ・セットに含まれます。

たとえば、店で販売された製品を含むデータ・セットの場合、レコードには品目名「t-shirt」、サイズ「S」、色「red」、SKU「1234」が含まれます。これらが属性のです。

レコードを表形式で考えると、レコードが行で属性名は列ヘッダーになり、属性値は各列の値です。

レコード識別子(Studio)

Studioのレコード識別子は、データ・セットのレコードを一意に識別する、データ・セットの1つ以上の属性です。

プロジェクト・データ・セットに対して増分更新を実行するには、更新する増分変更をデータ処理ワークフローで判断できるように、レコード識別子をデータ・セットに指定し、完全なデータ・セットをプロジェクトにロードする必要があります。キーの一意性の割合が最も高い(100%が最適です)のレコード識別子を選択することをお薦めします。

絞込み状態

絞込み状態は、データ・セットをレコードのサブセットに絞り込むための一連のフィルタ指定(属性値の選択、範囲の選択、検索)です。

サンプル

サンプルは、Studioで対話型操作を行うデータの索引付き代理サブセットです。データ処理では、データ・ロード・ワークフローの一部として、単純なランダム・サンプルが基礎となるHive表から抽出され、Dgraphで無制限のサイズのデータの検索、対話型分析および検索を行えるように索引が作成されます。

デフォルトのサンプル・サイズは100万レコードです。サンプル・サイズを変更できます。

サンプリング

サンプリングは、データ処理によって実行されるデータ・ロード・ワークフローのステップです。非常に大規模なデータを扱うと、待機時間が発生し、データ分析のインタラクティブ性が損なわれます。Big Data Discoveryでこれらの問題を回避するには、HDFS内で検出された大きい表からサンプリングされたレコードのサブセットを処理できます。サンプル・データを完全な表のかわりに使用して、完全なセットを使用しているかのようにデータを分析できます。

そのデータ・ロード・ワークフロー中に、データ処理によってデータのランダム・サンプルが取得されます。デフォルトのサンプル・サイズは100万レコードです。サンプル・サイズを調整できます。ソースのHive表に現在の指定サンプル・サイズよりも少ないレコードが含まれる場合は、すべてのレコードがロードされます。これは、「データ・セットが完全にロードされる」ともいいます。レコードのサンプルをロードする場合でも、Studioの「データ・セット・マネージャ」を使用して、完全なデータ・セットを後でBDDにロードできます。

スキーマ

スキーマは、各属性の特徴を含め、データ・セットの属性を定義します。

「属性」、「データ・セット」、「索引」、「レコード」、「型(属性)」および「値」も参照してください。

スクラッチパッド

スクラッチパッド(「検索」に含まれる)を使用すると、複数の属性を使用して簡単に視覚化を作成できます。タイルをクリックするか、スクラッチパッドの入力支援機能を利用して、スクラッチパッドに属性を追加すると、スクラッチパッドの属性に基づいてデータ視覚化が描画されます。これにより、この視覚化自体の構成ではなくデータに集中することができます。

視覚化が描画されるだけでなく、スクラッチパッドによって属性に対するかわりの視覚化がいくつか用意されるため、構成を変更せずに別のビューにすぐに切り替えることができます。プロジェクト内では、「検出」でスクラッチパッドの視覚化をページに保存でき、さらにきめ細かい構成を適用できます。

ソース・データ

ソース・データには、CSVファイル、Excelファイル、JDBCデータ・ソースまたはHive表があります。すべてのソース・データはHadoopで表示でき、HDFSに格納され、Hive表として登録されます。

ソースHive表は、データ処理(DR)コンポーネントで実行されるデータ・ロード・ワークフローで検出できます。DPでは、データ・ロードの一部として、特定サイズのランダム・サンプルを取得して、データ・セットをDgraphに作成し、検索や選択に備えて「カタログ」に表示します。

サンプリングされたソース・データが「カタログ」に表示されると、Big Data Discoveryのデータ・セットになり、ソースHive表のサンプルを表します。

Hiveで検索されたソース・データ・セットをBDDがどのように処理するかについて次に示します。
  • BDDでは、ソースのHive表の更新または削除は行われません。BDDを実行した場合、BDDデータ・セットを表す新しいHive表が作成されるのみです。このため、Big Data Discoveryの外部でソースのHive表を使用する場合、Hive表は変更されていません。
  • BDDデータ・セット・ライフサイクルで発生するほとんどのアクションは、ユーザーが選択しているため発生します。実行するアクションはユーザーが制御します。BDDの索引付けは自動的に実行されるステップです。

Studio

Studioは、Big Data Discoveryのコンポーネントです。Studioでは、様々なデータ操作に対応した、ビジネス・ユーザーによって使いやすいユーザー・インタフェースが用意されています。

Studioの一部の表示項目は常に表示されます。たとえば、Studioでは検索機能が常に表示され、「検索」「変換」および「検出」の領域が常に表示されます。必要に応じてインタフェースの他の部分を追加できます。これらには、多くのタイプのデータ視覚化コンポーネントが含まれます。たとえば、チャート、マップ、ピボット・テーブル、概要バー、タイムラインなどのコンポーネントを追加できます。カスタムの視覚化コンポーネントを作成することもできます。

Studioでは、データ・セットのロード、検索、更新および変換のツールが用意されています。これにより、1つ以上のデータ・セットでプロジェクトを作成し、データ・セットをリンクできます。多くのデータを既存のプロジェクトにロードできます。これにより、完全にロードされたセットのサンプルから、分析済のデータのコーパスが増加します。データ・セットを更新することもできます。単純な変換でデータを変換し、変換スクリプトを記述できます。

Studioの管理者は、データ・セット・アクセスおよびプロジェクトへのアクセスを制御できます。ユーザー・ロールを設定し、他のStudio設定を構成できます。

プロジェクトと設定はリレーショナル・データベースに格納されます。

トークン(Studio内)

トークンは、カスタム視覚化を強化するEQL問合せで、Studioが使用するプレースホルダ(変数)です。これにより、抽象EQL問合せを1回記述するだけで、Studioプロジェクトの他のユーザーが、必要に応じてトークンを別の値で置き換えることができます。

トークンは、属性、ビュー、ソート、データなど、EQL問合せの様々な側面を表すことができます。たとえば、EQL問合せでビュー・トークンを使用すると、プロジェクトのユーザーは同じ問合せを複数回使用して、様々なビューを視覚化できます。Studioのカスタム視覚化エディタのEQL問合せ構文では、トークンはパーセント記号(%)で囲まれた文字列になります。

EQL問合せを記述すると、記述したEQLスクリプトのトークンを検出するようにStudioにリクエストできます。これにより、属性、ビューまたはソートを表すトークンを指定できます。各トークンの対象を指定するまで、トークンは未割当てになります。データを除くすべてのトークンは、視覚化が完了する前に問合せロールに割り当てる必要があります。

「カスタム視覚化コンポーネント」も参照してください。

変換

「変換」は、「検索」「検出」と並び、Studioの主要な3つの領域の1つです。「変換」では、プロジェクト・データ・セットを変更します。データをクリーンアップするため、または値を追加するために、データ・セットの値やスキーマを編集できます。

「変換」では、一般的には厳密なETLプロセスに限定されている、データの整備、処理およびエンリッチメントのアクティビティが解放されます。「変換」では、簡単なユーザーガイド変換や、Groovyベースの高度なカスタム変換関数のリストを使用して、変換スクリプトを簡単に作成できます。

「変換」では、デフォルトのエンリッチメントと変換のリストを対話的に指定するか、独自のカスタム変換を記述できます。変換の適用結果のプレビューを表示できます。その後、編集可能な変換スクリプトに変換を追加し、プロジェクト・データ・セットに適用して保存します。

変換スクリプトを現在のプロジェクトに適用することも、変換スクリプトを使用して新しいデータ・セットを作成することもできます。変換スクリプトがプロジェクト・データ・セット(サンプル)に適用されると、新しいバージョンのプロジェクト・データ・セットが作成され、それが「カタログ」に公開されます。変換スクリプトを使用して新しいデータ・セットを作成することもできます。この場合、新しい完全なデータ・セットがHadoopに作成されるため、変換済データがBig Data DiscoveryおよびHadoopの他のアプリケーションやツールで検索できるように解放されます。

「検索」および「検出」も参照してください。

変換エディタ

「変換エディタ」はStudioの「変換」に含まれます。ここでは、Groovy言語を使用してデータを変換し、導出された属性を作成します。「変換エディタ」では、Groovyのサポートと一緒に、追加の使いやすいカスタム変換関数(Groovyベース)のリストへのアクセスが提供されます。これによって、データ変換、処理およびエンリッチメントのプロセスが短縮されます。

変換

変換はプロジェクト・データ・セットに対する変更です。たとえば、次の任意の変換を実行できます。
  • データ型の変更
  • 値の大文字表記の変更
  • レコードの削除
  • 列の新たな列への分割(新しい属性の作成)
  • 値のグループ化またはビン化
  • 値からの情報の抽出

変換は、データをクリーンアップするETLプロセスのかわりと考えることもできます。変換を使用して、既存の属性の上書き、属性の変更、または新しい属性の作成を行うことができます。

ほとんどの変換は、「変換」で直接実行できる特定のオプションとして用意されています。変換の一部はエンリッチメントです。

Groovyスクリプト言語と、Big Data Discoveryで提供されるカスタムの定義済Groovyベース変換関数のリストを使用して、変換スクリプトを作成できます。

変換スクリプトが適用されると、新しいバージョンのプロジェクト・データ・セットが作成され、それが「カタログ」に公開されます。変換スクリプトを現在のプロジェクトに適用することも、変換スクリプトを使用して新しいデータ・セットを作成することもできます。
  • 変換スクリプトをプロジェクトに適用すると、「カタログ」に新しいエントリは作成されませんが、現在のプロジェクトには変換スクリプトの効果が表示されます。
  • 変換スクリプトを使用して新しいデータ・セットを作成すると、新しいデータ・セットが「カタログ」に追加され、他のプロジェクトで使用できるようになります。新しいデータ・セットは、変換スクリプト適用後の元のソースHive表の新しいサンプルです。この方法で新しいデータ・セットを作成した場合、変換スクリプトは現在のプロジェクトに適用されません。

「エンリッチメント」、「変換」および「変換エディタ」も参照してください。

型(属性)

属性のによって、その属性に割り当てられる値が決まります。属性の型の例としては、Boolean、Integer、String、Date、DoubleおよびGeocodeがあります。

String属性には、テキスト検索に関連する追加の特徴があります。

「属性」、「データ・セット」、「索引」、「スキーマ」、「レコード」および「値」も参照してください。

値(属性)

属性のは、特定のレコードの属性に対する代入です。

たとえば、店で販売された製品を含むデータ・セットの場合、レコードには次の値が含まれます。
  • 名前が「Item Name」という属性では、属性値に「t-shirt」が代入されます。
  • 名前が「Color」という属性では、属性値に「red」が代入されます。
  • 名前が「SKU」という属性では、属性値に「1234」が代入されます。

「属性」、「データ・セット」、「索引」、「スキーマ」、「レコード」および「型(属性)」も参照してください。