用語集

属性

属性は、一連のレコードに関する情報の1つであり、名前が付けられています。レコードのフィールドの名前と値で構成さます。つまり、レコードのコア情報を含みます。

列が表の行を説明するように、属性はDgraphのレコードを説明します。属性のそれぞれのセットは、レコードの特定のデータ・セットに固有です。たとえば、店舗の製品で構成されるデータ・セットには、「品名」、「サイズ」、「色」、「SKU」などの属性が含まれ、レコードにはそれらの値が含まれます。

レコードを表形式で考えると、レコードが行で属性名は列ヘッダーになり、属性値は各列の値です。

Big Data Discoveryに表示されるほとんどの属性は、基礎となるソース・データ内で表示されますが、Big Data Discoveryではプロジェクト内で属性の新規作成、変更または削除を行うこともできます。(このような変更はソース・データには保存されません。)また、一部の属性は、Big Data Discoveryが検出したデータに対して実行した変換の結果として生成されるものです。

コレクション・スキーマでの属性の構成によって、必須かどうか、一意かどうか、単一割当か複数割当かという、各属性の3つの特徴が制御されます。つまり、スキーマにおける属性の構成によって、属性の次の特徴が決定されます。
  • 必須: 必須属性では、各レコードでその属性に少なくとも1つの値を割り当てる必要があります。
  • 一意: 一意属性では、2つのレコードに同じ値を割り当てることはできません。
  • 単一値または複数値 (単一割当または複数割当とも呼ばれる): レコードで同一の属性について最大で1つの値しか持つことができないか、複数の値を割り当てることができるのかを示します。

    単一値属性は、1レコードで1つの値しか割り当てられません。たとえば、各品目が1つしかSKUを持つことができません。

    複数値属性は、1レコードで複数の値を割り当てることができます。たとえば、Color属性は1つのレコードで複数の値を持つことが認められます。

属性のこのような特徴は、索引における属性の型とともに、Dgraphで管理されるスキーマに基づくものです。このような属性の特徴の他に、Studioには絞込みモードまたはメトリック・フラグといった追加の特徴があります。Studioでは、属性の説明や表示名をローカライズすることもできます。

「データ・セット」、「索引」、「スキーマ」、「レコード」、「型(属性)」および「値」も参照してください。

ベース・ビュー

データ・セットのベース・ビューは、プロジェクト・データ・セットの基本的な属性を表します。ベース・ビューではデータがありのままに表されます。

データの集計、計算および視覚化に役立つカスタム・ビューを作成できます。

カスタム・ビューには、基礎となるデータで選択された特定の属性(つまり列)のデータしか含まれません。これによって様々なデータの見方が提供されます。各カスタム・ビューには、EQL文として表される定義があります。カスタム・ビューによってベース・ビューが消去されることはりません。ベース・ビューは常にシステムに存在します。

互いに平行な複数のカスタム・ビューをプロジェクト内に作成できます。

リンク・ビューは、データ・セットを結合すると自動的に作成されます。これは拡張されたデータのビューです。リンク・ビューは、元のデータ・セットと別のデータ・セットを結合して、ベース・ビューを拡張したものです。

Big Data Discoveryクラスタ

Big Data Discoveryクラスタは、任意の数のノードへのBig Data Discoveryコンポーネントのデプロイメントです。

デプロイメントのノードには次に示す様々な役割があります。
  • CDHノードは、Cloudera (CDH)クラスタのマシンです。Big Data Discoveryをデプロイするときは、既存のCDHクラスタがあると見なされます。既存のCDHクラスタの一部のマシンが、Big Data Discoveryのコンポーネント(Hadoopでの実行が必要なコンポーネント)がデプロイされるノードになることもあります。
  • Weblogic Serverノードは、Big Data DiscoveryのJavaベース・コンポーネント(StudioおよびDgraph Gateway)がWeblogic Server内で実行するマシンです。デプロイメント時に、これらのWebLogic Serverマシン(ノード)複数をBDDクラスタに追加できます。
  • Dgraph専用ノードは、Dgraphインスタンスが実行するBig Data Discoveryクラスタ内のマシンです。これらによって、Big Data Discoveryクラスタ・デプロイメント内にDgraphクラスタが形成されます。
ハードウェアを効率よく使用するためにBig Data Discoveryのデプロイには複数のオプションがあります。たとえば、Big Data Discoveryの様々な部分を同一ノードに配置できます。Big Data Discoveryを効率よくデプロイできるように、次のような推奨デプロイメント・シナリオが提供されています。
  • 1台または2台のマシンでの学習/デモ用デプロイメント。
  • 6台1組のマシンに対する本番デプロイメント:
    • 3台: CDHクラスタのみを実行
    • 2台: StudioおよびDgraph GatewayのWeblogic Serverを実行
    • 1台: Dgraphを実行

    本番デプロイメントのノード数は6台未満(一部のソフトウェアを同じ場所に配置)でも6台より多くてもかまいません。

    インストレーションおよびデプロイメント・ガイドでデプロイメントの図および同じ場所への配置に関する考慮事項を参照してください。

カタログ

「カタログ」は、次の項目がリストされるStudioアプリケーション内の場所です。
  • ユーザーにとって使用可能なデータ・セット
  • ユーザーがアクセスできるプロジェクト

「カタログ」には、新規データ・セットの作成、データ・セットの検索または既存プロジェクトのナビゲートのためのオプションが含まれます。

Big Data Discoveryのデータ処理コンポーネントが実行しているとき、使用可能なデータ・セットがBig Data DiscoveryによってHiveデータベースで検出され、プロファイリングされ、リストとして「カタログ」に表示されます。

その後、「カタログ」を使用して、データ・セットのメタデータやプロジェクトの様々な特徴に基づいてデータ・セットとプロジェクトのナビゲートしやフィルタ処理を行って、関心があるデータ・セットを特定できます。さらに検索するために、各データ・セットまたはプロジェクトに関するその他の詳細も表示できます。

Big Data Discoveryに最初にログインしたときは、「カタログ」には、検出されたデータ・セットのみが表示され、プロジェクトは表示されません。自分やグループのメンバーがプロジェクトを作成して共有すると、使用可能なデータ・セットに加えてそれらが「カタログ」にログイン時に表示されます。

カスタム・ビュー

カスタム・ビューは、データの集計、計算および視覚化に役立ちます。レコードの基礎データを含むベース・ビューに対して、カスタム・ビューには、基礎となるデータで選択された特定の属性(つまり列)のデータしか含まれません。このように、カスタム・ビューによって様々なデータの見方が提供されます。各カスタム・ビューには、EQL文として表される定義があります。

カスタム・ビューによってベース・ビューが消去されることはりません。ベース・ビューは常にシステムに存在します。互いに平行な複数のカスタム・ビューをプロジェクト内に作成できます。

「ベース・ビュー」と「リンク・ビュー」も参照してください。

データ処理ワークフロー

データ処理ワークフロー(あるいはデータ処理)は、次を含むBig Data Discoveryの処理のステージです。
  • Hiveのデータの検出
  • データ・セットのサンプルの作成
  • 選択した一連のエンリッチメントのデータでの実行
  • データのプロファイリング
  • サンプルの索引付け

Big Data Discoveryが起動するとデータ処理は自動的に実行されます。管理者は、データ処理ワークフローを部分的に制御できます。詳細は、データ処理ガイドを参照してください。

「索引」、「エンリッチメント」、「サンプリング」および「プロファイリング」も参照してください。

データ・セット

Big Data Discoveryでは、データ・セットは、CSVファイル、ExcelファイルまたはHive表などのソース・データと対応するデータの論理単位です。データ・セットは、データ処理ワークフロー(データ処理、エンリッチメント、ソース・データの索引付けが含まれる)の結果として得られます。

データ・セットは、Studioで「カタログ」のエントリとして使用できるようになります。データ・セットには、エンリッチメントが行われたデータや「変換」でデータに適用された変換が含まれることもあります。各データ・セットには、一連のDgraph索引ファイルが対応しています。

Big Data Discoveryではデータ・セットを次に示す様々な方法で作成できます。
  • Big Data Discoveryを起動して、データ処理ワークフローを実行します。
  • 個人データ・ファイル(CSVまたはExcelファイル)をStudioにアップロードします。
  • 「変換」機能を使用し、変換スクリプトに基づいて新しいデータ・セットを作成します。

「属性」、「索引」、「スキーマ」、「レコード」、「型(属性)」および「値」も参照してください。

データ・セットのインポート(個人データのアップロード)

データ・セットのインポート(または個人データのアップロード)は、ExcelまたはCSV (区切り)ファイルをアップロードして、Studioでデータ・セットを手動で作成するプロセスです。

Dgraph

Dgraphによって、データ・セットの検索分析処理が強化されます。これは、ユーザーがデータ・セットに対して行うリクエストを扱います。Dgraphは、固有のデータ構造とアルゴリズムを使用して、分析処理とデータ・サマリーのクライアント・リクエストにリアルタイムに応答します。

Dgraphは、ソース・データが検出された後でBig Data Discoveryのデータ処理ステージで作成された索引を格納します。索引が格納されると、Dgraphは、Studioアプリケーション層を介してクライアント・リクエストを受信し、索引の問合せを行い、結果を返します。

Dgraphはステートレスになるように設計されています。この設計のため、リクエストごとに完全な問合せが送信される必要があります。ステートレス設計によって、ロード・バランシングや冗長性に備えてDgraphプロセスの追加(デプロイ時)が促進されます。Dgraphのすべてのレプリカは、他のレプリカに関係なく問合せに応答できます。

Dgraph Gateway

Dgraph Gatewayは、Big Data DiscoveryのDgraph用のJavaベース・インタフェースであり、次の機能を備えています。
  • Dgraphインスタンスへのリクエストのルーティング
  • キャッシュ
  • Dgraphインスタンスのためのクラスタ・サービスの処理(CDHのZooKeeperパッケージ使用)

BDDでは、Dgraph GatewayとStudioは同一のWebLogic Serverに配置される2つのJavaベース・アプリケーションです。デプロイメントでいくつかのWebLogic Serverを使用して、それぞれがStudioとDgraph Gatewayの追加インスタンスをホストすることができます。このケースでは、通常、デプロイメントでWebLogic Serverの前に外部ロード・バランサが含まれます。

検出

「検出」は、「検索」「変換」と並び、Studioの主要な3つのモードすなわち領域の1つです。ユーザーは常に3つのモードのいずれかを使用します。

「検出」では、直感的に見て発見するための環境が提供され、多様な対話型視覚化コンポーネントを使用し、検出ダッシュボードを作成して共有できます。これを使用すると、異なるデータ・ソースを混ぜ合せて、新しいインサイトを検出し、ブックマーク、スナップショットおよび検出ナレーティブを使用して組織内に公開できます。

「検索」「変換」とは異なり、「検出」ではデータの永続的な視覚化を作成してプロジェクトの他のユーザーと共有します。

エンリッチメント

「エンリッチメント」は、Big Data Discoveryに表示されるデータを検索と分析のために変更できるBig Data Discoveryのモジュールです。

エンリッチメントによって、検索と分析のためにRAWデータからセマンティック情報が抽出されます。たとえば、Big Data DiscoveryにはジオコードとIPアドレスから行政区分(都道府県や郡)を検索するエンリッチメントがあります。エンティティ、場所、キー・フレーズ、センチメントおよび他の項目をロング・テキスト・フィールドから抽出する、高度な統計方法を使用したテキスト・エンリッチメントもあります。

エンリッチメントの中には、抽出した意味をデータ・セットに追加できるものもあります。たとえば、データ・セットから肯定または否定のセンチメントを抽出できます。または、無効な値や一貫性のない値に対処するためのエンリッチメントもあります。

プロファイリングによって属性が特定のエンリッチメントに適しているとわかると、データ処理ワークフローで自動的に実行されるエンリッチメントもあります。データ処理の際には、Big Data DiscoveryがHive表のデータを検出し、データ・セット・サンプリングと初期データ・プロファイリングを実行します。

エンリッチメントは、データ・セットの追加情報(語、場所、使用言語、センチメント、キー・フレーズなど)から導出されます。Big Data Discoveryが、検出したデータ・セットごとに役立つエンリッチメントを判別し、データのサンプルに対して自動的にそのエンリッチメントを実行します。自動的に適用されたエンリッチメントの結果として、地理的データや検出された言語の提案など、導出された追加属性(列)がデータ・セットに追加されます。

この追加情報を含むデータ・セットが「カタログ」に表示されます。これによって、検出された各データ・セットの最初のインサイトが提供され、さらに検索や分析を行う候補として価値があるかどうかを判別できます。

自動適用エンリッチメントの他に、「変換」「変換エディタ」でもプロジェクト・データ・セットにエンリッチメントを適用できます。「変換」では、各タイプのエンリッチメントのパラメータを構成できます。このケースでは、エンリッチメントは使用可能な変換の1タイプです。

「変換」も参照してください。

Big Data Discovery対応Enterprise Managerプラグイン

Big Data Discovery対応Enterprise Managerプラグインによって、Oracle Enterprise Manager Cloud Controlが拡張され、Big Data Discoveryコンポーネントのモニタリング、診断および管理のサポートが追加されます。

Enterprise Managerプラグインには次の3つのターゲット・タイプが含まれます。
  • クラスタ・ターゲット
  • Dgraphターゲット
  • Studioターゲット

検索

「検索」は、Studioのユーザー・インタフェースのエリアです。ユーザーはここで「カタログ」とプロジェクトのいずれかから1つのデータ・セットを検索できます。

「検索」では、データの自動ガイド・ツアーが提供されます。各属性はタイルで表され、これには属性のプロファイリングに基づいた対話型のデータ視覚化が含まれます。これらの視覚化を使用して、RAW Hadoopデータを直感的に把握して、関心のあるパターンを見つけたり、クリーンでないデータの優先順位を決定したりできます。

「検索」を使用して、データ・セットの属性と値を分析します。一度に検索できるのは1つのデータ・セットです。

「検索」には、データ・セットの使用可能な属性が表示されます。属性は最初は名前順にソートされています。表示されている属性をフィルタ処理したり、ソート順序を変更したりすることができます。

「検索」では、属性ごとに、その属性のデータ型と値分布に最適な視覚化のセットが提供されます。

データ・セットの検索ではデータ・セットは変更されませんが、1つ以上のデータ・セット属性を使用する視覚化を作成して、プロジェクト・ページに保存することはできます。

HDFS/Hiveへのエクスポート

HDFS/Hiveへのエクスポートは、Big Data DiscoveryからHDFS/Hiveに分析結果をエクスポートするプロセスです。

Big Data Discoveryの観点では、このプロセスはBig Data DiscoveryからHDFS/Hiveへのエクスポートです。HDFSの観点では、Big Data Discoveryでの作業成果のHDFSへのインポートです。Big Data Discoveryでは、Dgraph HDFSエージェントがHDFSとの間のエクスポートとインポートを処理します。

HDFSへのエクスポート・プロセスをデータ・セットのインポート(個人データ・アップロード)と間違えないでください。この操作では、ファイルをアップロードしてデータ・セットを明示的にHDFSに追加します。

索引

索引は、Big Data DiscoveryにおいてDgraphで問合せを実行できるデータ・セットの内容を表します。

索引によって分析処理が強化されます。メモリーの永続ファイルとディスク上の両方に存在します。

索引は、一連のファイルすべてと、それらに含まれる情報が内部で編成されている論理構造を指します。論理構造によって、データ・セットの内容と構造(スキーマ)の両方が説明されます。

索引には、問合せエンジン(Dgraph)が対話型問合せワークロードを効率よく実行できるようにデータが格納されています。また、問合せと更新を効果的に処理できるように設計されています。

データ・レコードとその属性を検索するとき、Big Data Discoveryはスキーマと索引を使用して、ユーザーがレコードのフィルタ処理、由来の特定(プロファイリング)、および使用可能な絞込みを使用したデータ検索を行えるようにします。

「属性」、「データ・セット」、「スキーマ」、「レコード」、「絞込み」、「型(属性)」および「値」も参照してください。

リンク・ビュー

リンク・ビューは、データ・セットを結合すると自動的に作成されます。これは拡張されたデータのビューです。リンク・ビューは、元のデータ・セットと別のデータ・セットを結合して、ベース・ビューを拡張したものです。

「ベース・ビュー」と「カスタム・ビュー」も参照してください。

メタデータ

各データ・セットには、様々なタイプのメタデータ(データ・セットの属性と値に関する概要情報)が含まれます。

基本的なメタデータは、データ処理の際にデータ・セットがHiveに登録されるときにデータ・セットの特徴から導出されます。これはデータ・プロファイリングと呼ばれます。Big Data Discoveryが初期データ・プロファイリングを実行し、様々なデータ・エンリッチメントの実行によって導出されたメタデータ(ジオコード値など)を追加します。

Big Data Discoveryでユーザーがデータを検索および分析すると、さらに次のようなメタデータが追加されます。
  • このデータ・セットを使用するプロジェクト
  • ソース・データが更新されたかどうか

一部のメタデータ(属性の型や、属性が複数値か単一値かなど)は、「変換」で変更できます。それ以外のメタデータは、データ処理時に割り当てられた値を使用します。

さらに、Studioでは様々なタイプの属性メタデータを使用できます。次のものがあります。

  • 属性の表示名と説明
  • 属性の書式設定プリファレンス
  • 属性で使用可能な集計関数とデフォルトの集計関数

Oracle Big Data Discovery

Oracle Big Data Discoveryは総合的な視覚分析機能のセットです。Hadoopの性能を活用して数分のうちにRAWデータをビジネス・インサイトに変換することができ、複雑な製品について学んだり、高度な技術力を備えた人材のみに依存したりする必要がありません。

データを見つけて検索や分析を行い、インサイトを見出して、意思決定や行動につなげることができます。

Big Data Discoveryソフトウェア・パッケージは次の主要なコンポーネントで構成されます。
  • Studio: 製品のフロントエンドWebアプリケーションです。データ検索の様々なステージのために統一された一連のインタフェースを備えています。

    「カタログ」を使用してデータ・セットを見つけ、「検索」を使用して検索できます。

    次に、データ・セットをプロジェクトに追加できます。ここでデータ・セットを分析するか、「変換」を使用して変更を適用できます。

    また、Rなど他のツールでさらに分析するために、データをHiveにエクスポートすることもできます。「検索」「変換」は、ユーザー・インタフェースでプロジェクトと呼ばれる領域に含まれます。プロジェクトの一部としてのデータ・セットを検索することも、どのプロジェクトにも含まれないソース・データ・セットを検索することもできます。

  • Dgraph Gateway: データの索引付けと問合せ処理を実行するDgraphインスタンスへのリクエストのルーティングを実行します。
  • Dgraph: Big Data Discoveryの問合せエンジンです。
  • データ処理: CDHで実行し、ソース・データの検出、サンプリング、プロファイリング、エンリッチメントおよび変換を行います。

プロファイリング

プロファイリングは、ソース・データ(Hive表またはCSVファイル)やそれに含まれる属性の特徴を検出するデータ処理ワークフローのステップです。

Big Data Discoveryでは、プロファイリングによってメタデータが作成されます。これは、ユーザーの操作性の強化に使用され、インテリジェント機能に基づいて構成が自動化されます。プロファイリングで検出されるメタデータには、属性名、属性のデータ型、属性のカーディナリティ(1レコードの属性に含まれる個別値の数)およびデータ・セットの作成日時と更新日時が含まれます。たとえば、特定のデータ・セットは、構造化データ、ソーシャル・データまたは地理データのコレクションとして識別できます。

「検索」を使用すると、属性の値や型の分布を詳しく調べることができます。

「変換」を使用すると、これらのメタデータの一部を調整または変更できます。たとえば、Null属性値を実際の値で置き換えたり、その他の不一致を修正したりできます(プロファイリングで文字列値と判断された属性の数値への変更など)。

プロジェクト

プロジェクトは、データ・セットとユーザーがカスタマイズしたページのStudioでのコンテナです。

プロジェクトには、グラフや表などの視覚化を含むページを作成できます。このような視覚化を使用して、1つ以上のデータ・セットに対してさらに分析や検出を実行できます。

プロジェクト内では次の操作を実行できます。
  • データ・セットの検索
  • データ・セットの変換
  • データ・セットのリンク
  • データ・セット・データのカスタム・ビューの作成

プロジェクトを保存して他のユーザーと共有できます。

レコード

レコードは、属性に対する代入(値と呼ばれる)のコレクションです。レコードはデータ・セットに含まれます。

たとえば、店で販売された製品を含むデータ・セットの場合、レコードには品目名「t-shirt」、サイズ「S」、色「red」、SKU「1234」が含まれます。これらが属性のです。

レコードを表形式で考えると、レコードが行で属性名は列ヘッダーになり、属性値は各列の値です。

絞込み状態

絞込み状態は、データ・セットをレコードのサブセットに絞り込むための一連のフィルタ指定(属性値の選択、範囲の選択、検索)です。

サンプル

サンプルは、Studioで対話型操作を行うデータの索引付き代理サブセットです。データ処理によって、単純なランダム・サンプルが基礎となるHive表から抽出され、Dgraphで無制限のサイズのデータの検索、対話型分析および検索を行えるように索引が作成されます。

サンプルのデフォルト・サイズは100万レコードですが、必要に応じてサンプル・サイズの指定や異なるサイズのサンプルの受入れが可能です。

サンプリング

サンプリングは、サンプルが取得されるBig Data Discoveryデータ処理ステージのステップです。非常に大規模なデータを扱うと、待機時間が発生し、データ分析のインタラクティブ性が損なわれます。Big Data Discoveryでのこれらの問題を回避するために、HDFSで検出された大きな表からレコードのサブセットをサンプリングして作業します。サンプル・データを完全な表のかわりに使用して、完全なセットを使用しているかのようにデータを分析できます。

データ処理の際に、データのランダム・サンプルが取得されます。デフォルトのサンプル・サイズは100万レコードです。管理者はサンプル・サイズを調整できます。ソースのHive表に現在の指定サンプル・サイズよりも少ないレコードが含まれる場合は、すべてのレコードがフェッチされます。

スキーマ

スキーマは、各属性のすべての特徴を含め、データ・セットのすべての属性を定義します。

「属性」、「データ・セット」、「索引」、「レコード」、「型(属性)」および「値」も参照してください。

スクラッチパッド

スクラッチパッド(「検索」に含まれる)を使用すると、複数の属性を使用して簡単に視覚化を作成できます。タイルをクリックするか、スクラッチパッドの入力支援機能を利用して、スクラッチパッドに属性を追加すると、スクラッチパッドのすべての属性に基づいてベストプラクティス・データ視覚化が自動的に描画されます。これにより、グラフの構成ではなくデータに集中することができます。視覚化が自動描画されるだけでなく、スクラッチパッドによって属性に対するかわりの視覚化がいくつか用意されるため、構成を変更せずに別のビューにすぐに切り替えることができます。プロジェクト内では、「検出」でスクラッチパッドの視覚化をページに保存できます。このページを検出ダッシュボードで使用して、さらにきめ細かい構成を適用できます。

ソース・データ

ソース・データには、CSVファイル、ExcelファイルまたはHive表があります。すべてのソース・データはHadoopで表示でき、HDFSに格納され、Hive表として登録されます。

ソースHive表は、Big Data Discoveryのデータ処理ワークフローで検出できます。データ処理は、特定サイズのランダム・サンプルを取得し、データ・セットをDgraphに作成し、検索や選択に備えて「カタログ」に表示します。

サンプリングされたソース・データが「カタログ」に表示されると、Big Data Discoveryのデータ・セットになり、ソースHive表のサンプルを表します。

Studio

Studioは、Big Data DiscoveryのフロントエンドWebアプリケーションです。Studioは、Big Data Discoveryのコンポーネントであり、ユーザー・インタフェースを含み、データ・セットとプロジェクトを作成して管理するツールをユーザーに提供し、ユーザー・アクセスや他の設定を管理するツールを管理者に提供します。

プロジェクトと設定はリレーショナル・データベースに格納されます。

変換

「変換」は、「検索」「検出」と並び、Studioの主要な3つの領域の1つです。「変換」では、プロジェクト・データ・セットを変更します。データをクリーンアップするため、または値を追加するために、データ・セットの値やスキーマを編集できます。

「変換」では、一般的には厳密なETLプロセスに限定されている、データの整備、処理およびエンリッチメントのアクティビティが解放されます。「変換」では、簡単なユーザーガイド変換や、Groovyベースの高度なカスタム変換関数のリストを使用して、変換スクリプトを簡単に作成できます。

「変換」では、デフォルトのエンリッチメントと変換のリストを対話的に指定するか、独自のカスタム変換を記述できます。変換の適用結果のプレビューを表示できます。その後、編集可能な変換スクリプトに変換を追加し、プロジェクト・データ・セットに適用して保存します。

変換スクリプトを現在のプロジェクトに適用することも、変換スクリプトを使用して新しいデータ・セットを作成することもできます。変換スクリプトがプロジェクト・データ・セット(サンプル)に適用されると、新しいバージョンのプロジェクト・データ・セットが作成され、それが「カタログ」に公開されます。変換スクリプトを使用して新しいデータ・セットを作成することもできます。この場合、新しい完全なデータ・セットがHadoopに作成されるため、変換済データがBig Data DiscoveryおよびHadoopの他のアプリケーションやツールで検索できるように解放されます。

変換エディタ

「変換エディタ」はStudioの「変換」に含まれます。ここでは、Groovy言語を使用してデータを変換し、導出された属性を作成します。「変換エディタ」では、Groovyのサポートと一緒に、追加の使いやすいカスタム変換関数(Groovyベース)のリストへのアクセスが提供されます。これによって、データ変換、処理およびエンリッチメントのプロセスが短縮されます。

変換

変換はプロジェクト・データ・セットに対する変更です。たとえば、次の任意の変換を実行できます。
  • データ型の変更
  • 値の大文字表記の変更
  • 属性またはレコードの削除
  • 列の新たな列への分割(新しい属性の作成)
  • 値のグループ化またはビン化
  • 値からの情報の抽出

変換は、データをクリーンアップするETLプロセスのかわりと考えることもできます。変換を使用して、既存の属性の上書き、属性の変更、または新しい属性の作成を行うことができます。

ほとんどの変換は、「変換」で直接実行できる特定のオプションとして用意されています。変換の一部はエンリッチメントです。

Groovyスクリプト言語と、Big Data Discoveryで提供されるカスタムの定義済Groovyベース変換関数のリストを使用して、変換スクリプトを作成できます。

変換スクリプトが適用されると、新しいバージョンのプロジェクト・データ・セットが作成され、それが「カタログ」に公開されます。変換スクリプトを現在のプロジェクトに適用することも、変換スクリプトを使用して新しいデータ・セットを作成することもできます。
  • 変換スクリプトをプロジェクトに適用すると、「カタログ」に新しいエントリは作成されませんが、現在のプロジェクトには変換スクリプトの効果が表示されます。
  • 変換スクリプトを使用して新しいデータ・セットを作成すると、新しいデータ・セットが「カタログ」に追加され、他のプロジェクトで使用できるようになります。新しいデータ・セットは、変換スクリプト適用後の元のソースHive表の新しいサンプルです。この方法で新しいデータ・セットを作成した場合、変換スクリプトは現在のプロジェクトに適用されません。

「エンリッチメント」、「変換」および「変換エディタ」も参照してください。

型(属性)

属性のによって、その属性に割り当てられる値が決まります。属性の型の例としては、Boolean、Integer、String、Date、DoubleおよびGeocodeがあります。

String属性には、テキスト検索に関連する追加の特徴があります。

「属性」、「データ・セット」、「索引」、「スキーマ」、「レコード」および「値」も参照してください。

値(属性)

属性のは、特定のレコードの属性に対する代入です。

たとえば、店で販売された製品を含むデータ・セットの場合、レコードには次の値が含まれます。
  • 名前が「Item Name」という属性では、属性値に「t-shirt」が代入されます。
  • 名前が「Color」という属性では、属性値に「red」が代入されます。
  • 名前が「SKU」という属性では、属性値に「1234」が代入されます。

「属性」、「データ・セット」、「索引」、「スキーマ」、「レコード」および「型(属性)」も参照してください。