属性は、レコードの名前と値で構成され、レコードの情報を含みます。
列が表の行を説明するように、属性はBig Data Discoveryのレコードを説明します。属性のそれぞれのセットは、レコードの特定のデータ・セットに固有です。たとえば、店舗の製品で構成されるデータ・セットには、「品名」、「サイズ」、「色」、「SKU」などの属性が含まれ、レコードにはそれらの値が含まれます。レコードを表形式で考えると、レコードが行で属性名は列ヘッダーになります。属性値は各列の値です。
属性のこのような特徴は、索引における属性の型とともに、Dgraphで管理されるスキーマに基づくものです。さらに、Studioには絞込みモードまたはメトリック・フラグといった追加の特徴があります。Studioでは、属性の説明や表示名をローカライズすることもできます。
Big Data Discoveryに表示されるほとんどの属性は、基礎となるソース・データ内で表示されます。Big Data Discoveryではプロジェクト内で属性の新規作成、変更または削除を行うこともできます。このような変更はHiveのソース・データには保存されません。一部の属性は、Big Data Discoveryが検出したデータに対して実行するエンリッチメントの結果として生成されるものです。
「データ・セット」、「索引」、「スキーマ」、「レコード」、「型(属性)」および「値」も参照してください。
データ・セットのベース・ビューは、プロジェクト・データ・セットの基本的な属性を表します。ベース・ビューではデータがありのままに表されます。データの集計、計算および視覚化に役立つカスタム・ビューを作成できます。
カスタム・ビューには、基礎となるデータで選択された特定の属性(つまり列)のデータしか含まれません。これによって様々なデータの見方が提供されます。各カスタム・ビューには、EQL文として表される定義があります。カスタム・ビューによってベース・ビューが消去されることはりません。ベース・ビューは常にシステムに存在します。
互いに平行な複数のカスタム・ビューをプロジェクト内に作成できます。
リンク・ビューは、データ・セットを結合すると自動的に作成されます。これは拡張されたデータのビューです。リンク・ビューは、元のデータ・セットと別のデータ・セットを結合して、ベース・ビューを拡張したものです。
BDDアプリケーションは、特性を持つ一種のBDDプロジェクトです。多くの場合、アプリケーションには1つ以上のデータ・セットが含まれ、その中の少なくとも1つは完全にロードされます。BDDアプリケーションではデータの変換および更新が可能です。データ更新は定期的に実行できます。BDDアプリケーションでは、長期のデータ分析および最新データのレポートを管理します。
BDDの任意のユーザーが作成可能な非定型の探索的BDDプロジェクトとは対照的に、BDD管理者は、BDD分析アプリケーションを所有および動作保証し、これらを他のチームと共有できます。
「プロジェクト」も参照してください。
Big Data Discoveryクラスタは、任意の数のノードへのBig Data Discoveryコンポーネントのデプロイメントです。
ハードウェアを効率よく使用するためにBig Data Discoveryのデプロイには複数のオプションがあります。たとえば、Big Data Discoveryの様々な部分を同一ノードに配置できます。BDDクラスタ・デプロイメント・オプションの詳細は、『Oracle Big Data Discoveryインストレーションおよびデプロイメント・ガイド』を参照してください。
「カタログ」には、新規データ・セットの作成、データ・セットの検索または既存プロジェクトのナビゲートのためのオプションが含まれます。
Big Data Discoveryのデータ処理コンポーネントが実行しているとき、使用可能なデータ・セットがBig Data DiscoveryによってHiveデータベースで検出され、プロファイリングされ、リストとして「カタログ」に表示されます。
その後、「カタログ」を使用して、データ・セットのメタデータやプロジェクトの様々な特徴に基づいてデータ・セットとプロジェクトのナビゲートしやフィルタ処理を行って、関心があるデータ・セットを特定できます。さらに検索するために、各データ・セットまたはプロジェクトに関するその他の詳細も表示できます。
Big Data Discoveryに最初にログインしたときは、「カタログ」には、検出されたデータ・セットのみが表示され、プロジェクトは表示されません。自分やグループのメンバーがプロジェクトを作成して共有すると、使用可能なデータ・セットに加えてそれらが「カタログ」にログイン時に表示されます。
「データ・セット」および「プロジェクト」も参照してください。
カスタム視覚化コンポーネントは、Studioのデフォルトのコンポーネントが特定のデータ視覚化のニーズを満たさない場合に、カスタマイズされた視覚化の作成を可能にする、Studioへの拡張機能です。
カスタム・ビューは、データの集計、計算および視覚化に役立ちます。レコードの基礎データを含むベース・ビューに対して、カスタム・ビューには、基礎となるデータで選択された特定の属性(つまり列)のデータしか含まれません。このように、カスタム・ビューによって様々なデータの見方が提供されます。各カスタム・ビューには、EQL文として表される定義があります。
カスタム・ビューによってベース・ビューが消去されることはりません。ベース・ビューは常にシステムに存在します。互いに平行な複数のカスタム・ビューをプロジェクト内に作成できます。
「ベース・ビュー」と「リンク・ビュー」も参照してください。
Studioでは、個人ファイルをアップロードまたはJDBCソースからデータをアップロードすることでデータをロードできます。既存のデータ・セットを変換する最後のステップとして、新しいデータ・セットを追加することもできます。
DP CLIを使用してデータをロードするには、データ・ロード・ワークフローを手動で実行するか、スクリプトにデータ・ロード・ワークフローを追加します(このスクリプトは、Hiveのソース・データに対して実行され、ホワイトリストとブラックリスト、および他のDP CLIパラメータを使用して、ソース・データを検出してBDDにロードします)。
多くの場合、データのサンプルをBDDにロードできます。DP CLIのオプションを使用して、サンプル・サイズを変更できます。また、Studioでは、サンプリングされたデータで作成されたプロジェクトに完全なデータ・セットをロードできます。完全なデータのロードの詳細は、『Oracle Big Data Discoveryデータ検索および分析ガイド』を参照してください。
「サンプリング」および「データ更新」も参照してください。
データ処理は、様々なデータ処理ワークフローを実行するBig Data Discoveryのコンポーネントです。
Big Data Discoveryの起動時にデータ処理ワークフローを起動するには、データ処理コマンドライン・インタフェース(DP CLI)を使用します。これにより、様々なデータ処理ワークフローを起動して、その動作を制御できます。詳細は、『Oracle Big Data Discoveryデータ処理ガイド』を参照してください。
「索引」、「エンリッチメント」、「サンプリング」および「プロファイリング」も参照してください。
Big Data Discoveryでは、データ・セットは、デリミタ付きファイル、Excelファイル、JDBCデータ・ソース、Hive表などのソース・データと対応するデータの論理単位です。
データ・セットは、Studioで「カタログ」のエントリとして使用できるようになります。データ・セットには、エンリッチメントが行われたデータや「変換」でデータに適用された変換が含まれることもあります。各データ・セットには、一連のDgraph索引ファイルが対応しています。
「サンプリング」、「属性」、「索引」、「スキーマ」、「レコード」、「型(属性)」および「値」も参照してください。
データ・セットのインポート(または個人データのアップロード)は、ExcelまたはCSV (区切り)ファイルをアップロードして、Studioでデータ・セットを手動で作成するプロセスです。
Studioの「カタログ」では、個人ファイルまたはJDBCソースからロードしたデータ・セットに対してデータ・セットのリロードを実行できます。これは、個人的にロードしらファイルまたはJDBCからのサンプルへの更新です。
DP CLIを使用すると、データのリフレッシュと増分更新の2つのタイプの更新を実行できます。これらの更新はスクリプトで実行可能なため、スクリプト化された更新とも呼ばれ、Studioのプロジェクトのデータ・セットに対して定期的に実行されます。
DP CLIのデータのリフレッシュ操作では、Studioプロジェクトの既存のデータ・セットをリロードし、データ・セットの内容全体をHiveからのデータ・セットで置き換えます。このタイプの更新では、古いデータは削除され、新しいデータに置き換わります。新しい属性が追加されたり、属性が削除される場合があります。また、属性のデータ型が変更される場合もあります。
DP CLIの増分更新操作では、すでにロードされているデータを削除することなく、新しいデータを既存のBDDアプリケーションに追加できます。このタイプの更新では、レコードのスキーマは変更できません。増分更新は、すでにロードされたデータを保持しながら、新しいデータの追加を続行する場合に最も便利です。たとえば、最近のTwitterフィードをすでにロードしたフィードに追加できます。Dgraphは、データ・セットの検索分析処理を実行するBig Data Discoveryのコンポーネントです。これは、ユーザーがデータ・セットに対して行うリクエストを扱います。Dgraphは、データ構造とアルゴリズムを使用して、分析処理とデータ・サマリーのクライアント・リクエストにリアルタイムに応答します。
Dgraphは、ソース・データがBig Data Discoveryにロードされた後で作成される索引を格納します。索引が格納された後、Dgraphは、Studioを介してクライアント・リクエストを受信し、索引の問合せを行い、結果を返します。
Dgraphはステートレスになるように設計されています。この設計のため、リクエストごとに完全な問合せが送信される必要があります。ステートレス設計によって、ロード・バランシングや冗長性に備えてDgraphプロセスの追加(インストール時)が促進され、Dgraphのすべてのレプリカは、他のレプリカに関係なく問合せに応答できます。
BDDでは、Dgraph GatewayとStudioは同一のWebLogic Serverに配置される2つのJavaベース・アプリケーションです。
「検出」は、「検索」と「変換」と並び、Studioの主要な3つのモードすなわち領域の1つです。ユーザーは常に3つのモードのいずれかを使用します。
「検出」では、直感的に見て発見するための環境が提供され、多様な対話型視覚化コンポーネントを使用し、検出ダッシュボードを作成して共有できます。これを使用すると、異なるデータ・ソースをリンクして、新しいインサイトを検出し、スナップショットを使用して組織内に公開できます。
「検出」では、データの永続的な視覚化を作成し、プロジェクトの他のユーザーと共有します。
「検索」および「変換」も参照してください。
エンリッチメントは、RAWデータからセマンティック情報を抽出して検索と分析を可能にする、Big Data Discoveryのモジュールです。エンリッチメントは、データ・セットの追加情報(語、場所、使用言語、センチメント、キー・フレーズなど)から導出されます。エンリッチメントの結果として、地理的データや検出された言語の提案など、導出された追加属性(列)がデータ・セットに追加されます。
たとえば、BDDにはジオコードとIPアドレスから行政区分(都道府県や郡)を検索するエンリッチメントがあります。エンティティ、場所、キー・フレーズ、センチメントおよび他の項目をロング・テキスト・フィールドから抽出する、高度な統計方法を使用したテキスト・エンリッチメントもあります。
エンリッチメントには、導出された追加の意味をデータ・セットに追加できるものがあります。たとえば、正負のセンチメントをデータ・セットのレコードから導出できます。または、無効な値や一貫性のない値に対処するためのエンリッチメントもあります。
データのロードのデータ処理ワークフロー中に自動的に実行されるエンリッチメントもあります。このワークフローでは、Hive表のデータを検出し、データ・セット・サンプリングと初期データ・プロファイリングを実行します。プロファイリングによって属性が特定のエンリッチメントに適しているとわかると、データ・ロード・ワークフローの一部としてエンリッチメントが適用されます。
エンリッチメントが適用されたデータ・セットは「カタログ」に表示されます。これによって、検出された各データ・セットの最初のインサイトが提供され、さらに検索や分析を行う候補として価値があるかどうかを判別できます。
データ処理によるデータ・ロードの一部として適用可能なエンリッチメントの他に、「変換」の「変換エディタ」からでもプロジェクト・データ・セットにエンリッチメントを適用できます。「変換」では、各タイプのエンリッチメントのパラメータを構成できます。このケースでは、エンリッチメントは使用可能な変換の1タイプです。
「変換」も参照してください。
Big Data Discovery対応Enterprise Managerプラグインによって、Oracle Enterprise Manager Cloud Controlが拡張され、Big Data Discoveryコンポーネントのモニタリング、診断および管理のサポートが追加されます。
「検索」は、単一のデータ・セットの属性およびその値を分析するStudioの領域です。「検索」には、「カタログ」またはプロジェクト内からアクセスできます。「検索」を使用して、単一のデータ・セットの属性とその値の分布を一度に分析できます。
「検索」の属性が名前で最初にソートされます。表示されている属性をフィルタ処理したり、ソート順序を変更したりすることができます。
「検索」では、属性ごとに、その属性のデータ型と値分布に最適な視覚化のセットが提供されます。これらの視覚化を使用して、データを把握して、関心のあるパターンを見つけたり、クリーンでないデータの優先順位を決定したりできます。
データ・セットの検索ではデータ・セットは変更されませんが、1つ以上のデータ・セット属性を使用する視覚化を作成して、プロジェクト・ページに保存することはできます。
「検出」および「変換」も参照してください。
HDFS/Hiveへのエクスポートは、Big Data DiscoveryからHDFS/Hiveに分析結果をエクスポートするプロセスです。
Big Data Discoveryの観点では、Big Data DiscoveryからHDFS/Hiveへのファイルのエクスポートです。HDFSの観点では、Big Data Discoveryでの作業成果のHDFSへのインポートです。Big Data Discoveryでは、Dgraph HDFSエージェントがHDFSとの間のエクスポートとインポートを処理します。
HDFSへのエクスポート・プロセスをデータ・セットのインポート(個人データ・アップロード)と間違えないでください。この操作では、ファイルをStudioにアップロードしてデータ・セットをBDDに追加します(BDDがデータ・セットをHiveに追加する場合)。
索引は、Big Data DiscoveryにおいてDgraphで問合せを実行できるデータ・セットの内容を表します。索引によって分析処理が強化されます。メモリーの永続ファイルとディスク上の両方に存在します。索引は、一連のファイルすべてと、それらに含まれる情報が内部で編成されている論理構造を指します。論理構造によって、データ・セットの内容と構造(スキーマ)の両方が説明されます。
索引には、問合せエンジン(Dgraph)が対話型問合せワークロードを効率よく実行できるようにデータが格納されています。また、問合せと更新を効果的に処理できるように設計されています。
データ・レコードとその属性を検索するとき、Big Data Discoveryはスキーマと索引を使用して、ユーザーがレコードのフィルタ処理、由来の特定(プロファイリング)、および使用可能な絞込みを使用したデータ検索を行えるようにします。
「属性」、「データ・セット」、「スキーマ」、「レコード」、「絞込み」、「型(属性)」および「値」も参照してください。
リンク・ビューは、データ・セットを結合すると自動的に作成されます。これは拡張されたデータのビューです。リンク・ビューは、元のデータ・セットと別のデータ・セットを結合して、ベース・ビューを拡張したものです。
「ベース・ビュー」と「カスタム・ビュー」も参照してください。
各データ・セットには、様々なタイプのメタデータ(データ・セットの属性と値に関する概要情報)が含まれます。
基本的なメタデータは、データ処理の際にデータ・セットがHiveに登録されるときにデータ・セットの特徴から導出されます。これはデータ・プロファイリングと呼ばれます。Big Data Discoveryが初期データ・プロファイリングを実行し、様々なデータ・エンリッチメントの実行によって導出されたメタデータ(ジオコード値など)を追加します。
一部のメタデータ(属性の型や、属性が複数値か単一値かなど)は、「変換」で変更できます。それ以外のメタデータは、データ処理時に割り当てられた値を使用します。
さらに、Studioでは様々なタイプの属性メタデータを使用できます。これには次のものがあります。
Oracle Big Data Discoveryは総合的な視覚分析機能のセットです。Hadoopの性能を活用して数分のうちにRAWデータをビジネス・インサイトに変換することができ、複雑な製品について学んだり、高度な技術力を備えた人材のみに依存したりする必要がありません。
データを見つけて検索や分析を行い、インサイトを見出して、意思決定や行動につなげることができます。
「カタログ」を使用してデータ・セットを見つけ、「検索」を使用して検索できます。
次に、データ・セットをプロジェクトに追加できます。ここでデータ・セットを分析するか、「変換」を使用して変更を適用できます。
また、Oracle Rなど他のツールでさらに分析するために、データをHiveにエクスポートすることもできます。「検索」と「変換」は、ユーザー・インタフェースでプロジェクトと呼ばれる領域に含まれます。プロジェクトの一部としてのデータ・セットを検索することも、どのプロジェクトにも含まれないが、「検索」に表示されるソース・データ・セットを検索することもできます。
プロファイリングは、データ処理コンポーネントによって実行されるデータ・ロード・ワークフローのステップです。
Hive表やCSVファイルなどのソース・データの特性およびそれに含まれる属性を検出し、属性名、属性のデータ型、属性のカーディナリティ(1レコードの属性に含まれる個別値の数)およびデータ・セットの作成日時と更新日時などのメタデータを作成します。たとえば、特定のデータ・セットは、構造化データ、ソーシャル・データまたは地理データのコレクションとして識別できます。
「検索」を使用すると、属性の値や型の分布を詳しく調べることができます。
「変換」を使用すると、これらのメタデータの一部を調整または変更できます。たとえば、Null属性値を実際の値で置き換えたり、その他の不一致を修正したりできます(プロファイリングで文字列値と判断された属性の数値への変更など)。
BDDプロジェクトは、データ・セットとユーザーがカスタマイズしたページのStudioでのコンテナです。BDDでデータ・セットを操作する場合は、Studioのプロジェクトに配置します。プロジェクトには、グラフや表などの視覚化を含むページを作成できます。
Studioのユーザーとして、独自のプロジェクトを作成できます。これは、独自のデータを検索するための個別のサンドボックスとして機能します。プロジェクトでは、様々なサンプル・データ・セットの追加を試し、将来の詳細な分析のために、関心の高いデータ・セットを特定できます。
BDDプロジェクトは、常にではありませんが多くの場合、サンプル・データで実行され、新しいバージョンのサンプル・データをロードできます。各BDDデプロイメントでは、すべてのStudioユーザーに対して数十の非定型の探索的BDDプロジェクトをサポートできます。最も関心のある、または最も一般的なBDDプロジェクトをBDDアプリケーションにすることができます。
「BDDアプリケーション」も参照してください。
レコードは、属性に対する代入(値と呼ばれる)のコレクションです。レコードはデータ・セットに含まれます。
たとえば、店で販売された製品を含むデータ・セットの場合、レコードには品目名「t-shirt」、サイズ「S」、色「red」、SKU「1234」が含まれます。これらが属性の値です。
レコードを表形式で考えると、レコードが行で属性名は列ヘッダーになり、属性値は各列の値です。
Studioのレコード識別子は、データ・セットのレコードを一意に識別する、データ・セットの1つ以上の属性です。
プロジェクト・データ・セットに対して増分更新を実行するには、更新する増分変更をデータ処理ワークフローで判断できるように、レコード識別子をデータ・セットに指定し、完全なデータ・セットをプロジェクトにロードする必要があります。キーの一意性の割合が最も高い(100%が最適です)のレコード識別子を選択することをお薦めします。
絞込み状態は、データ・セットをレコードのサブセットに絞り込むための一連のフィルタ指定(属性値の選択、範囲の選択、検索)です。
サンプルは、Studioで対話型操作を行うデータの索引付き代理サブセットです。データ処理では、データ・ロード・ワークフローの一部として、単純なランダム・サンプルが基礎となるHive表から抽出され、Dgraphで無制限のサイズのデータの検索、対話型分析および検索を行えるように索引が作成されます。
デフォルトのサンプル・サイズは100万レコードです。サンプル・サイズを変更できます。
サンプリングは、データ処理によって実行されるデータ・ロード・ワークフローのステップです。非常に大規模なデータを扱うと、待機時間が発生し、データ分析のインタラクティブ性が損なわれます。Big Data Discoveryでこれらの問題を回避するには、HDFS内で検出された大きい表からサンプリングされたレコードのサブセットを処理できます。サンプル・データを完全な表のかわりに使用して、完全なセットを使用しているかのようにデータを分析できます。
そのデータ・ロード・ワークフロー中に、データ処理によってデータのランダム・サンプルが取得されます。デフォルトのサンプル・サイズは100万レコードです。サンプル・サイズを調整できます。ソースのHive表に現在の指定サンプル・サイズよりも少ないレコードが含まれる場合は、すべてのレコードがロードされます。これは、「データ・セットが完全にロードされる」ともいいます。レコードのサンプルをロードする場合でも、Studioの「データ・セット・マネージャ」を使用して、完全なデータ・セットを後でBDDにロードできます。
スキーマは、各属性の特徴を含め、データ・セットの属性を定義します。
「属性」、「データ・セット」、「索引」、「レコード」、「型(属性)」および「値」も参照してください。
スクラッチパッド(「検索」に含まれる)を使用すると、複数の属性を使用して簡単に視覚化を作成できます。タイルをクリックするか、スクラッチパッドの入力支援機能を利用して、スクラッチパッドに属性を追加すると、スクラッチパッドの属性に基づいてデータ視覚化が描画されます。これにより、この視覚化自体の構成ではなくデータに集中することができます。
視覚化が描画されるだけでなく、スクラッチパッドによって属性に対するかわりの視覚化がいくつか用意されるため、構成を変更せずに別のビューにすぐに切り替えることができます。プロジェクト内では、「検出」でスクラッチパッドの視覚化をページに保存でき、さらにきめ細かい構成を適用できます。
ソース・データには、CSVファイル、Excelファイル、JDBCデータ・ソースまたはHive表があります。すべてのソース・データはHadoopで表示でき、HDFSに格納され、Hive表として登録されます。
ソースHive表は、データ処理(DR)コンポーネントで実行されるデータ・ロード・ワークフローで検出できます。DPでは、データ・ロードの一部として、特定サイズのランダム・サンプルを取得して、データ・セットをDgraphに作成し、検索や選択に備えて「カタログ」に表示します。
サンプリングされたソース・データが「カタログ」に表示されると、Big Data Discoveryのデータ・セットになり、ソースHive表のサンプルを表します。
Studioは、Big Data Discoveryのコンポーネントです。Studioでは、様々なデータ操作に対応した、ビジネス・ユーザーによって使いやすいユーザー・インタフェースが用意されています。
Studioの一部の表示項目は常に表示されます。たとえば、Studioでは検索機能が常に表示され、「検索」、「変換」および「検出」の領域が常に表示されます。必要に応じてインタフェースの他の部分を追加できます。これらには、多くのタイプのデータ視覚化コンポーネントが含まれます。たとえば、チャート、マップ、ピボット・テーブル、概要バー、タイムラインなどのコンポーネントを追加できます。カスタムの視覚化コンポーネントを作成することもできます。
Studioでは、データ・セットのロード、検索、更新および変換のツールが用意されています。これにより、1つ以上のデータ・セットでプロジェクトを作成し、データ・セットをリンクできます。多くのデータを既存のプロジェクトにロードできます。これにより、完全にロードされたセットのサンプルから、分析済のデータのコーパスが増加します。データ・セットを更新することもできます。単純な変換でデータを変換し、変換スクリプトを記述できます。
Studioの管理者は、データ・セット・アクセスおよびプロジェクトへのアクセスを制御できます。ユーザー・ロールを設定し、他のStudio設定を構成できます。
プロジェクトと設定はリレーショナル・データベースに格納されます。
トークンは、カスタム視覚化を強化するEQL問合せで、Studioが使用するプレースホルダ(変数)です。これにより、抽象EQL問合せを1回記述するだけで、Studioプロジェクトの他のユーザーが、必要に応じてトークンを別の値で置き換えることができます。
トークンは、属性、ビュー、ソート、データなど、EQL問合せの様々な側面を表すことができます。たとえば、EQL問合せでビュー・トークンを使用すると、プロジェクトのユーザーは同じ問合せを複数回使用して、様々なビューを視覚化できます。Studioのカスタム視覚化エディタのEQL問合せ構文では、トークンはパーセント記号(%)で囲まれた文字列になります。
EQL問合せを記述すると、記述したEQLスクリプトのトークンを検出するようにStudioにリクエストできます。これにより、属性、ビューまたはソートを表すトークンを指定できます。各トークンの対象を指定するまで、トークンは未割当てになります。データを除くすべてのトークンは、視覚化が完了する前に問合せロールに割り当てる必要があります。
「カスタム視覚化コンポーネント」も参照してください。
「変換」は、「検索」と「検出」と並び、Studioの主要な3つの領域の1つです。「変換」では、プロジェクト・データ・セットを変更します。データをクリーンアップするため、または値を追加するために、データ・セットの値やスキーマを編集できます。
「変換」では、一般的には厳密なETLプロセスに限定されている、データの整備、処理およびエンリッチメントのアクティビティが解放されます。「変換」では、簡単なユーザーガイド変換や、Groovyベースの高度なカスタム変換関数のリストを使用して、変換スクリプトを簡単に作成できます。
「変換」では、デフォルトのエンリッチメントと変換のリストを対話的に指定するか、独自のカスタム変換を記述できます。変換の適用結果のプレビューを表示できます。その後、編集可能な変換スクリプトに変換を追加し、プロジェクト・データ・セットに適用して保存します。
変換スクリプトを現在のプロジェクトに適用することも、変換スクリプトを使用して新しいデータ・セットを作成することもできます。変換スクリプトがプロジェクト・データ・セット(サンプル)に適用されると、新しいバージョンのプロジェクト・データ・セットが作成され、それが「カタログ」に公開されます。変換スクリプトを使用して新しいデータ・セットを作成することもできます。この場合、新しい完全なデータ・セットがHadoopに作成されるため、変換済データがBig Data DiscoveryおよびHadoopの他のアプリケーションやツールで検索できるように解放されます。
「検索」および「検出」も参照してください。
「変換エディタ」はStudioの「変換」に含まれます。ここでは、Groovy言語を使用してデータを変換し、導出された属性を作成します。「変換エディタ」では、Groovyのサポートと一緒に、追加の使いやすいカスタム変換関数(Groovyベース)のリストへのアクセスが提供されます。これによって、データ変換、処理およびエンリッチメントのプロセスが短縮されます。
変換は、データをクリーンアップするETLプロセスのかわりと考えることもできます。変換を使用して、既存の属性の上書き、属性の変更、または新しい属性の作成を行うことができます。
ほとんどの変換は、「変換」で直接実行できる特定のオプションとして用意されています。変換の一部はエンリッチメントです。
Groovyスクリプト言語と、Big Data Discoveryで提供されるカスタムの定義済Groovyベース変換関数のリストを使用して、変換スクリプトを作成できます。
「エンリッチメント」、「変換」および「変換エディタ」も参照してください。
属性の型によって、その属性に割り当てられる値が決まります。属性の型の例としては、Boolean、Integer、String、Date、DoubleおよびGeocodeがあります。
String属性には、テキスト検索に関連する追加の特徴があります。
「属性」、「データ・セット」、「索引」、「スキーマ」、「レコード」および「値」も参照してください。
属性の値は、特定のレコードの属性に対する代入です。
「属性」、「データ・セット」、「索引」、「スキーマ」、「レコード」および「型(属性)」も参照してください。