属性
「属性」はレコード上の名前と値で構成されます。
列が表の行を説明するように、属性はBig Data Discoveryのレコードを説明します。 各属性セットは、レコードの特定のデータセットに固有です。 たとえば、ストア製品で構成されるデータ・セットには、"item name"、"size"、"color"、"SKU"など、レコードに値を含めることができる属性が含まれます。 レコードを表形式で考えると、レコードが行で属性名は列ヘッダーになります。 属性値は各列の値です。
属性の特性と、Dgraphに保持されているスキーマからの属性タイプの特性です。 また、Studioには、絞込みモードまたはメトリック・フラグなどの追加の属性特性があります。 Studioでは、属性の説明や表示名をローカライズすることもできます。
Big Data Discoveryに表示される大半の属性は、基礎となるソース・データに表示されます。 また、Big Data Discoveryでは、プロジェクト内で新しい属性の作成、属性の変更または削除を行うことができます。 これらの変更はHiveのソース・データには保持されません。 一部の属性は、Big Data Discoveryが検出したデータに対して実行するエンリッチメントの結果として生成されます。
データ・セット、Dgraphデータベース、スキーマ、レコード、型(属性)および値も参照してください。
ベース・ビュー
データ・セットの「ベース・ビュー」は、プロジェクト・データ・セットの基本属性を表します。 ベース・ビューは、データをそのまま表します。 データの集計、計算およびビジュアライゼーションに役立つカスタム・ビューを作成できます。
「カスタム・ビュー」は、基礎となるデータで特定の選択した属性(または列)のデータのみを含めます。 データを確認する様々な方法が用意されています。 各カスタム・ビューには、EQL文として表される定義があります。 カスタム・ビューでは、常にシステムに存在するベース・ビューは排除されません。
プロジェクト内に複数のカスタム・ビューを互いに平行に作成できます。
「リンクされたビュー」は、データ・セットを結合するときに自動的に作成されます。 幅広いデータのビューです。 リンク・ビューは、元のデータ・セットを別のデータ・セットに結合することによって、ベース・ビューを拡張します。
BDDアプリケーション
「BDDアプリケーション」は特別な特性を持つBDDプロジェクトの一種です。 アプリケーションには一般的に、少なくとも1つのデータ・セットが完全にロードされる場合があるデータ・セットが1つ以上含まれます。 BDDアプリケーションではデータの変換および更新が可能です。 データ更新は定期的に実行できます。 BDDアプリケーションでは、長期のデータ分析および最新データのレポートを管理します。
BDDのユーザーが作成できる非定型BDDプロジェクトとは対照的に、BDD管理者は、そのチームと共有できるBDDアナリティク・アプリケーションを所有および証明します。
プロジェクトも参照してください。
Big Data Discoveryクラスタ
「Big Data Discoveryクラスタ」は、任意の数のノード上でのBig Data Discoveryコンポーネントのデプロイメントです。
ハードウェアを効率よく使用するためにBig Data Discoveryのデプロイには複数のオプションがあります。 たとえば、同じノード上でBig Data Discoveryの様々な部分を共存させることができます。 BDDクラスタ・デプロイメント・オプションの詳細は、「インストレーションおよびデプロイメント・ガイド」を参照してください。
カタログ
カタログには、新規データ・セットの作成、データ・セットの検索、または既存のプロジェクトへの移動を行うためのオプションが含まれています。
Big Data Discoveryのデータ処理コンポーネントが実行されると、使用可能なデータ・セットがHiveデータベースでBig Data Discoveryによって検出されて、プロファイリングされ、カタログのリストとして表示されます。
その後、カタログを使用して、データ・セット・メタデータやプロジェクトの様々な特性に基づいてデータ・セットおよびプロジェクトのナビゲートやフィルタ処理を行って、関心があるデータ・セットを特定できます。 さらに探索するために、各データ・セットまたはプロジェクトに関する追加詳細を表示することもできます。
Big Data Discoveryに初めてログインするとき、カタログには検出されたデータ・セットのみが表示され、プロジェクトは表示されない場合があります。 ユーザーまたはグループのメンバーがプロジェクトを作成および共有した後、カタログには、ログインすると使用可能なデータ・セットに加えて、これらが表示されます。
データ・セットおよびプロジェクトも参照してください。
カスタム視覚化コンポーネント
「カスタム視覚化コンポーネント」はStudioの拡張機能で、Studioのデフォルト・コンポーネントが特定のデータ視覚化のニーズを満たさない場合に、カスタマイズされたビジュアライゼーションを作成できます。
カスタム・ビュー
「カスタム・ビュー」はデータの集約、計算およびビジュアライゼーションに便利です。 レコードの基本データを含むベース・ビューと比較した場合、カスタム・ビューには、基礎となるデータで選択した特定の属性(または列)のデータのみが含まれます。 このように、カスタム・ビューでは様々なデータ確認方法が提供されます。 各カスタム・ビューには、EQL文として表される定義があります。
カスタム・ビューでは、常にシステムに存在するベース・ビューは排除されません。 プロジェクト内に複数のカスタム・ビューを互いに平行に作成できます。
ベース・ビューとリンク・ビューも参照してください。
データのロード
「データのロード」は、データ・セットをBDDにロードするプロセスです。 データのロードは、Studio内で、またはData Processing CLIで行うことができます。Studioでは、個人ファイルをアップロードまたはJDBCソースからデータをロードすることでデータをロードできます。 また、既存のデータ・セットを変換する最後のステップとして、新しいデータ・セットを追加することもできます。
DP CLIを使用すると、データ・ロード・ワークフローを手動で実行するか、Hiveでソース・データに対して実行されるスクリプトにデータを追加して、ホワイトリストとブラックリストを使用し、さらに、その他のDP CLIパラメータを使用してソース・データを検出してBDDにロードできます。
多くの場合、データのサンプルをBDDにロードします。 DP CLIのオプションを使用して、サンプル・サイズを変更できます。 また、Studioでは、サンプリングされたデータを使用して作成したプロジェクトに完全なデータ・セットをロードできます。 データ全体のロードの詳細は、「データの探索および分析ガイド」を参照してください。
サンプリングおよびデータ更新も参照してください。
データ処理(BDDのコンポーネント)
「データ処理」は、様々なデータ処理ワークフローを実行するBig Data Discoveryのコンポーネントです。
Big Data Discoveryの起動時にデータ処理ワークフローを起動するには、データ処理コマンドライン・インタフェース(DP CLI)を使用します。 これにより、様々なデータ処理ワークフローを起動して、その動作を制御できます。 詳細は、「データ処理ガイド」を参照してください。
Dgraphデータベース、エンリッチメント、サンプリングおよびプロファイリングも参照してください。
データ・セット
Big Data Discoveryでは、「データ・セット」はデータの論理単位で、デリミタ付きファイル、Excelファイル、JDBCデータ・ソース、Hive表などのソース・データに対応します。
データ・セットは、Studioでカタログのエントリとして使用可能になります。 データ・セットには、「変換」から適用されるエンリッチ・データおよび変換が含まれる場合があります。 各データセットには、Dgraphデータベース内に対応する一連のファイルがあります。
サンプリング、属性、データベース、スキーマ、レコード、型(属性)および値も参照してください。
データ・セットのインポート(個人データのアップロード)
「データ・セット・インポート」 (または「個人データのアップロード」)は、Excelまたは区切り(CSV)ファイルからデータをアップロードすることによってStudioでデータ・セットを手動で作成するプロセスです。
データ更新
「データ更新」は、BDDにロードされるデータ・セットに対する変更を表しています。 複数のタイプの更新がサポートされています。Studioカタログでは、個人ファイルまたはJDBCソースからロードしたデータ・セットに対して「データ・セットのリロード」を実行できます。 これは個人的にロードされたファイルの更新、またはJDBCのサンプルの更新です。
DP CLIを使用すると、2つのタイプの更新を実行できます: Refresh data
およびIncremental update
。 このような更新はスクリプトで使用でき、Studioのプロジェクトのデータ・セットで定期的に実行できるため、スクリプト更新とも呼ばれます。
DP CLIからのRefresh data
操作はStudioプロジェクトに既存のデータ・セットを再ロードし、データ・セットのコンテンツをHiveからの最新データで全体に置き換えます。 この更新タイプでは、古いデータが削除され、新しいデータで置換されます。 新しい属性が追加されたり、属性が削除される場合があります。 また、属性のデータ型が変わる場合があります。
Incremental update
操作では、すでにロードされているデータを削除せずに、既存のBDDアプリケーションに新しいデータを追加できます。 このタイプの更新では、レコード・スキーマを変更できません。 増分更新は、すでにロードされたデータを保持しているが、新しいデータを引き続き追加する場合に最も有効です。 たとえば、すでにロードされているバッチに、より新しい12個のフィードを追加できます。
Dgraph
Dgraphは、データ・セットの検索アナリティク処理を実行するBig Data Discoveryのコンポーネントです。 これは、ユーザーがデータ・セットに対して行うリクエストを処理します。 Dgraphでは、データ構造とアルゴリズムを使用して、アナリティク処理およびデータ要約のために、クライアントのリクエストに対するリアルタイムのレスポンスを提供します。
Dgraphには、ソース・データがBig Data Discoveryにロードされた後に作成されたデータベースが格納されます。 データベースが格納されると、DgraphはStudioを介してクライアント・リクエストを受け取り、そのデータベースを問い合せて結果を返します。
Dgraphはステートレスとして設計されています。 このような設計の場合、各リクエストに対して完全な問合せをこれに送信する必要があります。 ステートレス設計では、ロード・バランシングと冗長性のために、(インストール中に) Dgraphプロセスを容易に追加できます。 - Dgraphのどのレプリカでも、他のレプリカから独立した問合せに応答できます。
Dgraphデータベース
「Dgraphデータベース」は、Big Data DiscoveryにおいてDgraphによって問合せ可能なデータ・セットのコンテンツを表しています。 各データ・セットには独自のDgraphデータベースがあります。 Dgraphデータベースはアナリティク処理を可能にするものです。 メモリーの永続ファイルとディスク上の両方に存在します。 データベースとは、データセットのファイル全体と、それに含まれる情報が内部的に構成される論理構造を指します。 論理構造によって、データ・セットの内容と構造(スキーマ)の両方が説明されます。
Dgraphデータベースには、問合せエンジン(Dgraph)が対話型問合せワークロードを効果的に実行するためのデータの格納方法があり、問合せと更新の効率的な処理を可能にするように設計されています。 (Dgraphデータベースは、索引と呼ばれることもあります)。
データ・レコードとその属性を調べる場合、Big Data Discoveryは、スキーマとそのデータベースを使用してレコードのフィルタ処理、証明済み(プロファイリング)の識別、および使用可能な絞込みを使用したデータの探索を実行します。
属性、データ・セット、スキーマ、レコード、絞込み、タイプ(属性)および値も参照してください。
Dgraphゲートウェイ
BDDでは、Dgraph GatewayとStudioは同一のWebLogicサーバーに配置される2つのJavaベース・アプリケーションです。
検出
Discoverは、「探索」および「変換」とともに、3つのメイン・モード(Studioの主要領域)の1つです。 ユーザーは、これらの3つのモードのいずれかで一度に作業します。
Discoverは、インタラクティブなデータ視覚化コンポーネントの広範囲な配列を使用して検出ダッシュボードを構成および共有できる、直感的な視覚検出環境を提供します。 これを使用すると、異なるデータ・ソースをリンクして、新しいインサイトを検出し、スナップショットを使用して企業内に公開できます。
Discoverは、データの永続的なビジュアライゼーションを作成し、それをプロジェクトの他のユーザーと共有する場所です。
「探索」および「変換」も参照してください。
エンリッチメント
「エンリッチメント」は、Big Data Discoveryの中にあるモジュールで、探索や分析を可能にするためにRAWデータからセマンティック情報を抽出します。 エンリッチメントは、用語、ロケーション、使用言語、センチメントおよびキー・フレーズなどのデータ・セット追加情報から導出されます。 エンリッチメントの結果、追加の派生属性(列)がデータ・セットに追加されます(地理データなど)。また、検出された言語の提案にも追加されます。
たとえば、BDDには、州や郡などの管理境界をジオコードとIPアドレスから検索するためのエンリッチメントが含まれています。 エンティティ、場所、キー・フレーズ、センチメントおよび他のアイテムをロング・テキスト・フィールドから抽出する、高度な統計メソッドを使用したテキスト・エンリッチメントもあります。
エンリッチメントには、導出された追加の意味をデータ・セットに追加できるものがあります。 たとえば、データ・セットのレコードからポジティブまたはネガティブなセンチメントを導出できます。 または、無効な値や一貫性のない値に対処するためのエンリッチメントもあります。
一部のエンリッチメントは、データをロードするためのデータ処理ワークフロー中に自動的に実行されます。 このワークフローによって、Hive表内のデータが検出され、データ・セットのサンプリングおよび初期データ・プロファイリングが実行されます。 プロファイリングによって属性が指定されたエンリッチメントに有用であると判断された場合、データ・ロード・ワークフローの一部としてエンリッチメントが適用されます。
適用されたエンリッチメントを持つデータ・セットは、カタログに表示されます。 これにより、検出された各データ・セットに関する初期インサイトが提供され、さらに探索や分析のためにデータ・セットが有益な候補であるかどうかを判断できます。
データ処理によるデータ・ロードの一部として適用可能なエンリッチメントの他に、「変換」の「変換エディタ」からプロジェクト・データ・セットにエンリッチメントを適用できます。 「変換」から、エンリッチメントのタイプごとにパラメータを構成できます。 この場合、エンリッチメントは、単に別のタイプの使用可能な変換です。
変換も参照してください。
検索
「探索」はStudioの領域で、単一のデータ・セットの属性およびその値を分析します。 「探索」には、カタログから、またはプロジェクト内からアクセスできます。 「探索」を使用すると、一度に1つのデータ・セットの属性とその値の分布を分析できます。
「探索」の属性は、最初は名前でソートされます。 表示された属性のフィルタ処理およびソート順の変更ができます。
「探索」では、属性ごとにその属性のデータ型と値の分布に最も適したビジュアライゼーションのセットが提供されます。 これらのビジュアライゼーションによって、データを利用して関心のあるパターンや乱雑なデータをトリアージできます。
データ・セットを検索しても、そのデータ・セットは変更されませんが、1つ以上のデータ・セット属性を使用してビジュアライゼーションを構築し、それをプロジェクト・ページに保存できます。
Discoverおよび「変換」も参照してください。
HDFS/Hiveへのエクスポート
「HDFS/Hiveへのエクスポート」は、Big Data DiscoveryからHDFS/Hiveへ分析結果をエクスポートするプロセスです。
Big Data Discoveryのパースペクティブでは、Big Data DiscoveryからHDFS/Hiveへファイルをエクスポートしています。 HDFSのパースペクティブから、Big Data DiscoveryからHDFSに作業結果をインポートしています。 Big Data Discoveryでは、「Dgraph HDFSエージェント」はHDFSへのエクスポートおよびHDFSからのインポートを担当しています。
HDFSへのエクスポート・プロセスは、Studioでファイルをアップロードすることによりデータ・セットをBDDに追加する、個人データのアップロードとも呼ばれるデータ・セット・インポートと混同しないでください(この場合、BDDはデータ・セットをHiveに追加します)。
リンク・ビュー
「リンクされたビュー」は、データ・セットを結合するときに自動的に作成されます。 幅広いデータのビューです。 リンク・ビューは、元のデータ・セットを別のデータ・セットに結合することによって、ベース・ビューを拡張します。
ベース・ビューとカスタム・ビューも参照してください。
metadata
各データ・セットには、様々なタイプの「メタデータ」が含まれています - データ・セットの属性と値に関する詳細な情報。
基本的なメタデータは、データ処理中にHiveに登録したデータ・セットの特性から導出されます。 これは「データ・プロファイリング」と呼ばれます。 Big Data Discoveryは、初期データ・プロファイリングを実行し、様々なデータ・エンリッチメントの実行から導出されたジオコード値などのメタデータを追加します。
一部のメタデータ(属性の型や、属性が複数値か単一値かなど)は、「変換」で変更できます。 その他のメタデータでは、データの処理中に割り当てられる値が使用されます。
また、Studioでは、様々なタイプの属性メタデータを使用できます。 これには次のものがあります。
Oracle Big Data Discovery
Oracle Big Data Discoveryは、Hadoopの機能を利用して、生データをビジネスの洞察に変換するエンド・ツー・エンドの視覚的アナリティク機能のセットであり、複雑な製品を学習したり、スキルの高いリソースのみに依存する必要はありません。
データを見つけて検索や分析を行い、インサイトを見出して、意思決定や行動につなげることができます。
カタログを使用してデータ・セットを見つけ、「探索」を使用して検索できます。
次に、データ・セットをプロジェクトに追加できます。ここでデータ・セットを分析するか、「変換」を使用して変更を適用できます。
Oracle Rなど他のツールでさらに分析するために、データをHiveにエクスポートすることもできます。 「探索」と「変換」はどちらも、「プロジェクト」と呼ばれるユーザー・インタフェースの領域の一部です。 プロジェクトの一部であるデータ・セットや、プロジェクトには含まれないが「探索」には表示されるソース・データ・セットも確認できます。
プロファイリング
「プロファイリング」は、データ処理コンポーネントによって実行されるデータ・ロード・ワークフローのステップです。
これにより、Hive表やCSVファイルなどのソース・データの特性と、そこに含まれる属性が検出され、属性名、属性データ型、属性のカーディナリティ(レコードが属性から持つ多数の個別値)、データ・セットの作成および更新日時などのメタデータが作成されます。 たとえば、特定のデータ・セットを構造化データ、ソーシャル・データまたは地理データの集合として認識できます。
「探索」を使用すると、属性値またはタイプの分布を詳細に確認できます。
「変換」を使用すると、これらのメタデータを調整または変更できます。 たとえば、Nullの属性値を実際の値で置き換えることや、他の非一貫性を修正すること(数値になるように調整する属性の変更など)ができます。
project
BDD 「プロジェクト」は、Studioのデータ・セットおよびユーザー・カスタマイズ・ページ用のコンテナです。 BDDのデータ・セットを使用する場合、Studioでプロジェクトにデータ・セットを配置します。 プロジェクトでは、チャートや表など、ビジュアライゼーションを使用してページを作成できます。
Studioのユーザーは、独自のプロジェクトを作成できます。 これは、独自のデータを検索するための個別のサンドボックスとして機能します。 プロジェクトでは、様々なサンプル・データ・セットの追加を試し、将来の詳細な分析のために、関心のあるデータ・セットを特定できます。
BDDプロジェクトでは、多くの場合(ただし常にそうではない)、サンプル・データで新規バージョンのサンプル・データをロードできます。 各BDDデプロイメントは、すべてのStudioユーザーに対して、何十個もの非定型のBDDプロジェクトをサポートできます。 最も興味深いまたは一般的なBDDプロジェクトをBDDアプリケーションに変えることができます。
BDDアプリケーションも参照してください。
レコード
「レコード」は、属性についての割当ての集合です(値と呼ばれます)。 レコードはデータ・セットに属します。
たとえば、ストアで販売された製品を含むデータ・セットの場合、レコードにTシャツというアイテムを含めることができ、サイズはs、色はred、SKU1234が割り当てられます。 これらは、属性上の「値」です。
レコードを表形式で考えると、レコードが行で属性名は列ヘッダーになり、属性値は各列の値です。
レコード識別子(Studio)
Studio内の「レコード識別子」は、データ・セット内のレコードを一意に識別する1つ以上の属性です。
プロジェクト・データ・セットに対して増分更新を実行するには、データ・セット用に「レコード識別子」を用意し、データ処理ワークフローが更新する増分変更を決定し、プロジェクトにデータ・セット全体をロードする必要があります。 キーの一意性の割合が最も高い(100%が最適です)のレコード識別子を選択することをお薦めします。
絞込み状態
「絞込み状態」は、データ・セットをレコードのサブセットに絞り込むためのフィルタ指定(属性値の選択、範囲選択、検索)のセットです。
サンプル
「サンプル」は、Studioで対話するデータ・セットの索引付けされた代表的なサブセットです。 データ・ロードのワークフローの一部として、データ処理は、基礎となるHive表から単純なランダム・サンプルを抜き出し、Dgraphのデータベースを作成して、検索、対話型分析および無制限サイズのデータの探索を可能にします。
サンプルのデフォルト・サイズは100万レコードです。 サンプル・サイズは変更できます。
サンプリング
「サンプリング」は、データ・ロード・ワークフローにおいてデータ処理が実行されるステップです。 非常に大きなスケールでデータを操作すると、待機時間が発生し、データ分析のインタラクティブ性が低下します。 Big Data Discoveryでのこれらの問題を回避するために、HDFSで検出された大規模な表のレコードのサンプリングされたサブセットを操作できます。 完全な表のプロキシとしてサンプル・データを使用すると、フル・セットを使用しているかのようにデータを分析できます。
データ・ロード・ワークフローでは、データ処理がデータのランダムなサンプルを取ります。 デフォルトのサンプル・サイズは100万レコードです。 サンプル・サイズを調整できます。 ソースのHive表に現在の指定サンプル・サイズよりも少ないレコードがある場合は、すべてのレコードがロードされます。 これをデータ・セットは完全にロードされましたと呼びます。 レコードのサンプルをロードする場合でも、Studioデータ・セット・マネージャのオプションを使用して、後でBDDにフル・データ・セットをロードできます。
schema
「スキーマ」は、各属性の特性を含めて、データ・セット内の属性を定義します。
属性、データ・セット、Dgraphデータベース、レコード、型(属性)および値も参照してください。
スクラッチ・パッド
「スクラッチ・パッド」は「探索」の一部で、複数の属性を使用してビジュアライゼーションをすばやく作成できます。 タイルをクリックするか、スクラッチ・パッド自体でtypeaheadを使用して、スクラッチ・パッドに属性を追加すると、スクラッチ・パッドの属性に基づいてデータの可視化がレンダリングされます。 これにより、このビジュアライゼーションを自分で構成するかわりにデータに集中できます。
スクラッチ・パッドでは、可視化のレンダリングに加えて、属性に対するいくつかの代替可視化が提供され、構成を変更することなく代替ビューに簡単に切り替えることができます。 プロジェクト内から、より詳細な構成を適用できるDiscoverのページにスクラッチ・パッドの可視化を保存できます。
セマンティク型
「セマンティク型」はStudioでの設定で、属性に関する追加情報を提供します。 Studioでの属性の使用方法を調整する属性への論理的な追加です。 属性にセマンティク型を追加した後、セマンティク型に基づいて検索およびナビゲートできます。 セマンティク型は、属性のデータ型を変更しません。
セマンティック・タイプは、属性がエンティティ(場所、個人、組織)、個人情報(SSN、電話番号、電子メールなど)、単位(通貨、温度など)、日時(年、月、日など)、およびデジタル情報(OSバージョン、IPアドレスなど)を表すかどうかを指定できます。たとえば、セマンティック・タイプを属性に追加し、価格や検索値で設定されたデータを絞り込むことができます。
セマンティク型の作成の詳細は、「Studioユーザー・ガイド」を参照してください。
ソース・データ
「ソース・データ」はCSVファイル、Excelファイル、JDBCデータ・ソースまたはHive表のいずれかです。 すべてのソース・データはHadoopに表示され、HDFSに格納されてHive表として登録されます。
データ・ロード・ワークフローによって、データ処理(DP)コンポーネントが実行されるソースHive表を検出できます。 データのロードの一部として、DPは特定のサイズのランダムなサンプルを取得し、データ・セットをDgraphに作成します。カタログには、探索と選択の可能性があります。
サンプリングされたソース・データがカタログに表示されると、Big Data Discoveryデータ・セットになり、ソースHive表のサンプルを表します。
Studio
StudioはBig Data Discoveryのコンポーネントです。 Studioでは、様々なデータ操作に対応した、ビジネス・ユーザーによって使いやすいユーザー・インタフェースが用意されています。
Studioの表示内容の一部は常に表示されます。 たとえば、Studioには常に検索、「探索」、「変換」およびDiscoverの各領域が含まれています。 インタフェースの他の部分は、必要に応じて追加できます。 これには、様々なタイプのデータ視覚化コンポーネントが含まれます。 たとえば、チャート、マップ、ピボット表、サマリー・バー、タイムラインおよびその他のコンポーネントを追加できます。 カスタム視覚化コンポーネントを作成することもできます。
Studioには、データ・セットのロード、探索、更新および変換のツールが用意されています。 これにより、1つ以上のデータ・セットを含むプロジェクトを作成し、データ・セットをリンクできます。 追加のデータを既存のプロジェクトにロードできます。 これにより、サンプルから完全にロードされたセットまでの分析済データのコーパスが増えます。 データ・セットを更新することもできます。 単純な変換でデータを変換し、変換スクリプトを記述できます。
Studio管理者は、プロジェクトに対するデータ・セットのアクセスおよびアクセスを制御できます。 ユーザー・ロールの設定と、その他のStudio設定の構成を行うことができます。
プロジェクトと設定はリレーショナル・データベースに格納されます。
トークン(Studio)
「トークン」は、カスタムのビジュアライゼーションを強化するEQL問合せでStudioが使用するプレースホルダー(または変数)です。 これにより、抽象EQL問合せを1回記述するだけで、Studioプロジェクトの他のユーザーが、必要に応じてトークンを別の値で置き換えることができます。
トークンには、EQL問合せの様々な側面(属性、ビュー、ソート、データなど)を表すことができます。 たとえば、EQL問合せでビュー・トークンを使用すると、プロジェクト・ユーザーは同じ問合せを複数回使用して、異なるビューをビジュアル化できます。 Studioカスタム視覚化エディタのEQL問合せ構文では、トークンはパーセント記号(%)で囲まれた文字列です。
EQL問合せを記述した後、書き込むEQLスクリプト内のトークンを検出するようにStudioにリクエストできます。 これにより、属性、ビューまたはソートを表すトークンを指定できます。 各トークンの対象を指定するまで、トークンは未割当てです。 データ以外のすべてのトークンは、ビジュアライゼーションの完了前に問合せロールに割り当てる必要があります。
カスタム視覚化コンポーネントも参照してください。
変換
「変換」は、「探索」およびDiscoverとともに、Studioの3つの主要領域の1つです。 「変換」は、プロジェクト・データ・セットを変更する場所です。 データ・セットの値とスキーマを編集して、データをクリーンアップするか、追加の値を追加できます。
「変換」は、通常、rigid ETLプロセスに制限されているデータ・クレンジング、操作およびエンリッチメント・アクティビティをロック解除します。 「変換」では、迅速でユーザー・ガイドの変換と、強力でGroovyベースのカスタム変換機能のリストを使用して、変換スクリプトを簡単に作成できます。
「変換」では、デフォルトのエンリッチメントおよび変換のリストを対話形式で指定するか、独自のカスタム変換を記述できます。 変換の適用結果のプレビューを表示できます。その後、編集可能な変換スクリプトに変換を追加し、プロジェクト・データ・セットに対して実行して保存します。
エクスプローラおよびDiscoverも参照してください。
変換エディタ
「変換エディタ」は、Studioでデータを変換し、多くの場合導出属性を作成する「変換」の一部です。 Groovyサポートとともに、「変換エディタ」は、データ変換、操作およびエンリッチメントのプロセスを高速化する、使いやすいデフォルト変換(Groovyに基づく)のリストへのアクセスを提供します。
変換スクリプト
「変換スクリプト」は、プロジェクト・データ・セットに対して実行するスクリプト内に編成された変換の連続セットです。 プロジェクト・データ・セットに対して変換スクリプトを実行すると、カタログには新しいエントリが作成されませんが、スクリプトの各変換ステップの影響は現在のプロジェクトに反映されます。
プロジェクト・データ・セットに対して変換スクリプトを実行した後、新しいバージョンのプロジェクト・データ・セットを作成して、それをカタログに公開することもできます。 これにより、Hadoopに新しいフル・データ・セットが作成されるため、Big Data DiscoveryおよびHadoop内の他のアプリケーションやツールで、変換されたデータの探索がロック解除されます。
変換スクリプトが他のStudioユーザーに役立つ場合は、スクリプトを公開することでスクリプトを共有でき、他のプロジェクトでのロードや実行が可能になります。
トランスフォーメーション
変換は、データのクレンジングを行うETLプロセスのかわりとみなすことができます。 変換は、既存の属性の上書き、属性の変更または新しい属性の作成に使用できます。
ほとんどの変換は、「変換」では直接一意のエディタとして使用できます。 変換の一部はエンリッチメントです。
Big Data Discoveryで使用できるGroovyスクリプト言語と、事前定義済のカスタムGroovyベース変換関数のリストを使用して、カスタム変換を作成できます。
エンリッチメント、変換、変換エディタも参照してください。
型(属性)
属性「タイプ」は、属性に割り当てることのできる値を決定します。 属性タイプの例には、Boolean、Integer、String、Date、DoubleおよびGeocodeがあります。
文字列属性には、テキスト検索に関連する追加特性があります。
属性、データ・セット、Dgraphデータベース、スキーマ、レコードおよび値も参照してください。
値(属性)
属性「値」は、特定のレコードの属性に割り当てられています。
属性、データ・セット、Dgraphデータベース、スキーマ、レコードおよび型(属性)も参照してください。