DPワークフローへのSerDe JARの追加

このトピックでは、データ処理(DP)クラスパスにカスタムSerializer-Deserializer (SerDe)を追加するプロセスについて説明します。

カスタマがHive表を作成するときに、その選択のSerializer-Deserializer (SerDe)クラスを指定できます。たとえば、次の文の最後の部分について考えてみます:

CREATE TABLE samples_table(
   id INT, 
   city STRING, 
   country STRING, 
   region STRING, 
   population INT)
ROW FORMAT SERDE 'org.apache.hadoop.hive.contrib.serde2.JsonSerde';

SerDe JARが、Big Data Discoveryの一部であるデータ処理パッケージとともにパッケージ化されていない場合、データ処理実行はHive表を読み取ることができないため、データをDgraphにインポートできません。この問題を解決するために、カスタムSerDeをデータ処理ワークフローに統合できます。

この手順では、次の前提条件を想定しています:

SerDe JARをデータ処理と統合する前に、SerDe JARがHadoopクラスタのHiveServer2ノードに存在し、Hiveサービスの「Hive補助Jarディレクトリ」プロパティを使用して構成されている必要があります。これをチェックするには、このSerDeで作成された表に対して、表に対するSELECT *問合せによってエラーが発行されていないことを確認します。この問合せがHueとHive CLIから機能することを検証して、SerDeが適切に追加されたことを確認してください。

カスタムSerDe JARをデータ処理ワークフローに統合するには:

SerDe JARを各クラスタ・ノードの同じロケーションにコピーします。
このロケーションは、SerDe JarをHiveServer2ノードに追加する場合に使用するロケーションと同じであることがあります。
DP CLI edp.propertiesファイルを編集し、SerDe JARへのパスをextraJarsプロパティに追加します。このプロパティはJARへのパスのコロン区切りのリストである必要があります。これにより、CLIからのDPジョブがSerDe JARをピック・アップできるようになります。
デフォルトでは、edp.propertiesファイルは$BDD_HOME/dataprocessing/edp_cli/configディレクトリにあります。
また、すでにBDDを再インストールした場合は、bdd.confファイルのインストール・バージョンのDP_ADDITIONAL_JARSプロパティをパスを使用して更新する必要があります。
Studioの場合は、$DOMAIN_HOME/config/studio/portal-ext.propertiesファイルを編集し、SerDe Jarへのパスをdp.settings.extra.jarsプロパティに追加します。このプロパティはJARへのパスのコロン区切りのリストである必要があります。これにより、StudioからのDPジョブはSerDe JARを取得できます。

その結果、SerDe JARがデータ処理クラスパスに追加されます。つまり、SerDeクラスは、Studioによって自動的に開始されるか、データ処理CLIを実行するかに関係なく、すべてのデータ処理ワークフローで使用されることになります。