プライマリ・コンテンツに移動
Oracle® Big Data Discovery Cloud Serviceデータ処理ガイド

E65369-05
目次へ
目次
索引へ移動
索引

前
次
機械翻訳について

DPワークフローへのSerDe JARの追加

このトピックでは、データ処理(DP)クラスパスにカスタムSerializer-Deserializer (SerDe)を追加するプロセスについて説明します。

カスタマがHive表を作成するときに、その選択のSerializer-Deserializer (SerDe)クラスを指定できます。 たとえば、次の文の最後の部分について考えてみます:
CREATE TABLE samples_table(
   id INT, 
   city STRING, 
   country STRING, 
   region STRING, 
   population INT)
ROW FORMAT SERDE 'org.apache.hadoop.hive.contrib.serde2.JsonSerde';

SerDe JARが、Big Data Discoveryの一部であるデータ処理パッケージとともにパッケージ化されていない場合、データ処理実行はHive表を読み取ることができないため、データをDgraphにインポートできません。 この問題を解決するために、カスタムSerDeをデータ処理ワークフローに統合できます。

この手順では、次の前提条件を想定しています:
  • SerDe JARをデータ処理と統合する前に、SerDe JARがHadoopクラスタのHiveServer2ノードに存在し、Hiveサービスの「Hive補助Jarディレクトリ」プロパティを使用して構成されている必要があります。 これをチェックするには、このSerDeで作成された表に対して、表に対するSELECT *問合せによってエラーが発行されていないことを確認します。 この問合せがHueとHive CLIから機能することを検証して、SerDeが適切に追加されたことを確認してください。

カスタムSerDe JARをデータ処理ワークフローに統合するには:

  1. SerDe JARを各クラスタ・ノードの同じロケーションにコピーします。
    このロケーションは、SerDe JarをHiveServer2ノードに追加する場合に使用するロケーションと同じであることがあります。
  2. DP CLI edp.propertiesファイルを編集し、SerDe JARへのパスをextraJarsプロパティに追加します。 このプロパティはJARへのパスのコロン区切りのリストである必要があります。 これにより、CLIからのDPジョブがSerDe JARをピック・アップできるようになります。
    デフォルトでは、edp.propertiesファイルは$BDD_HOME/dataprocessing/edp_cli/configディレクトリにあります。
    また、すでにBDDを再インストールした場合は、bdd.confファイルのインストール・バージョンのDP_ADDITIONAL_JARSプロパティをパスを使用して更新する必要があります。
  3. Studioの場合は、$DOMAIN_HOME/config/studio/portal-ext.propertiesファイルを編集し、SerDe Jarへのパスをdp.settings.extra.jarsプロパティに追加します。 このプロパティはJARへのパスのコロン区切りのリストである必要があります。 これにより、StudioからのDPジョブはSerDe JARを取得できます。

その結果、SerDe JARがデータ処理クラスパスに追加されます。 つまり、SerDeクラスは、Studioによって自動的に開始されるか、データ処理CLIを実行するかに関係なく、すべてのデータ処理ワークフローで使用されることになります。