カスタム・ウェアハウス統合のための外部ストレージのファイルの管理
抽出中に、現在のバッチからのアップロード済ファイルがリストされたマニフェスト・ファイルとともに、圧縮ファイル内のビュー・オブジェクト(VO)のデータが外部ストレージにアップロードされます。 マニフェスト・ファイルの情報を使用して、データを処理します。
カスタム・ウェアハウス実装では、マニフェスト・ファイルとそのコンテンツを管理する必要があります。 この項では、BICCによって生成されるファイルのタイプとそのプロパティについて説明します。
外部ストレージにアップロードされるファイル
BICCでは、次のファイルが生成されます。
ファイル・タイプ | 摘要 | 拡張子 |
---|---|---|
アプリケーション・データ・ファイル | 抽出されたBIVOデータを含み、圧縮ファイルとしてアップロードされるカンマ区切り値データ・ファイル。 | .csv |
メタデータ・ファイル | データストア(BIVO)の列とデータ型定義に関する詳細を含むメタデータが格納されたカンマ区切り値ファイル。 | .mdcsv |
主キー抽出ファイル | 主キー列のデータを含むカンマ区切り値データ・ファイル。 このデータを使用して、ウェアハウスなどのダウンストリーム・アプリケーションでレコードを削除できます。 | .pecsv |
マニフェスト・ファイル | これらのファイルには、アップロードされるファイルに関する情報が含まれます。 | .mf |
-
.csv、.pecsvおよび.mdcsvファイルは個別に圧縮されます。 たとえば、file_crmanalyticsam_budgetam_budget-batch1510381061-20190517_004657_<time in milli secs>.zipとして圧縮されます。 時間はzipファイルごとに異なります。
抽出されたファイルには、データ・ストアの名前と一致する命名規則が使用され、ピリオドのかわりにアンダースコアが使用されます。
たとえば、データ・ストア名がCrmAnalyticsAM.OpportunityAM.Opportunityの場合、ファイル名は'file_crmanalyticsam_opportunityam_opportunity-batch2110193550-20160929_094418.zip'です。
-
カンマ区切り値ファイルの解析をサポートするために、列値は二重引用符で囲まれています。 列の二重引用符の値は、2つの連続する二重引用符の値を使用してエスケープされます。 このため、カスタム・デリミタは必要ありません。
-
10進浮動小数点数では、BICCでの2進浮動小数点形式の表示制限により端数処理エラーが発生します。 たとえば、1.365のような小数は、DOUBLE型に変換する際に1.364999999999999として表される場合があります。\
マニフェスト・ファイルの形式およびコンテンツ
マニフェスト・ファイルの最初の行には、ソース・バージョンが示されます。 ファイル名形式はストレージ領域の構成によって異なり、マニフェスト・ファイルに詳述されています。
UCMのMANIFEST.MFファイルでは、ファイルの本文に、アップロードされる各ファイルの情報がvo_name;ucm_document_id;md5_check_sum_value
の形式で含まれます。 たとえば、UCMのマニフェスト・ファイルの次のサンプル行では、9526はアップロードされるファイルのUCM文書IDで、;b2af2bf486366e2c2cb7598849f0df2eはチェック・サム値です。
crmanalyticsam_partiesanalyticsam_customer;9526;b2af2bf486366e2c2cb7598849f0df2e
Cloud Storage ServiceのMANIFEST-[TIMESTAMP].MFファイルでは、ファイルの本文に、アップロードされる各ファイルの情報がextract_uploaded_filename;md5_check_sum_value
の形式で含まれます。 たとえば、Storage Serviceのマニフェスト・ファイルの次のサンプル行では、file_fscmtopmodelam_analyticsserviceam_currenciestlpvo-batch1209716923-20150615_105514.zipはアップロードされるファイルの名前で、;b2af2bf486366e2c2cb7598849f0df2eはチェック・サム値です。
file_fscmtopmodelam_analyticsserviceam_currenciestlpvo-batch1209716923-20150615_105514.zip;fa981be0caf70a9a52df3aceb9998cc9
グローバル・データ抽出マニフェスト
-
UCMにはMANIFEST.MFが生成されます。
-
Cloud Storage ServiceおよびOCIオブジェクト・ストレージのマニフェスト・ファイルのファイル名形式は、MANIFEST-<Timestamp>.MFです。
-
EXTRACT_STATUS_DATA_SCHEDULE_<SCHEDULE ID>_REQUEST_<REQUEST_ID>.JSONは、すべてのデータ抽出に共通です。
-
EXTRACT_STATUS_PRIMARY_KEYS_SCHEDULE_<SCHEDULE ID>_REQUEST_<REQUEST_ID>.JSONは、すべてのキー抽出に共通です。
-
データ抽出
MANIFEST_DATA_<JOB_ID>-SCHEDULE_<SCHEDULE ID>_REQUEST_<ESS_REQUEST_ID>.MF
EXTRACT_STATUS_DATA_<JOB_ID>-SCHEDULE_<SCHEDULE ID>_REQUEST_<ESS_REQUEST_ID>.JSON
-
キー抽出
MANIFEST_PRIMARY_KEYS_<JOB_ID>-SCHEDULE_<SCHEDULE ID>_REQUEST_<ESS_REQUEST_ID>.MF
EXTRACT_STATUS_PRIMARY_KEYS_<JOB_ID>-SCHEDULE_<SCHEDULE ID>_REQUEST_<ESS_REQUEST_ID>.JSON
UCMからのコンテンツのダウンロードおよび処理
抽出されたコンテンツをUCMからダウンロードするには、DOCTITLE MANIFEST.MFを検索し、DOCDATEのDESC順でソートします。 これにより、UCMのすべてのマニフェスト・ファイルがdocidを基準とした順序で示されます。 docidを使用して各MANIFESTファイルをダウンロードします。 マニフェスト・ファイル内の行を解析し、それぞれのucm_document_idを使用してデータ・ファイルをダウンロードします。 md5_check_sum_valueを使用して、ダウンロードされたファイルのコンテンツを検証できます。 ファイルをダウンロードしたら、解凍して、.csv、.mdcsv、.pecsvなどのファイル拡張子に基づいて処理します。
データ・ファイルが処理されたら、UCMで、対応するMANIFEST.MFファイルに[TIMESTAMP]_MANIFEST.MFの形式のタイムスタンプのプリフィクスを追加して名前を変更して、UCMからの次回のダウンロードで再度使用されないようにします。 UCMストレージの容量が不足することがないように、30日後にマニフェスト・ファイルおよびすべての処理されたファイルの期限が切れます。
Cloud Storage Serviceからのコンテンツのダウンロードおよび処理
抽出されたコンテンツをCloud Storage Serviceからダウンロードするには、MANIFEST-
を検索して、ファイル名でソートします。 これにより、すべてのマニフェスト・ファイルが日付を基準とした順序で示されます。 各マニフェスト・ファイルをダウンロードして、マニフェスト・ファイル内の行を解析し、それぞれのファイル名を使用してデータ・ファイルをダウンロードします。 md5_check_sum_valueを使用して、ダウンロードされたファイルのコンテンツを検証できます。 ファイルをダウンロードしたら、解凍して、.csv、.mdcsv、.pecsvなどのファイル拡張子に基づいて処理します。
データ・ファイルが処理されたら、Storage Serviceで、対応するマニフェスト・ファイルに[TIMESTAMP]_MANIFESTの形式のタイムスタンプのプリフィクスを追加して名前を変更して、次回のダウンロードで再度使用されないようにします。 ストレージの容量が不足することがないように、30日後にマニフェスト・ファイルおよびすべての処理されたファイルの期限が切れます。