固定幅テキスト・ファイル書式の構成

固定幅テキスト・ファイルに接続する新しいデータ・ストアを定義する際は、New Data Storeウィザードによって、そのファイルのデータ・フィールドの名称とサイズを定義するように要求されます。

固定幅テキスト・ファイルのデータは、行と列で構成され、1行ごとに1つのエントリが含まれます。各列の固定幅は文字数で指定され、これによって列に含めることができるデータの最大量が決定します。ファイル内のフィールドを区切るのにデリミタは使用されません。かわりに、数量の少ないデータには、割り当てられた領域が満たされるようにスペースが埋め込まれるため、特定列の開始は行の開始からのオフセットで常に指定できます。次のファイル断片は、多数のフラット・ファイルに共通の特徴を示しています。これには、車とその所有者に関する情報が含まれていますが、ファイル内に各列のヘッダー、およびデータの意味に関する情報がありません。また、読みやすいように、各列の間に単一のスペースが保持されてデータが配置されています。

固定幅テキスト・ファイルのデータを正確にパースするために、そのファイルの暗黙的な列サイズがEDQに通知される必要があります。これはNew Data Storeウィザードで実行され、必要に応じてデータ・ストア設定の一部として後で編集できます。

固定幅テキスト・ファイルの「Data Store Configuration」画面に初めて入力するとき、列表は空です。次のスクリーンショットでは、サンプル・ファイルの一部の列のマッピング情報が移入されています。

各列の開始位置と幅を文字数でEDQに指定します。また、各列に名称を割り当てますが、データ・スナップショットおよび後続の処理では、この名称を使用してデータを識別します。名称は、ユーザーがデータ・ストアの定義時に定義しますが、後続の操作性を最大にするためにわかりやすい名称にする必要があります。

データ列の位置は開始地点と幅の観点から定義することに注意してください。また、行の最初の文字の位置はゼロではなく1であることに注意してください。幅と開始地点を列ごとに指定することは、EDQでは次の列の開始直前まで1つの列が続いていると想定していないことを意味し、その結果、次のようになります。

列表の右側のボタンを使用すると、レコードを追加または削除したり、リスト内の選択済レコードを上下に移動できます。

改行文字が含まれていないファイル

すでに説明した固定幅ファイルの書式設定は、デフォルトでは行間が改行文字で区切られていると想定しています。ただし、ファイルによっては、行の区切りに改行文字が使用されていない場合があります。このデータは、テキスト・エディタに次のように表示されます。

この場合は、EDQによってデータが各行に正確に区切られるように、レコード全体の幅をデータ・ストア構成の一部として指定する必要があります。次のようにします。

 

Oracle (R) Enterprise Data Qualityオンライン・ヘルプ バージョン8.1
Copyright (C) 2006,2011 Oracle and/or its affiliates.All rights reserved.