ファイルへのクロール出力の書込み

場合によっては、出力をレコード・ストア・インスタンスではなくファイルに書き込むようにクロールを再構成できます。たとえば、追加処理の前にXMLの出力を調べる場合や、出力をレコード・ストアではなくバージョン・コントロール・システムに格納する場合などに役立ちます。

手順では、File System<moduleId>を指定する<outputConfig>設定を含むクロール構成ファイルが必要です。それ以外の<outputConfig>のサブ要素は、出力ファイル自体に関する追加構成(圧縮を有効にするかどうか、ファイルの接頭辞名、出力ファイルのパスなど)になります。

ファイルにクロール出力を書き込むには:

  1. クロール構成ファイルを取得します。
    1. コマンド・プロンプトを開き、<インストール・パス>\IAS\<バージョン>\binに移動します。
    2. ias-cmdgetCrawlタスクを実行して、-idフラグと-fフラグを指定します。詳細は、「クロールの取得」を参照してください。
  2. 次のクロール構成ファイルをテキスト・エディタで開きます。
  3. ファイルに書き込むように出力設定を構成します。
    オプション 説明
    moduleId (必須)。File Systemidを指定します。
    outputXml (オプション)。XMLとバイナリのどちらでレコードを書き込むかを指定します。値がtrueの場合、レコードの単一XML出力ファイルが作成されます。値がfalseの場合、レコードのバイナリ・ファイルが作成されます。デフォルト値はfalseです。
    outputCompressed (オプション)。出力ファイルを圧縮するかどうかを指定します。trueを指定すると、出力が圧縮されます。デフォルトはtrueです。
    outputPrefix (オプション)。ファイル名に出力接頭辞を指定します。デフォルトの接頭辞はCrawlerOutputです。
    outputDirectory (オプション)。outputDirectoryを使用して、出力ファイルの出力ディレクトリを指定します。

    outputDirectoryのデフォルト値はoutputです。crawlIDのデフォルト名は、各クロールのサブディレクトリの作成に使用されます。

    これにより、各クロールの出力に一意のサブディレクトリが作成されます。たとえば、outputDirectoryのデフォルト値を使用し、FileSystemCrawlcrawlIDがある場合、結果として作成されるディレクトリ構造は\IASServerWorkspace\output\FileSystemCrawl\になります。

    Windowsでの構文例:

    C:\Oracle\Endeca\IAS\workspace\output\FileSystemCrawl

  4. クロール構成ファイルを保存して閉じます。
  5. ias-cmdupdateCrawlsタスクを実行して、クロール構成ファイルをIASにアップロードします。詳細は、「クロールの更新」を参照してください。

ファイルに出力を書き込む構成の例

このサンプルは、出力ファイルに出力を書き込むクロールの構成を示しています。sourceConfig要素は、わかりやすくするために削除されています。
<?xml version="1.0" encoding="UTF-8"?>

<configurations xmlns="http://endeca.com/eidi/ias/2011-12">
    <crawlConfig>

    ...

      <outputConfig>
        <moduleId>
          <id>File System</id>
        </moduleId>
        <moduleProperties>
          <moduleProperty>
            <key>outputXml</key>
            <value>true</value>
          </moduleProperty>
          <moduleProperty>
            <key>outputCompressed</key>
            <value>false</value>
          </moduleProperty>
          <moduleProperty>
            <key>outputPrefix</key>
            <value>CrawlerOutput</value>
          </moduleProperty>
          <moduleProperty>
            <key>outputDirectory</key>
            <value>C:\Oracle\Endeca\IAS\workspace\output\FileSystemCrawl</value>
          </moduleProperty>
        </moduleProperties>
      </outputConfig>
    </crawlConfig>
</configurations>