サンプル・ドキュメント・ディレクトリ・データソースの実行

サンプル・ドキュメント・ディレクトリ・データソースは、BinaryContentFileProviderインタフェースの実装を示しています。このインタフェースでは、拡張機能がIAS Serverにファイルを渡し、テキスト抽出を実行できるようになります。拡張機能をIntegrator Acquisition Systemにインストール後、サンプル・ドキュメント・ディレクトリ・データソースを構成して実行できます。

サンプル・ドキュメント・ディレクトリ・データソースを実行する手順は次のとおりです。

  1. IASインストールで、<インストール・パス>\IAS\<バージョン>\sample\crawlConfigFilesにあるデフォルトのクロール構成ファイルを見つけます。
  2. fileSystemCrawl.xmlをコピーして、このファイル名をご使用の環境用の一意の名前に変更し、それをローカル・ディレクトリに保存します。

    たとえば、fileSystemCrawl.xmlをコピーして、sampleDocDir.xmlとして<インストール・パス>\IAS\<バージョン>\sample\crawlConfigFilesに保存します。

  3. 新しいクロール構成ファイルをテキスト・エディタで開きます。
  4. 次の設定を構成します。
    オプション 説明
    crawlId IASでクロールとその他のものを区別する一意の名前を指定します。たとえば、sampleDocDirなどです。
    moduleId ドキュメント・ディレクトリ・データソースのモジュールIDを指定します。この値はcom.endeca.ias.extension.sample.datasource.directory.DirectoryDataSourceに設定する必要があります。
  5. 次の設定を新しいmoduleProperty要素としてsourceConfig XMLに作成します。
    オプション 説明
    documentDirectory ドキュメントへのパスを指定します。<インストール・パス>\IAS\<バージョン>\sample\ias-extensions\data\documents
  6. sourceConfig内の他のmoduleProperty要素を削除します。
    これらの手順後、sourceConfig XMLは次のようになります。
    ...
    		<sourceConfig>
    			<moduleId>
    				<id>com.endeca.ias.extension.sample.datasource.directory.DirectoryDataSource</id>
    			</moduleId>
    			<moduleProperties>
    				<moduleProperty>
    					<key>documentDirectory</key>
    					<value>C:\Oracle\Endeca\IAS\3.1.0\sample\ias-extensions\data\documents</value>
    				</moduleProperty>
    			</moduleProperties>
    			<excludeFilters />
    			<includeFilters />
    		</sourceConfig>
    ...
  7. outputConfig XML内で次の設定を構成します。
    オプション 説明
    moduleId クロールの出力タイプを指定します。Record Storeidを指定します。
    host レコード・ストア・インスタンスを実行するホストの完全修飾名を指定します。デフォルト値はlocalhostです。
    port レコード・ストア・インスタンスを実行するEndeca IAS Serviceのポートを指定します。デフォルト値は8401です。
    contextPath IASをWebLogic Serverにインストールし、デフォルトのWebLogicコンテキスト・パスを変更した場合、スラッシュを含めずに変更されたコンテキスト・パスを指定します。WebLogic Serverのインストールでは、contextPathのデフォルト値はias-serverとなります。IASをJettyにインストールした場合、contextPathを削除するか、空の値を指定します。

    たとえば、次のようになります。

    <moduleProperty>

    <key>contextPath</key>

    <value>ias-server</value>

    </moduleProperty>

  8. outputConfig内の他のmoduleProperty要素を削除します。
    たとえば、これらの手順後、outputConfig XMLは次のようなものになります。
    ...
    		<outputConfig>
    			<moduleId>
    				<id>Record Store</id>
    			</moduleId>
    			<moduleProperties>
    				<moduleProperty>
    					<key>host</key>
    					<value>mymachine.endeca.com</value>
    				</moduleProperty>
    				<moduleProperty>
    					<key>port</key>
    					<value>8401</value>
    				</moduleProperty>
    			</moduleProperties>
    		</outputConfig>
    ...
  9. クロール構成ファイルを保存して閉じます。
  10. ias-cmdcreateCrawlsタスクを実行して、クロール構成ファイルをIASにアップロードします。
    たとえば、次のようになります。
    C:\Oracle\Endeca\IAS\3.1.0\bin>ias-cmd.bat createCrawls -f C:\Oracle\Endeca\IAS\
    3.1.0\sample\crawlConfigFiles\sampleDocDir.xml
    Created crawl sampleDocDir
  11. ias-cmdstartCrawlタスクを実行して、サンプル・ドキュメントからデータを取得します。
    たとえば、次のようになります。
    C:\Oracle\Endeca\IAS\3.1.0\bin>ias-cmd.bat startCrawl -id sampleDocDir
  12. クロールの完了後、recordstore-cmdread-baselineタスクを実行して、新しいレコードがレコード・ストア・インスタンスにあることを確認できます。このサンプルでは、IAS Serverは5つのEndecaレコードを作成しています。
    たとえば、次のコマンドではクロールのレコード・カウントが返されます。
    C:\Oracle\Endeca\IAS\3.1.0\bin>recordstore-cmd.bat read-baseline -a sampleDocDir -c
    Records read: 5