テキスト抽出オプションの設定

TextExtractionConfigクラスは、ドキュメント変換パラメータを指定して、デフォルトの値をオーバーライドします。

注意: テキスト抽出およびドキュメント変換という言葉は、同じことを意味します。
TextExtractionConfigクラスには、次のドキュメント変換オプションを設定するメソッドがあります。
  • ドキュメント変換を実行する必要があるかどうか。ファイルシステム・クロールのデフォルトは、trueです。カスタム・データソース拡張機能のデフォルトは、拡張機能の開発者がバイナリ・コンテンツをサポートするインタフェースを実装する場合を除いて、falseに設定されます。trueに設定されている場合、次のオプションが使用されます。
  • ローカル・ファイルのコピーを使用してテキスト抽出を実行するかどうか(ファイルシステム・クロールのみ)。
  • IAS Serverは、IAS Document Conversion Moduleからのテキスト抽出結果を待機してから待機する。

テキスト抽出オプションを設定するには:

  1. SourceConfigCrawlConfigをすでに作成し、クロールの名前およびシード(ソース・タイプに必要な場合)を設定済であることを確認します。
  2. 空のTextExtractionConfigオブジェクトをインスタンス化します。
    たとえば、次のようになります。
    TextExtractionConfig textOptions = new TextExtractionConfig();
  3. setEnabled()メソッドをコールし、テキスト抽出を有効化するブール値を設定します。
    // Enable text extraction for this crawl.
    textOptions.setEnabled(true);
  4. ファイルシステム・クロールでは、setMakeLocalCopy()メソッドを使用して、テキストをファイルから抽出する前に、ファイルをローカル・テンポラリ・ディレクトリにコピーする必要があるかどうかを示すブール値を設定できます。setMakeLocalCopy()のデフォルトは、falseです。拡張機能の開発者がIAS Extension APIのBinaryContentFileProviderインタフェースを実装している場合、カスタム・データソース拡張機能でローカル・コピーを作成することもできます。
    // Enable use of local file copying.
    textOptions.setMakeLocalCopy(true);
  5. 必要に応じて、setTimeout()メソッドをコールして、IASが再試行までに待機するドキュメントのテキスト抽出の終了時間(秒)を設定する整数を指定します。デフォルトは90秒です。
    // Set timeout to 120 seconds.
    textOptions.setTimeout(120);
  6. CrawlConfig.setTextExtractionConfig()メソッドをコールし、CrawlConfigオブジェクトに移入されたTextExtractionConfigオブジェクトを設定します。
    // Set the text extraction options in the configuration
    crawlConfig.setTextExtractionConfig(textOptions);
  7. ファイルシステム・クロールを作成します。
    crawler.createCrawl(crawlConfig);

構成されたクロールからTextExtractionConfigオブジェクトを取得すると、各setメソッドには、getTimeout()メソッドなどのgetメソッドが含まれます。