クロールのコマンドライン・フラグ

Endeca Web Crawlerの起動スクリプトにはクロールの動作を制御する複数のフラグがあります。

web-crawler起動スクリプトには次のフラグがあります。フラグを指定しない場合、web-crawlerスクリプトは使用情報を表示して終了します。
web-crawlerフラグ フラグ引数
-cまたは--conf 構成ディレクトリのパス。このフラグが指定されない場合、デフォルトの構成ディレクトリとしてworkspace/conf/web-crawler/defaultディレクトリが使用されます。フラグによりデフォルトの構成ディレクトリ以外のディレクトリ(workspace/conf/web-crawler/polite-crawlなど)が指定される場合、workspace/conf/web-crawler/defaultディレクトリのファイルが最初に読み込まれます。オプションです。
-dまたは--depth クロールの最大の深さを指定する正の整数(0以上)。クロールの深さは、(シードURLから開始する)クロール対象のリンク・レベルの数値です(詳細は、次を参照してください)。すべてのクロール・タイプに必須です。
-fまたは--force このフラグによりクロールの実行前に出力ディレクトリが削除されます。フラグに引数はありません。オプションですが、再開可能クロールでは使用できません。
-JVM コマンド・ラインの引数をJava仮想マシン(JVM)に渡します。このフラグを使用する場合、Web Crawlerに渡される前および渡された後のすべての引数は、JVMに渡された引数に追加されます。Windowsマシンでは、このフラグ・パラメータに等号が含まれている場合、引用符で囲む必要があります。オプションです。
-lまたは--limit リクエストのおおよその最大数を指定する整数(フェッチされる最大ページ数)。最大とはソフト制限です。制限に達すると、クローラはキューにそれ以上ページを追加しませんが、キューに残っているすべてのページを終了します。

制限に達すると、Web CrawlerはURL limit reached, starting shutdown.メッセージをログ・ファイルに書き込みます。

デフォルトは0 (ゼロ)で、制限は設定されていません。このフラグは、クロール構成の設定およびテストを行う際に役立ちます。オプションです。

-rまたは--resume 以前に実行された完全クロールまたは再開可能クロールを再開します。オプションです。
-sまたは--seed クロールのシード。完全クロールには必須ですが、再開可能クロールでは無視されます。シードとは1つのURL、URL(1行につき1つ)を含む1つのファイル、またはURLを含む*.lstファイルを含む1つのディレクトリです。

次にその例を示します。

-s http://www.oracle.com (1つのURL)

-s C:\Oracle\Endeca\IAS\workspace\conf\web-crawler\default\endeca.lst (URLの.lstファイル)

-s C:\Oracle\Endeca\IAS\workspace\conf\web-crawler\default (任意の数の.lstファイルが含まれるディレクトリ)

URLは完全修飾ドメイン名として、ドメイン名のみでなく、プロトコル(http://またはhttps://)およびポート番号(ポートが80ではない場合)を指定する必要があります。HTTPのデフォルト・ポートは80です。HTTPSのデフォルト・ポートは443です。

-wまたは--working Web Crawlerのワークスペース・ディレクトリのパス。このフラグが使用されない場合、ワークスペース・ディレクトリのデフォルト名はworkspaceとなり、起動スクリプトが実行されるディレクトリに配置されます。各workspaceディレクトリには一意のパスが必要なため、同じマシンで複数のWebクロールを起動している場合は、このフラグを使用する必要があります。オプションです。

クロールの深さの設定

クロールの深さ(-dフラグで設定)は、ページ・リンクをどのレベルまでたどるかを指定します。各シードURLはレベル0であり、シードURLからの各リンクはレベル1となります。レベル1のURLからのリンクはレベル2となり、これ以降も同様になります。

たとえば、シードがwww.endeca.comの場合、そのレベルは次のとおりです。
Level 0: www.endeca.com is level 0 and has a link to about.html.
   Level 1: about.html is level 1 and its links are level 2.
   Level 2: contacts.html is level 2 and its links are level 3.
そのため、レベル2のページをすべてクロールする場合は、フラグ引数として-d 2を指定します。

構成ディレクトリの指定

workspace/conf/web-crawler/defaultディレクトリは、デフォルトの構成ディレクトリです。たとえば、-cフラグを指定しない場合は、このディレクトリが使用されます。

-cフラグを使用して、デフォルトの構成ディレクトリにある1つ以上の構成ファイルを、別の構成ディレクトリのファイルでオーバーライドすることもできます。たとえば、特定のクロールに対するsite.xmlファイルがあり、(他の構成ファイルがない)ディレクトリ(名前: intsites)があるとします。-cフラグを使用して、そのディレクトリを次のように指定します。
.\bin\web-crawler -c conf\web\intsites -d 2 -s conf\web\intsites\int.lst
この例では、クロールによりintsitesディレクトリからsite.xmlが使用されますが、残りのファイルはデフォルトの構成ディレクトリから読み込まれます。

JVM引数の指定

Java仮想マシン(JVM)に追加の引数を渡すには、-JVMスクリプト・フラグを使用できます。たとえば、スクリプトでハードコードされているデフォルト最大ヒープサイズ設定(1024MB)を、2048MBの設定でオーバーライドすると仮定します。コマンド・ラインは次のとおりです。
.\bin\web-crawler -d 2 -s conf\web\intsites\int.lst -JVM -Xmx2g
フラグの後ろに置く引数はJVMに渡された引数に追加されるため、このフラグはコマンド・ラインの最後のフラグである必要があります。