Endeca Web Crawlerの起動スクリプトにはクロールの動作を制御する複数のフラグがあります。
web-crawlerフラグ | フラグ引数 |
---|---|
-cまたは--conf | 構成ディレクトリのパス。このフラグが指定されない場合、デフォルトの構成ディレクトリとしてworkspace/conf/web-crawler/defaultディレクトリが使用されます。フラグによりデフォルトの構成ディレクトリ以外のディレクトリ(workspace/conf/web-crawler/polite-crawlなど)が指定される場合、workspace/conf/web-crawler/defaultディレクトリのファイルが最初に読み込まれます。オプションです。 |
-dまたは--depth | クロールの最大の深さを指定する正の整数(0以上)。クロールの深さは、(シードURLから開始する)クロール対象のリンク・レベルの数値です(詳細は、次を参照してください)。すべてのクロール・タイプに必須です。 |
-fまたは--force | このフラグによりクロールの実行前に出力ディレクトリが削除されます。フラグに引数はありません。オプションですが、再開可能クロールでは使用できません。 |
-JVM | コマンド・ラインの引数をJava仮想マシン(JVM)に渡します。このフラグを使用する場合、Web Crawlerに渡される前および渡された後のすべての引数は、JVMに渡された引数に追加されます。Windowsマシンでは、このフラグ・パラメータに等号が含まれている場合、引用符で囲む必要があります。オプションです。 |
-lまたは--limit | リクエストのおおよその最大数を指定する整数(フェッチされる最大ページ数)。最大とはソフト制限です。制限に達すると、クローラはキューにそれ以上ページを追加しませんが、キューに残っているすべてのページを終了します。
制限に達すると、Web CrawlerはURL limit reached, starting shutdown.メッセージをログ・ファイルに書き込みます。 デフォルトは0 (ゼロ)で、制限は設定されていません。このフラグは、クロール構成の設定およびテストを行う際に役立ちます。オプションです。 |
-rまたは--resume | 以前に実行された完全クロールまたは再開可能クロールを再開します。オプションです。 |
-sまたは--seed | クロールのシード。完全クロールには必須ですが、再開可能クロールでは無視されます。シードとは1つのURL、URL(1行につき1つ)を含む1つのファイル、またはURLを含む*.lstファイルを含む1つのディレクトリです。
次にその例を示します。 -s http://www.oracle.com (1つのURL) -s C:\Oracle\Endeca\IAS\workspace\conf\web-crawler\default\endeca.lst (URLの.lstファイル) -s C:\Oracle\Endeca\IAS\workspace\conf\web-crawler\default (任意の数の.lstファイルが含まれるディレクトリ) URLは完全修飾ドメイン名として、ドメイン名のみでなく、プロトコル(http://またはhttps://)およびポート番号(ポートが80ではない場合)を指定する必要があります。HTTPのデフォルト・ポートは80です。HTTPSのデフォルト・ポートは443です。 |
-wまたは--working | Web Crawlerのワークスペース・ディレクトリのパス。このフラグが使用されない場合、ワークスペース・ディレクトリのデフォルト名はworkspaceとなり、起動スクリプトが実行されるディレクトリに配置されます。各workspaceディレクトリには一意のパスが必要なため、同じマシンで複数のWebクロールを起動している場合は、このフラグを使用する必要があります。オプションです。 |
クロールの深さ(-dフラグで設定)は、ページ・リンクをどのレベルまでたどるかを指定します。各シードURLはレベル0であり、シードURLからの各リンクはレベル1となります。レベル1のURLからのリンクはレベル2となり、これ以降も同様になります。
Level 0: www.endeca.com is level 0 and has a link to about.html. Level 1: about.html is level 1 and its links are level 2. Level 2: contacts.html is level 2 and its links are level 3.そのため、レベル2のページをすべてクロールする場合は、フラグ引数として-d 2を指定します。
workspace/conf/web-crawler/defaultディレクトリは、デフォルトの構成ディレクトリです。たとえば、-cフラグを指定しない場合は、このディレクトリが使用されます。
.\bin\web-crawler -c conf\web\intsites -d 2 -s conf\web\intsites\int.lstこの例では、クロールによりintsitesディレクトリからsite.xmlが使用されますが、残りのファイルはデフォルトの構成ディレクトリから読み込まれます。
.\bin\web-crawler -d 2 -s conf\web\intsites\int.lst -JVM -Xmx2gフラグの後ろに置く引数はJVMに渡された引数に追加されるため、このフラグはコマンド・ラインの最後のフラグである必要があります。