default.xmlファイル内に、HTTPトランスポートに関するプロパティを設定します。
プロパティ名 | プロパティの値 |
---|---|
http.agent.name | 必須です。リクエストを行うユーザー・エージェントの名前を含む文字列です(デフォルトはendeca webcrawler)。この値はHTTP User-Agentリクエスト・ヘッダーで使用されます。 |
http.robots.ignore | クローラがrobots.txtを無視するかどうかを指定します。 |
http.robots.agents | エージェント文字列のカンマ区切りリストです。優先度の高い順に指定します(デフォルトはendeca webcrawler,*)。エージェント文字列は、robots.txtファイルのUser-Agentフィールドとの間でチェックされます。最初のエージェント名としてhttp.agent.nameという値を置き、リストの最後にアスタリスク(*)を置くことをお薦めします。 |
http.robots.403.allow | robots.txtが存在しない場合、サーバーによってはHTTPステータス403(Forbidden)を返す場合があります。この値をfalseに設定すると、前述のようなサイトはアクセス禁止として扱われます。この値をtrueに設定すると、前述のようなサイトはクロール可能であると判断されます。これはブール値であり、デフォルトはtrueです。 |
http.agent.description | 文字列値です(デフォルトは空)。クローラに関する説明テキストです。このテキストはUser-Agentヘッダーで使用されます(エージェント名の後ろにかっこに囲まれて置かれます)。 |
http.agent.url | 文字列値です(デフォルトは空)。User-Agentヘッダーで使用されるURLを指定します(エージェント名の後ろにかっこに囲まれて置かれます)。クローラの目的と動作を説明するページのURLを指定することが慣習となっています。 |
http.agent.email | 文字列値です(デフォルトは空)。HTTPのFromリクエスト・ヘッダーおよびUser-Agentヘッダーに使用される電子メール・アドレスを指定します。スパムを防止するため、このアドレスは判別しづらくしておくことがお薦めされます(「info at example dot com」など)。 |
http.agent.version | 文字列値です(デフォルトはWebCrawler)。クロールのバージョンを指定します。このバージョンはUser-Agentヘッダーで使用されます。 |
http.timeout | 整数値です(デフォルトは10000)。デフォルトのネットワーク・タイムアウトをミリ秒単位で指定します。 |
http.content.limit | 整数値です(デフォルトは1048576)。ダウンロードするコンテンツの長さの制限値をバイト単位で設定します。この値が0より大きい正の整数である場合、この設定値を超える長さのコンテンツはダウンロードされません(ページはスキップされます)。負の整数を設定すると、コンテンツの長さに制限は設定されません。この値を0に設定すると0バイトのコンテンツを生成するようにクロールが制限されてしまうため、0に設定することはお薦めしません。 |
http.redirect.max | 整数値です(デフォルトは5)。フェッチャがページをフェッチする際に追跡するリダイレクトの最大数を設定します。負の値または0に設定すると、フェッチャはすぐにはリダイレクトURLの追跡を行わず、以降のフェッチでそれらのURLを記録するようにします。 |
http.useHttp11 | ブール値です(デフォルトはfalse)。trueに設定するとHTTP 1.1を使用し、falseに設定するとHTTP 1.0を使用します。 |
http.cookies | 文字列値です(デフォルトは空)。HTTPClientによって使用されるCookieを指定します。 |