WebサーバーでHTTP基本認証を使用してWebサイトへのアクセスを制限している場合は、認証の資格証明を指定することによって、パスワードで保護されているページにWeb Crawlerがアクセスできるようになります。HTTPClientによって使用される基本認証用の資格証明はhttp.auth.basicプロパティで設定します。
資格証明は次のフォーマットで指定する必要があります。
USERNAME1~~~PASSWORD1~~~HOST1~~~PORT1~~~REALM1|||USERNAME2~~~...
ここで、
- USERNAMEはホスト・サーバーに送信されるユーザーIDです。
- PASSWORDはユーザーIDのパスワードです。
- HOSTは、資格証明が適用されるホストです(つまりクロール対象のホストです)。値は、特定のホスト名またはANY_HOST(すべてのホストを意味する)にします。
- PORTには、特定のホストのポートまたはANY_PORTを指定します。
- REALMには、ホスト上の特定のレルム名またはANY_REALMを指定します。
値の区切り記号として、3つの連続したチルダ(
~~~)を使用する必要があります。
資格証明の指定方法のサンプルを次に示します。
jjones~~~hello123~~~myhost~~~ANY_PORT~~~ANY_REALM