34 サイト・キャプチャ・アプリケーションの使用
トピック:
サイト・キャプチャ・モデル
クロール・セッションは、サイト・キャプチャ・インタフェースから手動で開始することも、WebCenter Sitesリアルタイム・パブリッシュ・セッションの完了時に起動することもできます。いずれの場合も、クローラは、その実行方法として選択されたモード(静的またはアーカイブ・モード)に応じてWebサイトをディスクにダウンロードします。
トピック:
キャプチャ・モード
サイトを静的またはアーカイブのいずれのモードでダウンロードした場合も、ディスクには同じファイル(html、cssなど)が格納されますが、いくつかの相違点があります。たとえば、静的にダウンロードしたサイトはファイル・システムでのみ使用可能ですが、アーカイブしたサイトはファイル・システムとサイト・キャプチャ・インタフェースの両方で使用可能になります。つまりキャプチャのモードによって、クローラがサイトをダウンロードする方法およびその結果の管理方法が決まります。
表34-1 静的キャプチャ・モードとアーカイブ・モード
静的モード | アーカイブ・モード |
---|---|
迅速なデプロイメントと高可用性のシナリオをサポートします。 |
コンプライアンスなどを目的として、定期的にWebサイトのコピーを維持するために使用されます。 |
クロールされたサイトが提供可能なファイルとして格納されます。最新のキャプチャのみが保持されます(以前に格納されたファイルは上書きされます)。 |
クロールされたすべてのサイトが保持され、タイムスタンプ付きのフォルダにzipファイル(アーカイブ)として格納されます。このzipファイルへのポインタがサイト・キャプチャ・データベースで作成されます。 |
静的クロール・セッションは、アプリケーション・インタフェースから手動で開始することも、パブリッシュ・セッション後に開始させることもできます。ただし、ダウンロードしたサイトは、サイト・キャプチャ・ファイル・システムからのみ管理できます。 |
アーカイブ・クロール・セッションは、静的セッション同様、サイト・キャプチャ・インタフェースから手動で開始することも、パブリッシュ・セッションの終了時に開始させることもできます。ただし、zipファイルはサイト・キャプチャ・データベース内のポインタによって参照されるため、サイト・キャプチャ・インタフェースで管理できます。ここで、ファイルのダウンロード、アーカイブされたサイトのプレビュー、およびキャプチャ・スケジュールの設定を実行できます。 |
いずれのキャプチャ・モードでも、クロール・セッション後にログが生成され、クロールされたURL、HTTPステータス、およびネットワーク条件などの情報が提供されます。静的キャプチャでは、ログをファイル・システムから取得する必要があります。アーカイブ・キャプチャでは、ログをサイト・キャプチャ・インタフェースからダウンロードできます。いずれのキャプチャ・モードにも、レポート生成時にレポートを電子メールで送信するようクローラを構成するオプションが用意されています。
クローラ
どのタイプのサイト・キャプチャ・プロセスを開始する場合でも、サイト・キャプチャ・インタフェースでクローラを定義する必要があります。すぐに始められるよう、サイト・キャプチャにはSampleおよびFirstSiteIIという2つのサンプル・クローラが用意されています。ここでは、サイト・キャプチャのインストール・プロセスでこれらのクローラがインストールされていることを前提としています。このガイドでは主にSampleクローラを使用します。
独自のクローラを作成するには、クローラに名前を付け(通常はターゲット・サイトにちなんだ名前)、サイト・キャプチャ・プロセスを制御するCrawlerConfigurator.groovy
という名前のテキスト・ファイルをアップロードします。groovy
ファイルはBaseConfigurator
クラスのメソッドを使用してコード化し、少なくともクローラの開始URIとリンク抽出ロジックを指定する必要があります。groovy
ファイルはサイト・キャプチャ・プロセスを制御しますが、キャプチャ・モードはファイル外部で設定されます。
パブリッシュ・トリガー・サイト・キャプチャ用のクローラを使用するには追加のステップが必要です。『Oracle WebCenter Sitesのインストールと構成』のコンフィギュレータによるサイト・キャプチャの構成に関する項の説明にあるように、クローラに名前を付けて、サイト・キャプチャと統合されているWebCenter Sitesソース・システム上のパブリッシュの宛先定義でキャプチャ・モードを指定します。(すべてのパブリッシュの宛先定義で1つ以上のクローラを指定できますが、単一のキャプチャ・モードしか指定できません。)クローラ・セッションの正常起動に関する情報は、サイト・キャプチャ・ファイル・システムと、WebCenter Sitesソースおよびターゲット・システムのログ・ファイル(デフォルトではfuturetense.txt
)に格納されます。
この章の演習では、手動およびパブリッシュ・トリガーの両方のタイプのクローラのシナリオについて説明します。
デフォルト・クローラの使用
サイト・キャプチャ・アプリケーションにデフォルトのSampleクローラとFirstSiteIIクローラがインストールされていて、それらがインタフェースに表示されている必要があります。独自のクローラを定義するには、「クローラの定義」を参照してください。
トピック:
Sampleクローラ
Sampleクローラを使用して、あらゆるサイトをダウンロードできます。Sampleクローラの目的は、サイトを迅速にダウンロードできるようにし、独自のクローラを作成するときに再利用する必須の構成コードを提供することです。Sampleクローラは、必須メソッドと、クロールへのリンク数を制限することでクロールの期間を制限するオプション・メソッドによる最小構成になっています。
-
必須メソッドは、
getStartURi
および(クロールしたページからリンクを抽出するロジックを定義する)createLinkExtractor
です。 -
オプションのメソッドは、クロールするリンク数を指定する
getMaxLinks
です。
これらの方法の詳細は、『Oracle WebCenter Sitesでの開発』のクローラのカスタマイズ方法に関する項を参照してください。
FirstSiteIIクローラ
FirstSiteIIクローラは、WebCenter Sitesの動的FirstSiteIIサンプルWebサイトを静的サイトとしてダウンロードするために使用されます。クローラの目的は、LinkExtractor
およびResourceRewriter
インタフェースを使用して、カスタム・リンク・エクストラクタおよびリソース・リライタの作成方法を示す高度な構成コードを提供することです。『Oracle WebCenter Sitesでの開発』のインタフェースに関する項を参照してください。
サイト・キャプチャの操作の設定
この項では、独自のクローラを作成および実行するプロセスを通じて、サイト・キャプチャ・インタフェースおよびファイル・システムがどのように編成されるかを理解します。
トピック:
初期クローラ構成ファイルの作成
クローラを作成する前に、クローラのサイト・キャプチャ・プロセスを制御する構成ファイルが必要です。有用なファイルを作成する最速の方法は、サンプル・コードをコピーして、必要に応じてリコードすることです。
-
次のいずれかの方法で、サンプル構成ファイルをローカル・コンピュータにコピーします。
-
サイト・キャプチャ・アプリケーションにログインします。「クローラ」ページにSampleクローラがリストされている場合は、次を実行します(それ以外の場合は、次の項目に進みます)。
-
Sampleをポイントし、「構成の編集」を選択します。
-
「構成ファイル」フィールドに移動し、そのコードをローカル・コンピュータ上のテキスト・ファイルにコピーして、ファイルを
CrawlerConfigurator.groovy
として保存します。
-
-
サイト・キャプチャ・ホスト・コンピュータに移動し、
CrawlerConfigurator.groovy
ファイルを<SC_INSTALL_DIR>/fw-site-capture/crawler/Sample/app/
からローカル・コンピュータにコピーします。ノート:
各クローラは自身の
CrawlerConfigurator.groovy
ファイルによって制御されます。このファイルはカスタム・フォルダ構造に格納されます。たとえば:クローラを定義すると、サイト・キャプチャによってクローラの名前(
<crawlerName>
、このシナリオではSample
)の付いたフォルダが作成され、そのフォルダが<SC_INSTALL_DIR>/fw-site-capture/crawler/
というパスに配置されます。サイト・キャプチャは、<crawlerName>
フォルダ内に/app
サブフォルダを作成し、ローカル・コンピュータからこのフォルダにgroovy
ファイルをアップロードします。クローラが指定のモードで初めて使用される場合、サイト・キャプチャはそのモードでキャプチャしたサイトを格納するための追加のサブフォルダを(
/<crawlerName>
/内に)作成します。「静的にキャプチャされたサイトの管理」を参照してください。
-
-
サンプルの
groovy
ファイルは、サンプルの開始URIを指定しています。次のステップでクローラを作成するときにリセットします。(開始URIのほか、クローラ深度などのパラメータを設定し、post-crawlコマンドを起動して、ターゲット・サイトに固有のロジックを定義するためのインタフェースを実装します。)この時点では、ダウンロードされた
groovy
ファイルをただちにカスタマイズするか、最初にクローラを作成してからそのgroovy
ファイル(サイト・キャプチャ・インタフェースで編集可能)をカスタマイズするかのオプションがあります。後者を実行する場合は、次のステップ「クローラの定義」を続行してください。
クローラの定義
クローラを定義するには:
-
「クローラ」ページに移動して、「クローラの追加」をクリックします。
-
「クローラの追加」ページで次の手順を実行します。
-
クロール対象サイトにちなんでクローラに名前を付けます。
ノート:
-
クローラを保存した後で名前を変更することはできません。
-
このガイドでは、すべてのカスタム・クローラがターゲット・サイトにちなんだ名前を付けられ、その他のサイトのキャプチャには使用されないことを前提としています。
-
-
説明を入力します(オプション)。たとえば、「このクローラはパブリッシュ・トリガー・サイト・キャプチャ用に予約されています」または「このクローラはスケジュール済キャプチャ用に予約されています」のように入力します。
-
「構成ファイル」フィールドで、初期クローラ構成ファイルの作成で作成した
groovy
ファイルを参照します。 -
新しいクローラを保存します。
CrawlerConfigurator.groovy
ファイルは、サイト・キャプチャ・ホスト・コンピュータの<SC_INSTALL_DIR>/fw-site-capture/crawler/<crawlerName>/app
フォルダにアップロードされます。サイト・キャプチャ・インタフェースで、直接ファイルを編集できます。
-
-
クローラ構成ファイルの編集に進みます。
クロールの開始
クロールは次のいくつかの方法で開始できます。1つのモードでクローラを使用した場合、別のモードで再実行できます。
クローラのアーカイブ・キャプチャのスケジュール
アーカイブ・キャプチャのみをスケジュールできます。特定のクローラに対して複数のスケジュールを作成できます。たとえば、定期的なキャプチャ用と、特定かつ一意の時間のキャプチャ用に別々のスケジュールを作成できます。
ノート:
複数のスケジュールを設定する場合は、それらが重複しないようにしてください。
- 「クローラ」ページに移動して、作成したクローラをポイントし、「アーカイブのスケジュール」を選択します。
- 「スケジュールの追加」をクリックし、すべてのカレンダーで「曜日」、「日付」、「月」、「時間」および「分」を選択します。
- 「保存」をクリックし、必要に応じて別のスケジュールを追加します。
リアルタイム・モードでのサイトのパブリッシュについて
WebCenter Sitesパブリッシュ・システムを構成してサイト・キャプチャ・アプリケーションと通信する場合は、新たなパブリッシュ済サイトをキャプチャするために1つ以上のクローラを起動するようにリアルタイム・パブリッシュ・プロセスを設定できます。手順については、パブリッシュ・トリガー・サイト・キャプチャの有効化を参照してください。
キャプチャ・データの管理について
静的およびアーカイブ・キャプチャに関連付けられた様々なデータへのアクセスの詳細は、静的にキャプチャされたサイトの管理を参照してください。
クローラおよびキャプチャされたデータを管理するためのノートとヒントに、クローラとキャプチャされたデータを管理する場合に留意すべきノートとヒントをまとめてあります。
パブリッシュによってトリガーされるサイト・キャプチャの有効化
管理ユーザーは、必要な数のサイト・キャプチャ用のパブリッシュの宛先定義を構成し、必要な数のクローラをコールできます。パブリッシュ・トリガー・サイト・キャプチャを有効にするための主なステップは次のとおりです。
サイト・キャプチャ・アプリケーションとOracle WebCenter Sitesの統合について
サイト・キャプチャ・アプリケーションが、パブリッシュ・プロセスで使用されるWebCenter Sitesソースおよびターゲット・システムと最初に統合される場合のみ、リアルタイム・パブリッシュ・セッション後にサイト・キャプチャを有効にできます。サイト・キャプチャが統合されていない場合は、Oracle WebCenter Sitesのインストールと構成のサイト・キャプチャのWebCenter Sitesのパブリッシュ・プロセスとの統合で統合ステップを参照してから、次のステップに進みます。
サイト・キャプチャ用のリアルタイム・パブリッシュの宛先定義の構成
パブリッシュの宛先定義を構成する場合、パブリッシュ・セッションの後でコールされるクローラの名前を指定します。キャプチャ・モードも指定します。
-
サイト・キャプチャ・アプリケーションと統合されるWebCenter Sitesソース・システムに移動します。
-
サイト・キャプチャと統合されるWebCenter Sitesターゲット・システムをポイントするリアルタイム・パブリッシュの宛先定義を作成します。「新規リアルタイム宛先定義の追加」を参照してください。
-
パブリッシュの宛先定義の「他の引数」セクションで、パブリッシュ・セッションの後で起動するクローラを指定し、次のパラメータを使用してキャプチャ・モードを設定します。
-
CRAWLERCONFIG
: 各クローラの名前を指定します。複数のクローラを使用する場合は、名前をセミコロン(;)で区切ります。例:
単一クローラの場合:
CRAWLERCONFIG=
crawler1複数クローラの場合:
CRAWLERCONFIG=
crawler1;
crawler2;
crawler3ノート:
ここで指定するクローラは、サイト・キャプチャ・インタフェースでも構成され、さらに同じ名前である必要があります。クローラ名は大文字と小文字が区別されます。
-
CRAWLERMODE
: アーカイブ・キャプチャを実行するには、このパラメータをdynamic
に設定します。デフォルトでは、静的キャプチャが有効になります。例:
CRAWLERMODE=dynamic
ノート:
-
CRAWLERMODE
モードが省略されるかdynamic
以外の値に設定された場合、パブリッシュ・セッションが終了すると、静的キャプチャが開始されます。 -
両方のクローラ・パラメータを、次のように単一の文で設定できます。
CRAWLERCONFIG=
crawler1;crawler2&CRAWLERMODE=dynamic
-
複数のクローラを指定できますが、設定できるモードは1つのみです。すべてのクローラがそのモードで実行されます。一部のクローラを異なるモードで実行するには、別のパブリッシュの宛先定義を構成します。
-
-
-
-
次の手順に進みます。
クローラの一致
パブリッシュの宛先定義で指定したクローラは、サイト・キャプチャ・インタフェースに存在している必要があります。次を実行します。
- クローラ名が宛先定義とサイト・キャプチャ・インタフェースで同じになっていることを確認します。名前は、大/小文字が区別されます。
- 各クローラの構成ファイルでターゲット・サイトの有効な開始URIが設定されていることを確認します。クローラの構成ファイルへの移動の詳細は、クローラ構成ファイルの編集を参照してください。構成コードの記述方法の詳細は、『Oracle WebCenter Sitesでの開発』のクローラ構成ファイルのコーディングに関する項を参照してください。
サイト・キャプチャの管理
サイト・キャプチャを管理するには:
-
パブリッシュ・トリガー・サイト・キャプチャが有効になると、いつでもターゲット・サイトをパブリッシュできます。パブリッシュが終了すると、サイト・キャプチャが開始されます。パブリッシュの宛先定義で
CRAWLERMODE
パラメータをどのように設定したかに応じて(サイト・キャプチャ用のリアルタイム・パブリッシュの宛先定義の構成のステップb)、静的モードまたはアーカイブ・モードのいずれかで、クローラがページをキャプチャします。 -
サイト・キャプチャ・プロセスを監視するには、次の手順を実行します
-
静的キャプチャの場合、サイト・キャプチャ・インタフェースにはセッションに関する情報が表示されず、キャプチャされたサイトも使用可能になりません。
-
クローラがコールされたかどうかを判断するには、ソースまたはターゲットのWebCenter Sitesシステムで
futuretense.txt
ファイルを開きます。ノート:
WebCenter Sitesのソースおよびターゲット・システム上の
futuretense.txt
ファイルには、静的およびアーカイブのいずれかのタイプのクロールに関するクローラ起動ステータスが含まれています。 -
キャプチャ・プロセスを監視するには、サイト・キャプチャ・ファイル・システムに移動し、静的モードでのクローラの手動実行のステップ2でリストされたファイルを確認します。
-
-
動的キャプチャの場合、サイト・キャプチャ・インタフェースからクロールのステータスを表示できます。
-
「クローラ」ページに移動し、クローラをポイントして、ポップアップ・メニューから「ジョブ」を選択します。
-
「ジョブの詳細」ページで、「終了」が表示されるまで「ジョブの状態」の横にある「リフレッシュ」をクリックします。(「ジョブの状態」で可能な値は、「スケジュール済」、「実行中」、「終了」、「停止」または「失敗」です。)「ジョブの詳細」ページの詳細は、アクティブ・モードでのクローラの手動実行のステップ3と4を参照してください。
-
-
-
キャプチャされたデータを管理します。
クロール・セッションが終了したら、キャプチャされたサイトと関連データを次のように管理できます。
-
静的にキャプチャされたサイトの場合は、サイト・キャプチャ・ファイル・システムに移動します。詳細は、静的にキャプチャされたサイトの管理を参照してください。
-
アーカイブされたサイトの場合は、サイト・キャプチャ・インタフェースを使用してサイトをプレビューし、zipファイルとログをダウンロードします。詳細は、アーカイブされたサイトの管理についてを参照してください。
-
静的にキャプチャされたサイトの管理
サイト・キャプチャ・インタフェースでユーザーが作成するすべてのクローラごとに、サイト・キャプチャでは、そのファイル・システム内に同じ名前のフォルダが作成されます。このカスタム・フォルダ<crawlerName>
は、クローラの構成ファイル、キャプチャおよびログを編成するのに使用されます。<crawlerName>
フォルダとその内容の説明は図34-4を参照してください。
ノート:
静的キャプチャおよびログにアクセスするには、ファイル・システムを使用する必要があります。アーカイブ・キャプチャおよびログはサイト・キャプチャ・インタフェースから管理されます(ファイル・システム内のこれらの場所については、この項で説明します)。
表34-2 <crawlerName>フォルダとそのコンテンツ
フォルダ | 説明 |
---|---|
|
クローラを表します。サイト・キャプチャ・インタフェースでユーザーが定義するクローラごとに、サイト・キャプチャでは、 ノート: サブフォルダ(次を参照)のほか、 |
|
|
|
ノート: アーカイブ・キャプチャは、サイト・キャプチャ・インタフェースからアクセスできます。各zipファイルには、 |
|
最新の静的にキャプチャされたサイトのみが含まれます(同じクローラが静的モードで再実行されると、前のキャプチャが上書きされます)。サイトは、
ノート: 静的キャプチャは、サイト・キャプチャ・ファイル・システムからアクセスできます。 |
|
クロールされたURLに関する情報を記載したログ・ファイルが含まれます。ログ・ファイルは
ノート: クローラが静的モードとアーカイブ・モードの両方でキャプチャした場合、
|
logs/yyyy/mm/
の下のフォルダには、次のログが含まれます。
-
<yyyy-mm-dd-hh-mm-ss>-audit.log
-
<yyyy-mm-dd-hh-mm-ss>-links.txt
-
<yyyy-mm-dd-hh-mm-ss>-report.txt
アーカイブされたサイトの管理について
アーカイブされたサイトは、サイト・キャプチャ・インタフェースの様々なフォームから管理できます。次の図は、アーカイブ、ジョブ、サイト・プレビュー、クローラ・レポート、URLログなどの様々な情報への経路の一部を示しています。
-
たとえば、サイトをプレビューするには、「クローラ」フォームでクローラ(crawlerName)をポイントして、ポップアップ・メニュー(「アーカイブ」フォームを開くメニュー)から「アーカイブ」を選択し、「アーカイブID」をポイントして、ポップアップ・メニューから「プレビュー」を選択します。
-
破線は同じオプションへの複数のパスを示しています。たとえば、サイトをプレビューするには、クローラの「アーカイブ」パス、「ジョブ」パスまたは「アーカイブの開始」パスをたどることができます。アーカイブをダウンロードするには、「アーカイブ」パスまたは「ジョブ」パスをたどることができます。
-
クローラ・レポートおよびURLログはアスタリスク(*)でマークされています。
クローラおよびキャプチャされたデータを管理するためのノートとヒント
次の各トピックに、クローラおよびキャプチャされたデータを管理するためのノートとヒントをまとめています。
クローラを作成および編集する際のヒント
クローラを作成し、その構成コードを編集する場合は、次の情報を考慮してください。
-
クローラ名は大文字と小文字が区別されます。
-
すべてのクローラの構成ファイルには、
CrawlerConfigurator.groovy
という名前が付けられます。この名前は変更しないでください。 -
クローラは、指定のサイト上で1つ以上のシードURIで開始し、1つ以上のパスをクロールするように構成できます。追加のJavaメソッドを使用して、クロール深度などのパラメータを設定したり、post-crawlコマンドを起動したり、セッション・タイムアウトを指定したりできます。リンクを抽出し、URLをリライトして、クロール・セッションの終了時に電子メールを送信するためのロジックを定義するようにインタフェースを実装できます。『Oracle WebCenter Sitesでの開発』のクローラ構成ファイルのコーディングに関する項を参照してください。
-
クローラが作成され保存されると、その
CrawlerConfigurator.groovy
ファイルはサイト・キャプチャ・ファイル・システムにアップロードされ、サイト・キャプチャ・インタフェースで編集可能になります。 -
クローラが静的サイト・キャプチャ・プロセスを実行している間は、2番目の静的キャプチャ・プロセスを使用して実行することはできません。
-
クローラがアーカイブ・キャプチャ・プロセスを実行している間は、2番目のアーカイブ・キャプチャ・プロセスを使用して実行することはできません。2番目のプロセスは「スケジュール済」としてマークされ、最初のプロセスが終了した後に開始されます。
クローラ削除のノート
クローラ(すべてのキャプチャされた情報を含む)を削除する必要がある場合は、ファイル・システムではなく、サイト・キャプチャ・インタフェースから実行してください。クローラをインタフェースから削除すると、リンクの破損を防ぐことができます。たとえば、クローラがアーカイブ・モードで実行された場合、インタフェースからそれを削除すると、アーカイブとログおよびこれらのアーカイブとログへのデータベース参照の2つの情報が削除されます。ファイル・システムからクローラを削除すると、すでに存在していないアーカイブやログに対するデータベース参照が保持されたままになるため、サイト・キャプチャ・インタフェースで破損したリンクが生じます。
クローラのスケジュールのノート
アーカイブ・クロールのみをスケジュールできます。
-
クローラのスケジュールを設定する場合、サイトのパブリッシュ・スケジュールを考慮して、2つが重複しないようにします。
-
単一クローラに対して複数のスケジュールを作成できます。たとえば、クローラを定期的に起動するためのスケジュールを1つ作成し、特定の一意の時間にクローラをコールする別のスケジュールを作成できます。
-
複数のスケジュールを作成する場合は、それらが重複しないようにしてください。
静的クロールの監視について
静的クローラ・セッションが進行中であるか完了済かを判断するには、<SC_INSTALL_DIR>/fw-site-capture/<crawlerName>/logs
フォルダのクローラlock
ファイルを検索します。lock
ファイルは一時ファイルです。追加の静的キャプチャを開始するためにクローラがコールされないよう、静的キャプチャ・プロセスの開始時に作成されます。クローラ・セッションが終了すると、lock
ファイルは削除されます。
クロールの停止について
クローラを実行する前に、クロールされるリンク数およびクロール深度を考慮してください。その両方によってクローラのセッション期間が決まります。
-
アーカイブ・クロールを終了する必要がある場合、サイト・キャプチャ・インタフェースを使用します。(「ジョブの詳細」フォームで「アーカイブの停止」を選択します。)
-
静的クロールを終了する必要がある場合は、アプリケーション・サーバーを停止する必要があります。
アーカイブのダウンロードについて
サイト・キャプチャ・インタフェースからは(250MBを超える)大きなアーカイブ・ファイルをダウンロードしないでください。かわりに、getPostExecutionCommand
を使用して、サイト・キャプチャ・ファイル・システムから必要な場所にファイルをコピーします。
「ジョブの詳細」フォームで、クローラ・レポートからアーカイブのサイズを取得できます。「ジョブの詳細」フォームへのパスは、図34-6を参照してください。『Oracle WebCenter Sitesでの開発』のgetPostExecutionCommandに関する項を参照してください。
サイトのプレビューについてのノート
アーカイブされたサイトに外部ドメインへのリンクが含まれる場合、特に(groovy
ファイルで)クロール深度とクロールするリンク数が大きな値に設定される場合には、そのプレビューにこれらのリンクが含まれることがあります。外部ドメインは参照できますが、アーカイブされません。
パブリッシュの宛先定義の構成のヒント
-
パブリッシュ・トリガー・サイト・キャプチャを実行する場合は、パブリッシュの宛先定義の単一の文でクローラ・パラメータを設定できます。
CRAWLERCONFIG=
crawler1;crawler2&CRAWLERMODE=dynamic
-
パブリッシュの宛先定義で複数のクローラを指定できますが、設定できるキャプチャ・モードは1つのみです。すべてのクローラがそのモードで実行されます。一部のクローラを異なるモードで実行するには、別のパブリッシュの宛先定義を構成します。
ログ・ファイルへのアクセスについて
-
静的にキャプチャされたサイトの場合、ログ・ファイルはサイト・キャプチャ・ファイル・システムでのみ使用可能です。:
-
静的にクロールされたURLをリストしている
inventory.db
ファイルは、/fw-site-capture/crawler/<crawlerName>
フォルダにあります。
ノート:
inventory.db
ファイルは、サイト・キャプチャ・システムによって使用されます。削除または変更しないでください。-
crawler.log
ファイルは、<SC_INSTALL_DIR>/fw-site-capture/logs/
フォルダにあります。(crawler.log
ファイルで使用されている「VirtualHost」という用語は「クローラ」を意味します。)
-
-
静的にキャプチャされアーカイブされたサイトの場合、共通のログ・ファイル・セットがサイト・キャプチャ・ファイル・システムに存在します。
-
audit.log
。クロールされたURL、タイムスタンプ、クロール深度、HTTPステータスおよびダウンロード時間をリストします。 -
links.txt
。クロールされたURLをリストします。 -
report.txt
。クローラ・レポートです。
前出の名前のファイルは次のフォルダにあります。
/fw-site-capture/crawler/<crawlerName>/logs/yyyy/mm/dd
ノート:
アーカイブされたサイトの場合、
report.txt
はサイト・キャプチャ・インタフェースの「ジョブの詳細」フォームでも入手可能で、そこでは「クローラのレポート」と呼ばれています。(「ジョブの詳細」フォームへのパスは、図34-6を参照してください)。 -
-
アーカイブ・プロセスでは、すべてのクロールのURLログも生成されます。ログは次の2つの場所で入手可能です。
-
サイト・キャプチャ・ファイル・システム内。
__inventory.db
と呼ばれます。このファイルは次のフォルダのzipファイル内にあります。/fw-site-capture/crawler/<crawlerName>/archive/yyyy/mm/dd
ノート:
__inventory.db
ファイルは、サイト・キャプチャ・システムによって使用されます。削除または変更しないでください。 -
サイト・キャプチャ・インタフェースの「アーカイブ済URL」フォーム内(パスは図34-6に示されています)。
-
一般的なディレクトリ構造
サイト・キャプチャ・ファイル・システムは、サイト・キャプチャがカスタム・クローラとそれらのキャプチャされたコンテンツを編成するフレームワークも提供します。ファイル・システムは、インストール関連ファイル、プロパティ・ファイル、サンプル・クローラ、およびサイト・キャプチャ・プロセスを制御するためにFirstSiteIIクローラによって使用されるサンプル・コードを格納するために、サイト・キャプチャ・インストール・プロセスで作成されます。
次の図は、よく使用されるサイト・キャプチャ情報を管理者が見つける際に役立つように、サイト・キャプチャで最も頻繁にアクセスされるフォルダを示しています。<crawlerName>
以外のフォルダはすべて、サイト・キャプチャのインストール・プロセスで作成されます。<crawlerName>
フォルダの詳細は、次に示す表と「カスタム・フォルダ」を参照してください。
表34-3 サイト・キャプチャの頻繁にアクセスされるフォルダ
フォルダ | 説明 |
---|---|
|
親フォルダです。 |
|
すべてのサイト・キャプチャ・クローラが含まれ、それぞれ専用のクローラ固有フォルダに格納されます。 |
|
FirstSiteIIサンプル・クローラのソース・コードが含まれます。 ノート: アンダースコア(「_」)で始まるフォルダ名はクローラとして扱われません。それらはサイト・キャプチャ・インタフェースには表示されません。 |
|
「Sample」という名前のクローラを表しています。このフォルダは、「Sample」クローラがサイト・キャプチャのインストール・プロセスでインストールされた場合にのみ作成されます。
Sampleクローラが静的モードまたはアーカイブ・モードでコールされると、 |
|
サイト・キャプチャのシステム・ログである |
|
パブリッシュ・トリガー・クロール用のサイト・キャプチャをインストールするために必要な次のファイルが含まれます。
|
|
サイト・キャプチャがデータを格納するために必要なデータベース表を作成する次のスクリプトが含まれます。
|
|
|
|
|
|
次のファイルが含まれます。
|