ダウンロードされたサイトは、静的にキャプチャされるかアーカイブされるかによって、サイト・キャプチャ・ファイル・システムまたはインタフェースのいずれかから管理されます。
この章は、次の項で構成されています。
サイト・キャプチャ・インタフェースでユーザーが作成するすべてのクローラごとに、サイト・キャプチャでは、そのファイル・システム内に同じ名前のフォルダが作成されます。このカスタム・フォルダ<crawlerName>
を使用して、図48-1「サイト・キャプチャのカスタム・フォルダ: <crawlerName>」に示すようにクローラの構成ファイルを編成し、キャプチャして、ログを記録します。<crawlerName>
フォルダとそのコンテンツの説明を参照してください。
注意: 静的キャプチャおよびログにアクセスするには、ファイル・システムを使用する必要があります。アーカイブ・キャプチャおよびログはサイト・キャプチャ・インタフェースから管理されます(ファイル・システム内のこれらの場所については、この項で説明します)。 |
表48-1 <crawlerName>フォルダとそのコンテンツ
フォルダ | 説明 |
---|---|
|
クローラを表します。サイト・キャプチャ・インタフェースでユーザーが定義するクローラごとに、サイト・キャプチャでは、 注意: サブフォルダ(下記を参照)のほか、 |
|
クローラの |
|
注意: アーカイブ・キャプチャは、サイト・キャプチャ・インタフェースからアクセスできます。各zipファイルには、 |
|
最新の静的にキャプチャされたサイトのみが含まれます(同じクローラが静的モードで再実行されると、前のキャプチャが上書きされます)。サイトは、
注意: 静的キャプチャは、サイト・キャプチャ・ファイル・システムからアクセスできます。 |
|
クロールされたURLに関する情報を記載したログ・ファイルが含まれます。ログ・ファイルは
注意: クローラが静的モードとアーカイブ・モードの両方でキャプチャした場合、
|
アーカイブされたサイトは、サイト・キャプチャ・インタフェースの様々なフォームから管理できます。図48-3「アーカイブ情報へのパス」は、アーカイブ、ジョブ、サイト・プレビュー、クローラ・レポート、URLログなどの様々な情報への経路の一部を示しています。
たとえば、サイトをプレビューするには、「クローラ」フォームでクローラ(crawlerName)をポイントして、ポップアップ・メニュー(「アーカイブ」フォームを開くメニュー)から「アーカイブ」を選択し、「アーカイブID」をポイントして、ポップアップ・メニューから「プレビュー」を選択します。
破線は同じオプションへの複数のパスを示しています。たとえば、サイトをプレビューするには、クローラの「アーカイブ」パス、「ジョブ」パスまたは「アーカイブの開始」パスをたどることができます。アーカイブをダウンロードするには、「アーカイブ」パスまたは「ジョブ」パスをたどることができます。
クローラ・レポートおよびURLログはアスタリスク(*)でマークされています。
この項では、クローラおよびキャプチャされたデータを管理するための注意事項とヒントをまとめています。
この項は、次のトピックで構成されています。
クローラを作成し、その構成コードを編集する場合は、次の情報を考慮してください。
クローラ名は大文字と小文字が区別されます。
すべてのクローラの構成ファイルには、CrawlerConfigurator.groovy
という名前が付けられます。このファイルは、依存性を注入するために使用されます。そのため、この名前は変更しないでください。
クローラは、指定のサイト上で1つ以上のシードURIで開始し、1つ以上のパスをクロールするように構成できます。追加のJavaメソッドにより、クロール深度などのパラメータを設定したり、post-crawlコマンドを起動したり、セッション・タイムアウトを指定したりできます。リンクを抽出し、URLをリライトして、クロール・セッションの終了時に電子メールを送信するためのロジックを定義するようにインタフェースを実装できます。詳細は、『Oracle Fusion Middleware WebCenter Sites開発者ガイド』を参照してください。
クローラが作成され保存されると、そのCrawlerConfigurator.groovy
ファイルはサイト・キャプチャ・ファイル・システムにアップロードされ、サイト・キャプチャ・インタフェースで編集可能になります。
クローラが静的サイト・キャプチャ・プロセスを実行している間は、2番目の静的キャプチャ・プロセスを起動して実行することはできません。
クローラがアーカイブ・キャプチャ・プロセスを実行している間は、2番目のアーカイブ・キャプチャ・プロセスを起動して実行することはできません。2番目のプロセスは「スケジュール済」としてマークされ、最初のプロセスが終了した後に開始されます。
クローラ(すべてのキャプチャされた情報を含む)を削除する必要がある場合は、ファイル・システムではなく、サイト・キャプチャ・インタフェースから実行してください。インタフェースから削除すると、リンクの破損を防ぐことができます。たとえば、クローラがアーカイブ・モードで実行された場合、インタフェースからそれを削除すると、クローラのアーカイブとログおよびこれらのアーカイブとログへのデータベース参照の2つの情報が削除されます。ファイル・システムからクローラを削除すると、すでに存在していないアーカイブやログに対するデータベース参照が保持されたままになるため、サイト・キャプチャ・インタフェースで破損したリンクが生じます。
アーカイブ・クロールのみをスケジュールできます。
クローラのスケジュールを設定する場合、サイトのパブリッシュ・スケジュールを考慮して、2つが重複しないようにします。
単一クローラに対して複数のスケジュールを作成できます。たとえば、クローラを定期的に起動するためのスケジュールを1つ作成し、特定の一意の時間にクローラを起動する別のスケジュールを作成できます。
複数のスケジュールを作成する場合は、それらが重複しないようにしてください。
静的クロールが進行中であるか完了済であるかを判断するには、<SC_INSTALL_DIR>/fw-site-capture/<crawlerName>/logs
フォルダのlock
ファイルを検索します。lock
ファイルは一時ファイルです。このファイルは、追加の静的キャプチャを開始するためにクローラが起動されないよう、静的キャプチャ・プロセスの開始時に作成されます。クロール・セッションが終了すると、lock
ファイルは削除されます。
クローラを実行する前に、クロールされるリンク数およびクロール深度を考慮してください。その両方によってクローラのセッション期間が決まります。
アーカイブ・クロールを終了する必要がある場合は、サイト・キャプチャ・インタフェースを使用します(「ジョブの詳細」フォームで「アーカイブの停止」を選択します)。
静的クロールを終了する必要がある場合は、アプリケーション・サーバーを停止する必要があります。
サイト・キャプチャ・インタフェースからは(250MBを超える)大きなアーカイブ・ファイルをダウンロードしないでください。かわりに、getPostExecutionCommand
を使用して、サイト・キャプチャ・ファイル・システムから必要な場所にファイルをコピーします。
アーカイブ・サイズは、「ジョブの詳細」フォームのクローラ・レポートから取得できます。「ジョブの詳細」フォームへのパスは、図48-3「アーカイブ情報へのパス」を参照してください。getPostExecutionCommand
メソッドの詳細は、『Oracle Fusion Middleware WebCenter Sites開発者ガイド』を参照してください。
アーカイブされたサイトに外部ドメインへのリンクが含まれる場合、特に(クローラのgroovy
ファイルで)クロール深度とクロールするリンク数が大きな値に設定される場合には、そのプレビューにこれらのリンクが含まれることがあります。外部ドメインは参照できますが、アーカイブされません。
パブリッシュ・トリガー・サイト・キャプチャを実行する場合は、パブリッシュの宛先定義の単一の文でクローラ・パラメータを設定できます。
CRAWLERCONFIG=
crawler1;crawler2&CRAWLERMODE=dynamic
パブリッシュの宛先定義で複数のクローラを指定できますが、設定できるキャプチャ・モードは1つのみです。すべてのクローラがそのモードで実行されます。一部のクローラを異なるモードで実行するには、別のパブリッシュの宛先定義を構成します。
静的にキャプチャされたサイトの場合、ログ・ファイルはサイト・キャプチャ・ファイル・システムでのみ使用可能です。
静的にクロールされたURLをリストしているinventory.db
ファイルは、/fw-site-capture/crawler/<crawlerName>
フォルダにあります。
注意:
|
crawler.log
ファイルは、<SC_INSTALL_DIR>/fw-site-capture/logs/
フォルダにあります。(crawler.log
ファイルで使用されている「VirtualHost」という用語は「クローラ」を意味します。)
静的にキャプチャされアーカイブされたサイトの場合、共通のログ・ファイル・セットがサイト・キャプチャ・ファイル・システムに存在します。
audit.log
。クロールされたURL、タイムスタンプ、クロール深度、HTTPステータスおよびダウンロード時間をリストします。
links.txt
。クロールされたURLをリストします。
report.txt
。クローラ・レポートです。
前出の名前のファイルは次のフォルダにあります。
/fw-site-capture/crawler/<crawlerName>/logs/yyyy/mm/dd
注意: アーカイブされたサイトの場合、 |
アーカイブ・プロセスでは、すべてのクロールのURLログも生成されます。ログは次の2つの場所で入手可能です。
サイト・キャプチャ・ファイル・システム内。__inventory.db
と呼ばれています。このファイルは次のフォルダのzipファイル内にあります。
/fw-site-capture/crawler/<crawlerName>/archive/yyyy/mm/dd
注意:
|
サイト・キャプチャ・インタフェースの「アーカイブ済URL」フォーム内(パスは図48-3「アーカイブ情報へのパス」に示されています)。