48 ダウンロードされたサイトの管理

ダウンロードされたサイトは、静的にキャプチャされるかアーカイブされるかによって、サイト・キャプチャ・ファイル・システムまたはインタフェースのいずれかから管理されます。

この章は、次の項で構成されています。

第48.1項「静的にキャプチャされたサイトの管理」
第48.2項「アーカイブされたサイトの管理」
第48.3項「要約」

48.1 静的にキャプチャされたサイトの管理

サイト・キャプチャ・インタフェースでユーザーが作成するすべてのクローラごとに、サイト・キャプチャでは、そのファイル・システム内に同じ名前のフォルダが作成されます。このカスタム・フォルダ<crawlerName>を使用して、図48-1「サイト・キャプチャのカスタム・フォルダ: <crawlerName>」に示すようにクローラの構成ファイルを編成し、キャプチャして、ログを記録します。<crawlerName>フォルダとそのコンテンツの説明を参照してください。

注意:

静的キャプチャおよびログにアクセスするには、ファイル・システムを使用する必要があります。アーカイブ・キャプチャおよびログはサイト・キャプチャ・インタフェースから管理されます(ファイル・システム内のこれらの場所については、この項で説明します)。

図48-1 サイト・キャプチャのカスタム・フォルダ: <crawlerName>

「図48-1 サイト・キャプチャのカスタム・フォルダ: <crawlerName>」の説明

表48-1 <crawlerName>フォルダとそのコンテンツ

フォルダ	説明
`/fw-site-capture/crawler/<crawlerName>`	クローラを表します。サイト・キャプチャ・インタフェースでユーザーが定義するクローラごとに、サイト・キャプチャでは、`/<`crawlerName`>`フォルダが作成されます。たとえば、サンプル・クローラFirstSiteIIおよびSampleをインストールした場合、サイト・キャプチャ・インタフェースには両方のクローラがリストされ、サイト・キャプチャ・ファイル・システムに同じ名前のフォルダが存在するようになります。注意: サブフォルダ(下記を参照)のほか、`<crawlerName>`フォルダには、静的にクロールされたURLがリストされた`inventory.db`ファイルが含まれています。このファイルは、クローラがその最初の静的キャプチャを取得したときに作成されます。`inventory.db`を削除したり変更したりしないでください。それはサイト・キャプチャ・システムによって使用されます。
`/fw-site-capture/crawler/<crawlerName>/app`	クローラの`CrawlerConfiguration.groovy`ファイルが含まれます。そのコードはクロール・プロセスを制御します。クローラが作成され保存されると、`/app`フォルダが作成されます。
`/fw-site-capture/crawler/<crawlerName>/archive`	`/archive`フォルダは、アーカイブ・キャプチャ用としてのみ使用されます。このフォルダには`yyyy/mm/dd`サブフォルダの階層が含まれます。`/dd`サブフォルダには、クローラのすべてのアーカイブ・キャプチャがタイムスタンプ付きzipファイルとして格納されます。 `/archive`フォルダは、クローラが最初にアーカイブ・モードで実行されたときに作成されます。zipファイル(`/dd`にある)はデータベースで参照されるため、サイト・キャプチャ・インタフェースでWebサイトとしてのダウンロードおよび表示が可能になります。注意: アーカイブ・キャプチャは、サイト・キャプチャ・インタフェースからアクセスできます。各zipファイルには、`__inventory.db`という名前のURLログが含まれます。`__inventory.db`を削除したり変更したりしないでください。それはサイト・キャプチャ・システムによって使用されます。
`/fw-site-capture/crawler/<crawlerName>/www`	最新の静的にキャプチャされたサイトのみが含まれます(同じクローラが静的モードで再実行されると、前のキャプチャが上書きされます)。サイトは、`html`、`css`および提供可能な他のファイルとして格納されます。 `/www`フォルダは、クローラが最初に静的モードで実行されたときに作成されます。注意: 静的キャプチャは、サイト・キャプチャ・ファイル・システムからアクセスできます。
`/fw-site-capture/crawler/<crawlerName>/logs/yyyy/mm/dd`	クロールされたURLに関する情報を記載したログ・ファイルが含まれます。ログ・ファイルは`/dd`サブフォルダに格納され、図48-2に示すように命名されます。 `audit.log`ファイルは、タイムスタンプ、クロール深度、HTTPステータス、ダウンロード時間などのデータとともにクロールされたURLをリストします。 `links.txt`ファイルは、クロールされたURLをリストします。 `report.txt`ファイルは、ダウンロードされたリソース数、合計サイズ、ダウンロード・サイズおよび時間、ネットワーク条件などのクロール統計全体をリストします。アーカイブ・キャプチャでは、このレポートを、クローラ・レポートとしてサイト・キャプチャ・インタフェースで使用できます(「ジョブの詳細」フォーム上で。「ジョブの詳細」フォームへのパスは、図48-3「アーカイブ情報へのパス」を参照してください)。注意: クローラが静的モードとアーカイブ・モードの両方でキャプチャした場合、`/dd`サブフォルダには静的キャプチャとアーカイブ・キャプチャのログが含まれます。 `/logs`フォルダは`lock`という名前の一時ファイルを格納するためにも使用されます。このファイルは、追加の静的キャプチャを開始するためにクローラが起動されないよう、静的キャプチャ・プロセスの開始時に作成されます。クロール・セッションが終了すると、`lock`ファイルは削除されます。

図48-2 ログ・ファイルの場所

「図48-2 ログ・ファイルの場所」の説明

48.2 アーカイブされたサイトの管理

アーカイブされたサイトは、サイト・キャプチャ・インタフェースの様々なフォームから管理できます。図48-3「アーカイブ情報へのパス」は、アーカイブ、ジョブ、サイト・プレビュー、クローラ・レポート、URLログなどの様々な情報への経路の一部を示しています。

図48-3 アーカイブ情報へのパス

「図48-3 アーカイブ情報へのパス」の説明

たとえば、サイトをプレビューするには、「クローラ」フォームでクローラ(crawlerName)をポイントして、ポップアップ・メニュー(「アーカイブ」フォームを開くメニュー)から「アーカイブ」を選択し、「アーカイブID」をポイントして、ポップアップ・メニューから「プレビュー」を選択します。
破線は同じオプションへの複数のパスを示しています。たとえば、サイトをプレビューするには、クローラの「アーカイブ」パス、「ジョブ」パスまたは「アーカイブの開始」パスをたどることができます。アーカイブをダウンロードするには、「アーカイブ」パスまたは「ジョブ」パスをたどることができます。
クローラ・レポートおよびURLログはアスタリスク(*)でマークされています。

48.3 要約

この項では、クローラおよびキャプチャされたデータを管理するための注意事項とヒントをまとめています。

この項は、次のトピックで構成されています。

第48.3.1項「クローラの作成および編集」
第48.3.2項「クローラの削除」
第48.3.3項「クローラのスケジュール」
第48.3.4項「静的クロールの監視」
第48.3.5項「クロールの停止」
第48.3.6項「アーカイブのダウンロード」
第48.3.7項「サイトのプレビュー」
第48.3.8項「パブリッシュの宛先定義の構成」
第48.3.9項「ログ・ファイルへのアクセス」

48.3.1 クローラの作成および編集

クローラを作成し、その構成コードを編集する場合は、次の情報を考慮してください。

クローラ名は大文字と小文字が区別されます。
すべてのクローラの構成ファイルには、CrawlerConfigurator.groovyという名前が付けられます。このファイルは、依存性を注入するために使用されます。そのため、この名前は変更しないでください。
クローラは、指定のサイト上で1つ以上のシードURIで開始し、1つ以上のパスをクロールするように構成できます。追加のJavaメソッドにより、クロール深度などのパラメータを設定したり、post-crawlコマンドを起動したり、セッション・タイムアウトを指定したりできます。リンクを抽出し、URLをリライトして、クロール・セッションの終了時に電子メールを送信するためのロジックを定義するようにインタフェースを実装できます。詳細は、『Oracle Fusion Middleware WebCenter Sites開発者ガイド』を参照してください。
クローラが作成され保存されると、そのCrawlerConfigurator.groovyファイルはサイト・キャプチャ・ファイル・システムにアップロードされ、サイト・キャプチャ・インタフェースで編集可能になります。
クローラが静的サイト・キャプチャ・プロセスを実行している間は、2番目の静的キャプチャ・プロセスを起動して実行することはできません。
クローラがアーカイブ・キャプチャ・プロセスを実行している間は、2番目のアーカイブ・キャプチャ・プロセスを起動して実行することはできません。2番目のプロセスは「スケジュール済」としてマークされ、最初のプロセスが終了した後に開始されます。

48.3.2 クローラの削除

クローラ(すべてのキャプチャされた情報を含む)を削除する必要がある場合は、ファイル・システムではなく、サイト・キャプチャ・インタフェースから実行してください。インタフェースから削除すると、リンクの破損を防ぐことができます。たとえば、クローラがアーカイブ・モードで実行された場合、インタフェースからそれを削除すると、クローラのアーカイブとログおよびこれらのアーカイブとログへのデータベース参照の2つの情報が削除されます。ファイル・システムからクローラを削除すると、すでに存在していないアーカイブやログに対するデータベース参照が保持されたままになるため、サイト・キャプチャ・インタフェースで破損したリンクが生じます。

48.3.2 クローラのスケジュール

アーカイブ・クロールのみをスケジュールできます。

クローラのスケジュールを設定する場合、サイトのパブリッシュ・スケジュールを考慮して、2つが重複しないようにします。
単一クローラに対して複数のスケジュールを作成できます。たとえば、クローラを定期的に起動するためのスケジュールを1つ作成し、特定の一意の時間にクローラを起動する別のスケジュールを作成できます。
複数のスケジュールを作成する場合は、それらが重複しないようにしてください。

48.3.4 静的クロールの監視

静的クロールが進行中であるか完了済であるかを判断するには、<SC_INSTALL_DIR>/fw-site-capture/<crawlerName>/logsフォルダのlockファイルを検索します。lockファイルは一時ファイルです。このファイルは、追加の静的キャプチャを開始するためにクローラが起動されないよう、静的キャプチャ・プロセスの開始時に作成されます。クロール・セッションが終了すると、lockファイルは削除されます。

48.3.5 クロールの停止

クローラを実行する前に、クロールされるリンク数およびクロール深度を考慮してください。その両方によってクローラのセッション期間が決まります。

アーカイブ・クロールを終了する必要がある場合は、サイト・キャプチャ・インタフェースを使用します(「ジョブの詳細」フォームで「アーカイブの停止」を選択します)。
静的クロールを終了する必要がある場合は、アプリケーション・サーバーを停止する必要があります。

48.3.6 アーカイブのダウンロード

サイト・キャプチャ・インタフェースからは(250MBを超える)大きなアーカイブ・ファイルをダウンロードしないでください。かわりに、getPostExecutionCommandを使用して、サイト・キャプチャ・ファイル・システムから必要な場所にファイルをコピーします。

アーカイブ・サイズは、「ジョブの詳細」フォームのクローラ・レポートから取得できます。「ジョブの詳細」フォームへのパスは、図48-3「アーカイブ情報へのパス」を参照してください。getPostExecutionCommandメソッドの詳細は、『Oracle Fusion Middleware WebCenter Sites開発者ガイド』を参照してください。

48.3.7 サイトのプレビュー

アーカイブされたサイトに外部ドメインへのリンクが含まれる場合、特に(クローラのgroovyファイルで)クロール深度とクロールするリンク数が大きな値に設定される場合には、そのプレビューにこれらのリンクが含まれることがあります。外部ドメインは参照できますが、アーカイブされません。

48.3.8 パブリッシュの宛先定義の構成

パブリッシュ・トリガー・サイト・キャプチャを実行する場合は、パブリッシュの宛先定義の単一の文でクローラ・パラメータを設定できます。

CRAWLERCONFIG=crawler1;crawler2&CRAWLERMODE=dynamic
パブリッシュの宛先定義で複数のクローラを指定できますが、設定できるキャプチャ・モードは1つのみです。すべてのクローラがそのモードで実行されます。一部のクローラを異なるモードで実行するには、別のパブリッシュの宛先定義を構成します。

48.3.9 ログ・ファイルへのアクセス

静的にキャプチャされたサイトの場合、ログ・ファイルはサイト・キャプチャ・ファイル・システムでのみ使用可能です。
- 静的にクロールされたURLをリストしているinventory.dbファイルは、/fw-site-capture/crawler/<crawlerName>フォルダにあります。
注意:

inventory.dbファイルはサイト・キャプチャ・システムによって使用されます。削除したり変更したりしないでください。
- crawler.logファイルは、<SC_INSTALL_DIR>/fw-site-capture/logs/フォルダにあります。(crawler.logファイルで使用されている「VirtualHost」という用語は「クローラ」を意味します。)

静的にキャプチャされアーカイブされたサイトの場合、共通のログ・ファイル・セットがサイト・キャプチャ・ファイル・システムに存在します。

audit.log。クロールされたURL、タイムスタンプ、クロール深度、HTTPステータスおよびダウンロード時間をリストします。
links.txt。クロールされたURLをリストします。
report.txt。クローラ・レポートです。

前出の名前のファイルは次のフォルダにあります。

/fw-site-capture/crawler/<crawlerName>/logs/yyyy/mm/dd

注意:

アーカイブされたサイトの場合、report.txtはサイト・キャプチャ・インタフェースの「ジョブの詳細」フォームでも入手可能で、そこでは「クローラのレポート」と呼ばれています。(「ジョブの詳細」フォームへのパスは、図48-3「アーカイブ情報へのパス」を参照してください。)

アーカイブ・プロセスでは、すべてのクロールのURLログも生成されます。ログは次の2つの場所で入手可能です。
- サイト・キャプチャ・ファイル・システム内。__inventory.dbと呼ばれています。このファイルは次のフォルダのzipファイル内にあります。
  
  /fw-site-capture/crawler/<crawlerName>/archive/yyyy/mm/dd
  
  注意:
  
  __inventory.dbファイルはサイト・キャプチャ・システムによって使用されます。削除したり変更したりしないでください。
- サイト・キャプチャ・インタフェースの「アーカイブ済URL」フォーム内(パスは図48-3「アーカイブ情報へのパス」に示されています)。