36 サイト・キャプチャ・アプリケーションの使用

WebCenter Sitesのサイト・キャプチャ・アプリケーションを使用すると、様々な方法でサイトをダウンロードして、そのサイトを個別のディレクトリに保存できます。サイト・キャプチャは、サイトのダウンロードのために実行するクローラの作成および変更とともに、管理およびモニターできます。

トピック:

36.1 サイト・キャプチャ・モデル

クロール・セッションは、サイト・キャプチャ・インタフェースから手動で開始することも、WebCenter Sitesリアルタイム・パブリッシュ・セッションの完了時に起動することもできます。いずれの場合も、クローラは、その実行方法として選択されたモード(静的またはアーカイブ・モード)に応じてWebサイトをディスクにダウンロードします。

トピック:

36.1.1 キャプチャ・モード

サイトを静的またはアーカイブのいずれのモードでダウンロードした場合も、ディスクには同じファイル(html、cssなど)が格納されますが、いくつかの相違点があります。たとえば、静的にダウンロードしたサイトはファイル・システムでのみ使用可能ですが、アーカイブしたサイトはファイル・システムとサイト・キャプチャ・インタフェースの両方で使用可能になります。つまりキャプチャのモードによって、クローラがサイトをダウンロードする方法およびその結果の管理方法が決まります。

表36-1 静的キャプチャ・モードとアーカイブ・モード

静的モード アーカイブ・モード

迅速なデプロイメントと高可用性のシナリオをサポートします。

コンプライアンスなどを目的として、定期的にWebサイトのコピーを維持するために使用されます。

クロールされたサイトが提供可能なファイルとして格納されます。最新のキャプチャのみが保持されます(以前に格納されたファイルは上書きされます)。

クロールされたすべてのサイトが保持され、タイムスタンプ付きのフォルダにzipファイル(アーカイブ)として格納されます。このzipファイルへのポインタがサイト・キャプチャ・データベースで作成されます。

静的クロール・セッションは、アプリケーション・インタフェースから手動で開始することも、パブリッシュ・セッション後に開始させることもできます。ただし、ダウンロードしたサイトは、サイト・キャプチャ・ファイル・システムからのみ管理できます。

アーカイブ・クロール・セッションは、静的セッション同様、サイト・キャプチャ・インタフェースから手動で開始することも、パブリッシュ・セッションの終了時に開始させることもできます。ただし、zipファイルはサイト・キャプチャ・データベース内のポインタによって参照されるため、サイト・キャプチャ・インタフェースで管理できます。ここで、ファイルのダウンロード、アーカイブされたサイトのプレビュー、およびキャプチャ・スケジュールの設定を実行できます。

いずれのキャプチャ・モードでも、クロール・セッション後にログが生成され、クロールされたURL、HTTPステータス、およびネットワーク条件などの情報が提供されます。静的キャプチャでは、ログをファイル・システムから取得する必要があります。アーカイブ・キャプチャでは、ログをサイト・キャプチャ・インタフェースからダウンロードできます。いずれのキャプチャ・モードにも、レポート生成時にレポートを電子メールで送信するようクローラを構成するオプションが用意されています。

36.1.2 クローラ

どのタイプのサイト・キャプチャ・プロセスを開始する場合でも、サイト・キャプチャ・インタフェースでクローラを定義する必要があります。すぐに始められるよう、サイト・キャプチャにはSampleおよびFirstSiteIIという2つのサンプル・クローラが用意されています。ここでは、サイト・キャプチャのインストール・プロセスでこれらのクローラがインストールされていることを前提としています。このガイドでは主にSampleクローラを使用します。

独自のクローラを作成するには、クローラに名前を付け(通常はターゲット・サイトにちなんだ名前)、サイト・キャプチャ・プロセスを制御するCrawlerConfigurator.groovyという名前のテキスト・ファイルをアップロードします。groovyファイルはBaseConfiguratorクラスのメソッドを使用してコード化し、少なくともクローラの開始URIとリンク抽出ロジックを指定する必要があります。groovyファイルはサイト・キャプチャ・プロセスを制御しますが、キャプチャ・モードはファイル外部で設定されます。

パブリッシュ・トリガー・サイト・キャプチャ用のクローラを使用するには追加のステップが必要です。『Oracle WebCenter Sitesのインストールと構成』コンフィギュレータによるサイト・キャプチャの構成に関する項の説明にあるように、クローラに名前を付けて、サイト・キャプチャと統合されているWebCenter Sitesソース・システム上のパブリッシュの宛先定義でキャプチャ・モードを指定します。(すべてのパブリッシュの宛先定義で1つ以上のクローラを指定できますが、単一のキャプチャ・モードしか指定できません。)クローラ・セッションの正常起動に関する情報は、サイト・キャプチャ・ファイル・システムと、WebCenter Sitesソースおよびターゲット・システムのログ・ファイル(デフォルトではfuturetense.txt)に格納されます。

この章の演習では、手動およびパブリッシュ・トリガーの両方のタイプのクローラのシナリオについて説明します。

36.2 サイト・キャプチャ・アプリケーションへのログイン

サイト・キャプチャ・アプリケーションには、WebCenter Sitesにログインしてアクセスします。

  1. 次のURLでWebCenter Sitesにアクセスします。
    http://<server>:<port>/<context>/login
    

    前述の例で<server>WebCenter Sitesを実行しているサーバーのホスト名またはIPアドレス、<port>WebCenter Sitesアプリケーションの番号、<context>はサーバー上にデプロイされているWebCenter Sites Webアプリケーションの名前です。

  2. 一般管理者としてログインします。ログイン資格証明では大文字と小文字が区別されます。このガイドでは、管理資格証明を使用します。
  3. 「ログイン」をクリックします。
  4. 初めてログインする場合は、次のダイアログが開きます。

    AdminSite (デフォルトでサイト・キャプチャ・アプリケーションが割り当てられている)を選択し、サイト・キャプチャ・アイコンを選択します。

    「クローラ」ページが開きます。

  5. デフォルトのクローラがサイト・キャプチャとともにインストールされている場合は、SampleおよびFirstSiteIIという名前でそれらがリストされます。

    図36-1 「クローラ」ページ

    図36-1の説明が続きます
    「図36-1 「クローラ」ページ」の説明
  6. 次のステップは、要件によって異なります。

36.3 デフォルト・クローラの使用

サイト・キャプチャ・アプリケーションにデフォルトのSampleクローラとFirstSiteIIクローラがインストールされていて、それらがインタフェースに表示されている必要があります。独自のクローラを定義するには、「クローラの定義」を参照してください。

トピック:

36.3.1 Sampleクローラ

Sampleクローラを使用して、あらゆるサイトをダウンロードできます。Sampleクローラの目的は、サイトを迅速にダウンロードできるようにし、独自のクローラを作成するときに再利用する必須の構成コードを提供することです。Sampleクローラは、必須メソッドと、クロールへのリンク数を制限することでクロールの期間を制限するオプション・メソッドによる最小構成になっています。

  • 必須メソッドは、getStartURiおよび(クロールしたページからリンクを抽出するロジックを定義する)createLinkExtractorです。

  • オプションのメソッドは、クロールするリンク数を指定するgetMaxLinksです。

これらの方法の詳細は、『Oracle WebCenter Sitesでの開発』クローラのカスタマイズ方法に関する項を参照してください。

36.3.2 FirstSiteIIクローラ

FirstSiteIIクローラは、WebCenter Sitesの動的FirstSiteIIサンプルWebサイトを静的サイトとしてダウンロードするために使用されます。クローラの目的は、LinkExtractorおよびResourceRewriterインタフェースを使用して、カスタム・リンク・エクストラクタおよびリソース・リライタの作成方法を示す高度な構成コードを提供することです。『Oracle WebCenter Sitesでの開発』インタフェースに関する項を参照してください。

36.3.3 デフォルト・クローラの実行

この項では、SampleクローラまたはFirstSiteIIクローラのいずれかを実行します。FirstSiteIIクローラを使用するには、WebCenter Sites FirstSiteIIサンプル・サイトをパブリッシュすることが必要です。

  1. 「クローラ」ページで、デフォルト・クローラのSampleまたはFirstSiteIIをポイントし、「構成の編集」を選択します。

    ノート:

    デフォルト・クローラがリストされていない場合は、サイト・キャプチャの操作の設定に進み、独自のクローラを定義します。

  2. クローラ構成ファイルを編集することによって、クローラの開始URIを設定します。ステップについては、クローラの定義の1に進み、クローラを実行してキャプチャされたデータを管理するための残りのステップを実行します。

36.4 サイト・キャプチャの操作の設定

この項では、独自のクローラを作成および実行するプロセスを通じて、サイト・キャプチャ・インタフェースおよびファイル・システムがどのように編成されるかを理解します。

トピック:

36.4.1 初期クローラ構成ファイルの作成

クローラを作成する前に、クローラのサイト・キャプチャ・プロセスを制御する構成ファイルが必要です。有用なファイルを作成する最速の方法は、サンプル・コードをコピーして、必要に応じてリコードすることです。

  1. 次のいずれかの方法で、サンプル構成ファイルをローカル・コンピュータにコピーします。

    • サイト・キャプチャ・アプリケーションにログインします。「クローラ」ページにSampleクローラがリストされている場合は、次を実行します(それ以外の場合は、次の項目に進みます)。

      1. Sampleをポイントし、「構成の編集」を選択します。

      2. 「構成ファイル」フィールドに移動し、そのコードをローカル・コンピュータ上のテキスト・ファイルにコピーして、ファイルをCrawlerConfigurator.groovyとして保存します。

    • サイト・キャプチャ・ホスト・コンピュータに移動し、CrawlerConfigurator.groovyファイルを<SC_INSTALL_DIR>/fw-site-capture/crawler/Sample/app/からローカル・コンピュータにコピーします。

      ノート:

      各クローラは自身のCrawlerConfigurator.groovyファイルによって制御されます。このファイルはカスタム・フォルダ構造に格納されます。次に例を示します。

      クローラを定義すると、サイト・キャプチャによってクローラの名前(<crawlerName>、このシナリオではSample)の付いたフォルダが作成され、そのフォルダが<SC_INSTALL_DIR>/fw-site-capture/crawler/というパスに配置されます。サイト・キャプチャは、<crawlerName>フォルダ内に/appサブフォルダを作成し、ローカル・コンピュータからこのフォルダにgroovyファイルをアップロードします。

      クローラが指定のモードで初めて使用される場合、サイト・キャプチャはそのモードでキャプチャしたサイトを格納するための追加のサブフォルダを(/<crawlerName>/内に)作成します。「静的にキャプチャされたサイトの管理」を参照してください。

  2. サンプルのgroovyファイルは、サンプルの開始URIを指定しています。次のステップでクローラを作成するときにリセットします。(開始URIのほか、クローラ深度などのパラメータを設定し、post-crawlコマンドを起動して、ターゲット・サイトに固有のロジックを定義するためのインタフェースを実装します。)

    この時点では、ダウンロードされたgroovyファイルをただちにカスタマイズするか、最初にクローラを作成してからそのgroovyファイル(サイト・キャプチャ・インタフェースで編集可能)をカスタマイズするかのオプションがあります。後者を実行する場合は、次のステップ「クローラの定義」を続行してください。

36.4.2 クローラの定義

クローラを定義するには:

  1. 「クローラ」ページに移動して、「クローラの追加」をクリックします。

  2. 「クローラの追加」ページで次の手順を実行します。

    1. クロール対象サイトにちなんでクローラに名前を付けます。

      ノート:

      • クローラを保存した後で名前を変更することはできません。

      • このガイドでは、すべてのカスタム・クローラがターゲット・サイトにちなんだ名前を付けられ、その他のサイトのキャプチャには使用されないことを前提としています。

    2. 説明を入力します(オプション)。たとえば、「このクローラはパブリッシュ・トリガー・サイト・キャプチャ用に予約されています」または「このクローラはスケジュール済キャプチャ用に予約されています」のように入力します。

    3. 「構成ファイル」フィールドで、初期クローラ構成ファイルの作成で作成したgroovyファイルを参照します。

    4. 新しいクローラを保存します。

      CrawlerConfigurator.groovyファイルは、サイト・キャプチャ・ホスト・コンピュータの<SC_INSTALL_DIR>/fw-site-capture/crawler/<crawlerName>/appフォルダにアップロードされます。サイト・キャプチャ・インタフェースで、直接ファイルを編集できます。

  3. クローラ構成ファイルの編集に進みます。

36.4.3 クローラ構成ファイルの編集

サイト・キャプチャ・インタフェースから、クローラ構成ファイル全体をリコードできます。この例では、単純に開始URIを設定します。

  1. 「クローラ」ページで、定義したクローラをポイントし、「構成の編集」を選択します。

    図36-2 「構成」ページ

    図36-2の説明が続きます
    「図36-2 「構成」ページ」の説明

    「構成ファイル」フィールドには、<SC_INSTALL_DIR>/fw-site-capture/crawler/<crawler name>/appにある、クローラのCrawlerConfigurator.groovy ファイルが表示されます。

  2. 次の方法で、開始URIをクローラに設定します。
    public String[] getStartUri() {
      return ["http://www.example.com/home"]

    ノート:

    次の点に注意してください。

    複数の開始URIを設定できます。それらは同じサイトに属している必要があります。次の例に示すように、カンマ区切りの配列を入力します。

    public String[] getStartUri() {  return ["http://www.example.com/product","http://www.example.com/support"];  } 

    構成ファイルには、クロール対象のリンクを抽出するためのロジックをコールするcreateLinkExtractorメソッドが含まれています。リンクは、クロール・セッション中にダウンロードされるマークアップから抽出されます。このメソッドと抽出ロジックの詳細は、『Oracle WebCenter Sitesでの開発』createLinkExtractorに関する項を参照してください。

    構成ファイルには、クロールするリンク数を指定するgetMaxLinksメソッドも含まれています。デフォルト値は、迅速な実行を確保するため150に設定されています。なんらかの理由で静的キャプチャを停止する必要がある場合は、アプリケーション・サーバーを停止する必要があります。キャプチャのアーカイブは、サイト・キャプチャ・インタフェースから停止できます。

    『Oracle WebCenter Sitesでの開発』クローラ構成ファイルのコーディングに関する項を参照してください。

  3. 「保存」をクリックします。
  4. クロールの開始に進みます。

36.4.4 クロールの開始

クロールは次のいくつかの方法で開始できます。1つのモードでクローラを使用した場合、別のモードで再実行できます。

36.4.4.1 静的モードでのクローラの手動実行

クローラを静的モードで手動実行するには:

  1. 「クローラ」ページで、作成したクローラをポイントし、メニューから「静的キャプチャの開始」を選択します。

    キャプチャが開始されると、「クローラ」ページに次のメッセージが表示されます。

    成功しました。クローラ<crawlerName>によって静的キャプチャが開始されました。

  2. この時点では、サイト・キャプチャ・インタフェースにはクローラまたはそのプロセスに関する他の情報は表示されず、ダウンロードされたサイトを使用することもできません。かわりに、サイト・キャプチャ・ファイル・システムを使用して、ダウンロードされたファイルや様々なログにアクセスします。
    • 静的キャプチャ・プロセスを監視するには、次のファイルを検索します。

      • <SC_INSTALL_DIR>/fw-site-capture/<crawlerName>/logsにあるlockファイル。lockファイルは一時ファイルです。追加の静的キャプチャを開始するためにクローラがコールされないよう、静的キャプチャ・プロセスの開始時に作成されます。クロール・セッションが終了すると、lockファイルは削除されます。

      • <SC_INSTALL_DIR>/fw-site-capture/logs/crawler.logファイル。(このファイルで使用されている「VirtualHost」という用語は「クローラ」を意味します。)

      • <SC_INSTALL_DIR>/fw-site-capture/<crawlerName>にあるinventory.dbファイル。このファイルには、クロールしたURLがリストされています。inventory.dbファイルはサイト・キャプチャ・システムによって使用されるため、削除したり変更したりしないでください。

      • audit.loglinks.txtファイルおよびreport.txtファイルは、/fw-site-capture/crawler/<crawlerName>/logs/yyyy/mm/ddにあります。

    • ダウンロードされたファイルにアクセスするには、<SC_INSTALL_DIR>/fw-site-capture/crawler/<crawlerName>/wwwに移動します。

    「静的にキャプチャされたサイトの管理」を参照してください。

36.4.4.2 アーカイブ・モードでのクローラの手動実行

クローラをアーカイブ・モードで手動実行するには:

  1. 「クローラ」ページで、作成したクローラをポイントし、「アーカイブの開始」を選択します。

    コメント・ダイアログが開きます。

  2. ダイアログで、今後のジョブに関するコメントを追加します。

    図36-3 「コメント」ダイアログ

    図36-3の説明が続きます
    「図36-3 「コメント」ダイアログ」の説明

    ノート:

    クローラが実行を開始した後は、コメントを追加できません。

    前出のダイアログでコメントを追加するように選択した場合、それは次の場所に表示されます。

    • 「ジョブの詳細」ページの「ジョブのコメント」フィールド(次のステップに示す)。

    • 「ジョブ」ページの「ジョブのコメント」フィールド。

    • 「アーカイブ」ページの「コメント」フィールド。

  3. 「アーカイブの開始」をクリックします。

    「ジョブの詳細」ページが開きます。ここでは、アーカイブ・プロセスをいくつかの方法で管理できます。この演習を続けるには、「終了」が開くまで、「リフレッシュ」(「ジョブの状態」の隣)をクリックします。

    • 「リフレッシュ」は、ジョブ状態が「スケジュール済」または「実行中」のときに表示されます。「リフレッシュ」をクリックすると、表示されたジョブ状態が更新されます。可能なジョブ状態は、「スケジュール済」「実行中」「終了」「停止」および「失敗」です。

    • 「アーカイブの停止」は、クローラ・セッションを終了します。キャプチャされたリソースはすべてアーカイブされ、ジョブ状態が「実行中」から「終了」に変更されます(変更を表示するには、「リフレッシュ」をクリックします)。

    • ジョブ状態が「終了」の場合、「プレビュー」が表示されます。「プレビュー」をクリックすると、アーカイブされたサイトが表示されます。

    • 「取消」をクリックすると、「ジョブ」ページにリダイレクトされます。実行中の場合、クローラは実行を継続します。

  4. アーカイブ・クロールが終了すると、結果がサイト・キャプチャ・インタフェースで使用可能になります。次に例を示します。
    • クローラ・レポートが「ジョブの詳細」ページに表示されます。レポートには、ダウンロードされたリソース数、その合計サイズとダウンロード時間、ネットワーク条件、HTTPステータス・コード、および必要に応じて追加のノートが記載されます。

    • アーカイブされたサイトをレンダリングするには、「ジョブの詳細」ページの「プレビュー」をクリックします。サイトの横には、アーカイブ管理オプションを備えたアーカイブIDテーブルがあり、これはアーカイブをポイントすると表示されます。

      ノート:

      アーカイブされたサイトに外部ドメインへのリンクが含まれる場合、特に(CrawlerConfigurator.groovyファイルで)クロール深度とクロールするリンク数が大きな値に設定される場合には、そのプレビューにこれらのリンクが含まれることがあります。外部ドメインは参照できますが、アーカイブされません。

    • 様々なデータへの経路の要約は、アーカイブされたサイトの管理についてを参照してください。

36.4.4.3 クローラのアーカイブ・キャプチャのスケジュール

アーカイブ・キャプチャのみをスケジュールできます。特定のクローラに対して複数のスケジュールを作成できます。たとえば、定期的なキャプチャ用と、特定かつ一意の時間のキャプチャ用に別々のスケジュールを作成できます。

ノート:

複数のスケジュールを設定する場合は、それらが重複しないようにしてください。

  1. 「クローラ」ページに移動して、作成したクローラをポイントし、「アーカイブのスケジュール」を選択します。
  2. 「スケジュールの追加」をクリックし、すべてのカレンダーで「曜日」、「日付」、「月」、「時間」および「分」を選択します。
  3. 「保存」をクリックし、必要に応じて別のスケジュールを追加します。
36.4.4.4 リアルタイム・モードでのサイトのパブリッシュについて

WebCenter Sitesパブリッシュ・システムを構成してサイト・キャプチャ・アプリケーションと通信する場合は、新たなパブリッシュ済サイトをキャプチャするために1つ以上のクローラを起動するようにリアルタイム・パブリッシュ・プロセスを設定できます。手順については、パブリッシュ・トリガー・サイト・キャプチャの有効化を参照してください。

36.4.5 キャプチャ・データの管理について

静的およびアーカイブ・キャプチャに関連付けられた様々なデータへのアクセスの詳細は、静的にキャプチャされたサイトの管理を参照してください。

クローラおよびキャプチャされたデータを管理するためのノートとヒントに、クローラとキャプチャされたデータを管理する場合に留意すべきノートとヒントをまとめてあります。

36.5 パブリッシュによってトリガーされるサイト・キャプチャの有効化

管理ユーザーは、必要な数のサイト・キャプチャ用のパブリッシュの宛先定義を構成し、必要な数のクローラをコールできます。パブリッシュ・トリガー・サイト・キャプチャを有効にするための主なステップは次のとおりです。

36.5.1 サイト・キャプチャ・アプリケーションとOracle WebCenter Sitesの統合について

サイト・キャプチャ・アプリケーションが、パブリッシュ・プロセスで使用されるWebCenter Sitesソースおよびターゲット・システムと最初に統合される場合のみ、リアルタイム・パブリッシュ・セッション後にサイト・キャプチャを有効にできます。サイト・キャプチャが統合されていない場合は、Oracle WebCenter Sitesのインストールと構成サイト・キャプチャのWebCenter Sitesのパブリッシュ・プロセスとの統合で統合ステップを参照してから、次のステップに進みます。

36.5.2 サイト・キャプチャ用のリアルタイム・パブリッシュの宛先定義の構成

パブリッシュの宛先定義を構成する場合、パブリッシュ・セッションの後でコールされるクローラの名前を指定します。キャプチャ・モードも指定します。

  1. サイト・キャプチャ・アプリケーションと統合されるWebCenter Sitesソース・システムに移動します。

    1. サイト・キャプチャと統合されるWebCenter Sitesターゲット・システムをポイントするリアルタイム・パブリッシュの宛先定義を作成します。「新規リアルタイム宛先定義の追加」を参照してください。

    2. パブリッシュの宛先定義の「他の引数」セクションで、パブリッシュ・セッションの後で起動するクローラを指定し、次のパラメータを使用してキャプチャ・モードを設定します。

      • CRAWLERCONFIG: 各クローラの名前を指定します。複数のクローラを使用する場合は、名前をセミコロン(;)で区切ります。

        例:

        単一クローラの場合: CRAWLERCONFIG=crawler1

        複数クローラの場合: CRAWLERCONFIG=crawler1;crawler2;crawler3

        ノート:

        ここで指定するクローラは、サイト・キャプチャ・インタフェースでも構成され、さらに同じ名前である必要があります。クローラ名は大文字と小文字が区別されます。

      • CRAWLERMODE: アーカイブ・キャプチャを実行するには、このパラメータをdynamicに設定します。デフォルトでは、静的キャプチャが有効になります。

        例: CRAWLERMODE=dynamic

        ノート:

        • CRAWLERMODEモードが省略されるかdynamic以外の値に設定された場合、パブリッシュ・セッションが終了すると、静的キャプチャが開始されます。

        • 両方のクローラ・パラメータを、次のように単一の文で設定できます。CRAWLERCONFIG=crawler1;crawler2&CRAWLERMODE=dynamic

        • 複数のクローラを指定できますが、設定できるモードは1つのみです。すべてのクローラがそのモードで実行されます。一部のクローラを異なるモードで実行するには、別のパブリッシュの宛先定義を構成します。

  2. 次の手順に進みます。

36.5.3 クローラの一致

パブリッシュの宛先定義で指定したクローラは、サイト・キャプチャ・インタフェースに存在している必要があります。次を実行します。

  1. クローラ名が宛先定義とサイト・キャプチャ・インタフェースで同じになっていることを確認します。名前は、大/小文字が区別されます。
  2. 各クローラの構成ファイルでターゲット・サイトの有効な開始URIが設定されていることを確認します。クローラの構成ファイルへの移動の詳細は、クローラ構成ファイルの編集を参照してください。構成コードの記述方法の詳細は、『Oracle WebCenter Sitesでの開発』クローラ構成ファイルのコーディングに関する項を参照してください。

36.5.4 サイト・キャプチャの管理

サイト・キャプチャを管理するには:

  1. パブリッシュ・トリガー・サイト・キャプチャが有効になると、いつでもターゲット・サイトをパブリッシュできます。パブリッシュが終了すると、サイト・キャプチャが開始されます。パブリッシュの宛先定義でCRAWLERMODEパラメータをどのように設定したかに応じて(サイト・キャプチャ用のリアルタイム・パブリッシュの宛先定義の構成のステップb)、静的モードまたはアーカイブ・モードのいずれかで、クローラがページをキャプチャします。

  2. サイト・キャプチャ・プロセスを監視するには、次の手順を実行します

    • 静的キャプチャの場合、サイト・キャプチャ・インタフェースにはセッションに関する情報が表示されず、キャプチャされたサイトも使用可能になりません。

      • クローラがコールされたかどうかを判断するには、ソースまたはターゲットのWebCenter Sitesシステムでfuturetense.txtファイルを開きます。

        ノート:

        WebCenter Sitesのソースおよびターゲット・システム上のfuturetense.txtファイルには、静的およびアーカイブのいずれかのタイプのクロールに関するクローラ起動ステータスが含まれています。

      • キャプチャ・プロセスを監視するには、サイト・キャプチャ・ファイル・システムに移動し、静的モードでのクローラの手動実行のステップ2でリストされたファイルを確認します。

    • 動的キャプチャの場合、サイト・キャプチャ・インタフェースからクロールのステータスを表示できます。

      1. 「クローラ」ページに移動し、クローラをポイントして、ポップアップ・メニューから「ジョブ」を選択します。

      2. 「ジョブの詳細」ページで、「終了」が表示されるまで「ジョブの状態」の横にある「リフレッシュ」をクリックします。(「ジョブの状態」で可能な値は、「スケジュール済」、「実行中」、「終了」、「停止」または「失敗」です。)「ジョブの詳細」ページの詳細は、アクティブ・モードでのクローラの手動実行のステップ3と4を参照してください。

  3. キャプチャされたデータを管理します。

    クロール・セッションが終了したら、キャプチャされたサイトと関連データを次のように管理できます。

    • 静的にキャプチャされたサイトの場合は、サイト・キャプチャ・ファイル・システムに移動します。詳細は、静的にキャプチャされたサイトの管理を参照してください。

    • アーカイブされたサイトの場合は、サイト・キャプチャ・インタフェースを使用してサイトをプレビューし、zipファイルとログをダウンロードします。詳細は、アーカイブされたサイトの管理についてを参照してください。

36.6 静的にキャプチャされたサイトの管理

サイト・キャプチャ・インタフェースでユーザーが作成するすべてのクローラごとに、サイト・キャプチャでは、そのファイル・システム内に同じ名前のフォルダが作成されます。このカスタム・フォルダ<crawlerName>は、using-site-capture-application.html#GUID-023C4D76-7BFF-43F6-A0D3-0DA764DA9860__CHDBCFCJ (<crawlerName>フォルダとそのコンテンツを表示)に示すように、クローラの構成ファイル、キャプチャおよびログの編成に使用されます。

ノート:

静的キャプチャおよびログにアクセスするには、ファイル・システムを使用する必要があります。アーカイブ・キャプチャおよびログはサイト・キャプチャ・インタフェースから管理されます(ファイル・システム内のこれらの場所については、この項で説明します)。

図36-4 サイト・キャプチャのカスタム・フォルダ: <crawlerName>

図36-4の説明が続きます
「図36-4 サイト・キャプチャのカスタム・フォルダ: <crawlerName>」の説明

表36-2 <crawlerName>フォルダとそのコンテンツ

フォルダ 説明

/fw-site-capture/crawler/<crawlerName>

クローラを表します。サイト・キャプチャ・インタフェースでユーザーが定義するクローラごとに、サイト・キャプチャでは、/<crawlerName>フォルダが作成されます。たとえば、サンプル・クローラFirstSiteIIおよびSampleをインストールした場合、サイト・キャプチャ・インタフェースには両方のクローラがリストされ、サイト・キャプチャ・ファイル・システムに同じ名前のフォルダが存在するようになります。

ノート: サブフォルダ(次を参照)のほか、<crawlerName>フォルダには、静的にクロールされたURLがリストされたinventory.dbファイルが含まれています。このファイルは、クローラがその最初の静的キャプチャを取得したときに作成されます。inventory.dbを削除したり変更したりしないでください。それはサイト・キャプチャ・システムによって使用されます。

/fw-site-capture/crawler/<crawlerName>/app

CrawlerConfiguration.groovyファイルが含まれます。そのコードはクロール・プロセスを制御します。クローラが作成され保存されると、/appフォルダが作成されます。

/fw-site-capture/crawler/<crawlerName>/archive

/archiveフォルダは、アーカイブ・キャプチャ用としてのみ使用されます。このフォルダにはyyyy/mm/ddサブフォルダの階層が含まれます。/ddサブフォルダには、すべてのアーカイブ・キャプチャがタイムスタンプ付きzipファイルとして格納されます。

/archiveフォルダは、クローラが最初にアーカイブ・モードで実行されたときに作成されます。zipファイル(/ddにある)はデータベースで参照されるため、サイト・キャプチャ・インタフェースでWebサイトとしてのダウンロードおよび表示が可能になります。

ノート: アーカイブ・キャプチャは、サイト・キャプチャ・インタフェースからアクセスできます。各zipファイルには、__inventory.dbという名前のURLログが含まれます。__inventory.dbを削除したり変更したりしないでください。それはサイト・キャプチャ・システムによって使用されます。

/fw-site-capture/crawler/<crawlerName>/www

最新の静的にキャプチャされたサイトのみが含まれます(同じクローラが静的モードで再実行されると、前のキャプチャが上書きされます)。サイトは、htmlcssおよび提供可能な他のファイルとして格納されます。

/wwwフォルダは、クローラが最初に静的モードで実行されたときに作成されます。

ノート: 静的キャプチャは、サイト・キャプチャ・ファイル・システムからアクセスできます。

/fw-site-capture/crawler/<crawlerName>/logs/yyyy/mm/dd

クロールされたURLに関する情報を記載したログ・ファイルが含まれます。ログ・ファイルは/ddサブフォルダに格納され、using-site-capture-application.html#GUID-023C4D76-7BFF-43F6-A0D3-0DA764DA9860__CHDIAIFIに示すように名前が付けられます。

  • audit.logファイルは、タイムスタンプ、クロール深度、HTTPステータス、ダウンロード時間などのデータとともにクロールされたURLをリストします。

  • links.txtファイルは、クロールされたURLをリストします。

  • report.txtファイルは、ダウンロードされたリソース数、合計サイズ、ダウンロード・サイズおよび時間、ネットワーク条件などのクロール統計全体をリストします。アーカイブ・キャプチャでは、このレポートを、クローラ・レポートとしてサイト・キャプチャ・インタフェースで使用できます(「ジョブの詳細」フォーム上で。「ジョブの詳細」フォームへのパスは、using-site-capture-application.html#GUID-259FA0E4-2015-40FB-BF68-1EAECF2FB4DB__CHDHCCEAに示されています)。

ノート: クローラが静的モードとアーカイブ・モードの両方でキャプチャした場合、/ddサブフォルダには静的キャプチャとアーカイブ・キャプチャのログが含まれます。

/logsフォルダはlockという名前の一時ファイルを格納するためにも使用されます。このファイルは、追加の静的キャプチャを開始するためにクローラがコールされないよう、静的キャプチャ・プロセスの開始時に作成されます。クロール・セッションが終了すると、lockファイルは削除されます。

図36-5 ログ・ファイルの場所

図36-5の説明が続きます
「図36-5 ログ・ファイルの場所」の説明

logs/yyyy/mm/の下のフォルダには、次のログが含まれます。

  • <yyyy-mm-dd-hh-mm-ss>-audit.log

  • <yyyy-mm-dd-hh-mm-ss>-links.txt

  • <yyyy-mm-dd-hh-mm-ss>-report.txt

36.7 アーカイブされたサイトの管理について

アーカイブされたサイトは、サイト・キャプチャ・インタフェースの様々なフォームから管理できます。次の図は、アーカイブ、ジョブ、サイト・プレビュー、クローラ・レポート、URLログなどの様々な情報への経路の一部を示しています。

図36-6 アーカイブ情報へのパス

図36-6の説明が続きます
「図36-6 アーカイブ情報へのパス」の説明
  • たとえば、サイトをプレビューするには、「クローラ」フォームでクローラ(crawlerName)をポイントして、ポップアップ・メニュー(「アーカイブ」フォームを開くメニュー)から「アーカイブ」を選択し、「アーカイブID」をポイントして、ポップアップ・メニューから「プレビュー」を選択します。

  • 破線は同じオプションへの複数のパスを示しています。たとえば、サイトをプレビューするには、クローラの「アーカイブ」パス、「ジョブ」パスまたは「アーカイブの開始」パスをたどることができます。アーカイブをダウンロードするには、「アーカイブ」パスまたは「ジョブ」パスをたどることができます。

  • クローラ・レポートおよびURLログはアスタリスク(*)でマークされています。

36.8 クローラおよびキャプチャされたデータを管理するためのノートとヒント

次の各トピックに、クローラおよびキャプチャされたデータを管理するためのノートとヒントをまとめています。

36.8.1 クローラを作成および編集する際のヒント

クローラを作成し、その構成コードを編集する場合は、次の情報を考慮してください。

  • クローラ名は大文字と小文字が区別されます。

  • すべてのクローラの構成ファイルには、CrawlerConfigurator.groovyという名前が付けられます。この名前は変更しないでください。

  • クローラは、指定のサイト上で1つ以上のシードURIで開始し、1つ以上のパスをクロールするように構成できます。追加のJavaメソッドを使用して、クロール深度などのパラメータを設定したり、post-crawlコマンドを起動したり、セッション・タイムアウトを指定したりできます。リンクを抽出し、URLをリライトして、クロール・セッションの終了時に電子メールを送信するためのロジックを定義するようにインタフェースを実装できます。『Oracle WebCenter Sitesでの開発』クローラ構成ファイルのコーディングに関する項を参照してください。

  • クローラが作成され保存されると、そのCrawlerConfigurator.groovyファイルはサイト・キャプチャ・ファイル・システムにアップロードされ、サイト・キャプチャ・インタフェースで編集可能になります。

  • クローラが静的サイト・キャプチャ・プロセスを実行している間は、2番目の静的キャプチャ・プロセスを使用して実行することはできません。

  • クローラがアーカイブ・キャプチャ・プロセスを実行している間は、2番目のアーカイブ・キャプチャ・プロセスを使用して実行することはできません。2番目のプロセスは「スケジュール済」としてマークされ、最初のプロセスが終了した後に開始されます。

36.8.2 クローラ削除のノート

クローラ(すべてのキャプチャされた情報を含む)を削除する必要がある場合は、ファイル・システムではなく、サイト・キャプチャ・インタフェースから実行してください。クローラをインタフェースから削除すると、リンクの破損を防ぐことができます。たとえば、クローラがアーカイブ・モードで実行された場合、インタフェースからそれを削除すると、アーカイブとログおよびこれらのアーカイブとログへのデータベース参照の2つの情報が削除されます。ファイル・システムからクローラを削除すると、すでに存在していないアーカイブやログに対するデータベース参照が保持されたままになるため、サイト・キャプチャ・インタフェースで破損したリンクが生じます。

36.8.3 クローラのスケジュールのノート

アーカイブ・クロールのみをスケジュールできます。

  • クローラのスケジュールを設定する場合、サイトのパブリッシュ・スケジュールを考慮して、2つが重複しないようにします。

  • 単一クローラに対して複数のスケジュールを作成できます。たとえば、クローラを定期的に起動するためのスケジュールを1つ作成し、特定の一意の時間にクローラをコールする別のスケジュールを作成できます。

  • 複数のスケジュールを作成する場合は、それらが重複しないようにしてください。

36.8.4 静的クロールの監視について

静的クローラ・セッションが進行中であるか完了済かを判断するには、<SC_INSTALL_DIR>/fw-site-capture/<crawlerName>/logsフォルダのクローラlockファイルを検索します。lockファイルは一時ファイルです。追加の静的キャプチャを開始するためにクローラがコールされないよう、静的キャプチャ・プロセスの開始時に作成されます。クローラ・セッションが終了すると、lockファイルは削除されます。

36.8.5 クロールの停止について

クローラを実行する前に、クロールされるリンク数およびクロール深度を考慮してください。その両方によってクローラのセッション期間が決まります。

  • アーカイブ・クロールを終了する必要がある場合、サイト・キャプチャ・インタフェースを使用します。(「ジョブの詳細」フォームで「アーカイブの停止」を選択します。)

  • 静的クロールを終了する必要がある場合は、アプリケーション・サーバーを停止する必要があります。

36.8.6 アーカイブのダウンロードについて

サイト・キャプチャ・インタフェースからは(250MBを超える)大きなアーカイブ・ファイルをダウンロードしないでください。かわりに、getPostExecutionCommandを使用して、サイト・キャプチャ・ファイル・システムから必要な場所にファイルをコピーします。

「ジョブの詳細」フォームで、クローラ・レポートからアーカイブのサイズを取得できます。「ジョブの詳細」フォームへのパスは、using-site-capture-application.html#GUID-259FA0E4-2015-40FB-BF68-1EAECF2FB4DB__CHDHCCEAに示されています。『Oracle WebCenter Sitesでの開発』getPostExecutionCommandに関する項を参照してください。

36.8.7 サイトのプレビューについてのノート

アーカイブされたサイトに外部ドメインへのリンクが含まれる場合、特に(groovyファイルで)クロール深度とクロールするリンク数が大きな値に設定される場合には、そのプレビューにこれらのリンクが含まれることがあります。外部ドメインは参照できますが、アーカイブされません。

36.8.8 パブリッシュの宛先定義の構成のヒント

  • パブリッシュ・トリガー・サイト・キャプチャを実行する場合は、パブリッシュの宛先定義の単一の文でクローラ・パラメータを設定できます。

    CRAWLERCONFIG=crawler1;crawler2&CRAWLERMODE=dynamic

  • パブリッシュの宛先定義で複数のクローラを指定できますが、設定できるキャプチャ・モードは1つのみです。すべてのクローラがそのモードで実行されます。一部のクローラを異なるモードで実行するには、別のパブリッシュの宛先定義を構成します。

36.8.9 ログ・ファイルへのアクセスについて

  • 静的にキャプチャされたサイトの場合、ログ・ファイルはサイト・キャプチャ・ファイル・システムでのみ使用可能です。:

    • 静的にクロールされたURLをリストしているinventory.dbファイルは、/fw-site-capture/crawler/<crawlerName>フォルダにあります。

    ノート:

    inventory.dbファイルは、サイト・キャプチャ・システムによって使用されます。削除または変更しないでください。

    • crawler.logファイルは、<SC_INSTALL_DIR>/fw-site-capture/logs/フォルダにあります。(crawler.logファイルで使用されている「VirtualHost」という用語は「クローラ」を意味します。)

  • 静的にキャプチャされアーカイブされたサイトの場合、共通のログ・ファイル・セットがサイト・キャプチャ・ファイル・システムに存在します。

    • audit.log。クロールされたURL、タイムスタンプ、クロール深度、HTTPステータスおよびダウンロード時間をリストします。

    • links.txt。クロールされたURLをリストします。

    • report.txt。クローラ・レポートです。

    前出の名前のファイルは次のフォルダにあります。

    /fw-site-capture/crawler/<crawlerName>/logs/yyyy/mm/dd

    ノート:

    アーカイブされたサイトの場合、report.txtはサイト・キャプチャ・インタフェースの「ジョブの詳細」フォームでも入手可能で、そこでは「クローラのレポート」と呼ばれています。(「ジョブの詳細」フォームへのパスは、using-site-capture-application.html#GUID-259FA0E4-2015-40FB-BF68-1EAECF2FB4DB__CHDHCCEAに示されています。)

  • アーカイブ・プロセスでは、すべてのクロールのURLログも生成されます。ログは次の2つの場所で入手可能です。

    • サイト・キャプチャ・ファイル・システム内。__inventory.dbと呼ばれます。このファイルは次のフォルダのzipファイル内にあります。

      /fw-site-capture/crawler/<crawlerName>/archive/yyyy/mm/dd

      ノート:

      __inventory.dbファイルは、サイト・キャプチャ・システムによって使用されます。削除または変更しないでください。

    • サイト・キャプチャ・インタフェースの「アーカイブ済URL」フォーム内(パスはusing-site-capture-application.html#GUID-259FA0E4-2015-40FB-BF68-1EAECF2FB4DB__CHDHCCEAに表示されています)。

36.9 一般的なディレクトリ構造

サイト・キャプチャ・ファイル・システムは、サイト・キャプチャがカスタム・クローラとそれらのキャプチャされたコンテンツを編成するフレームワークも提供します。ファイル・システムは、インストール関連ファイル、プロパティ・ファイル、サンプル・クローラ、およびサイト・キャプチャ・プロセスを制御するためにFirstSiteIIクローラによって使用されるサンプル・コードを格納するために、サイト・キャプチャ・インストール・プロセスで作成されます。

次の図は、よく使用されるサイト・キャプチャ情報を管理者が見つける際に役立つように、サイト・キャプチャで最も頻繁にアクセスされるフォルダを示しています。<crawlerName>以外のフォルダはすべて、サイト・キャプチャのインストール・プロセスで作成されます。<crawlerName>フォルダの詳細は、次に示す表と「カスタム・フォルダ」を参照してください。

図36-7 サイト・キャプチャ・ファイル・システム

図36-7の説明が続きます
「図36-7 サイト・キャプチャ・ファイル・システム」の説明

表36-3 サイト・キャプチャの頻繁にアクセスされるフォルダ

フォルダ 説明

/fw-site-capture

親フォルダです。

/fw-site-capture/crawler

すべてのサイト・キャプチャ・クローラが含まれ、それぞれ専用のクローラ固有フォルダに格納されます。

/fw/site-capture/crawler/_sample

FirstSiteIIサンプル・クローラのソース・コードが含まれます。

ノート: アンダースコア(「_」)で始まるフォルダ名はクローラとして扱われません。それらはサイト・キャプチャ・インタフェースには表示されません。

/fw-site-capture/crawler/Sample

「Sample」という名前のクローラを表しています。このフォルダは、「Sample」クローラがサイト・キャプチャのインストール・プロセスでインストールされた場合にのみ作成されます。

Sampleフォルダには/appフォルダが含まれ、そこに「Sample」クローラ固有のCrawlerConfiguration.groovyファイルが格納されます。このファイルには動的サイトをキャプチャするための基本構成コードが含まれます。コードは、BaseConfiguratorクラスの必須メソッド(getStartUriなど)の使用方法を例示しています。

Sampleクローラが静的モードまたはアーカイブ・モードでコールされると、/Sampleフォルダ内にサブフォルダが作成されます。

/fw-site-capture/logs

サイト・キャプチャのシステム・ログであるcrawler.logファイルが含まれます。

/fw-site-capture/publish-listener

パブリッシュ・トリガー・クロール用のサイト・キャプチャをインストールするために必要な次のファイルが含まれます。

  • fw-crawler-publish-listener-1.1-elements.zip

  • fw-crawler-publish-listener-1.1.jar

/fw-site-capture/Sql-Scripts

サイト・キャプチャがデータを格納するために必要なデータベース表を作成する次のスクリプトが含まれます。

  • crawler_db2_db.sql

  • crawler_oracle_db.sql

  • crawler_sql_server_db.sql

/fw-site-capture/webapps

ROOT/WEB-INF/フォルダが含まれます。

/fw-site-capture/webapps/ROOT/WEB-INF

crawler.logファイルへのパスをカスタマイズするために使用されるlog4j.xmlファイルが含まれます。

/fw-site-capture/webapps/ROOT/WEB-INF/classes

次のファイルが含まれます。

  • sitecapture.propertiesファイル。サイト・キャプチャが実行されているWebCenter Sitesアプリケーションに関する情報を指定できます。情報には、WebCenter Sitesホスト・コンピュータ名(またはIPアドレス)およびポート番号が含まれます。

  • root-context.xmlファイル。サイト・キャプチャ・データベースを構成できます。

36.10 カスタム・フォルダ

カスタム・フォルダは、ユーザーがサイト・キャプチャ・インタフェースで作成する各クローラについて作成されます。カスタム・フォルダの<crawlerName>は、次の図に概要を示すように、クローラの構成ファイル、キャプチャおよびログを編成するために使用されます。

図36-8 サイト・キャプチャのカスタム・フォルダ: <crawlerName>

図36-8の説明が続きます
「図36-8 サイト・キャプチャのカスタム・フォルダ: <crawlerName>」の説明