47 サイト・キャプチャ・アプリケーションの概要

この章では、Oracle WebCenter Sites: Site Captureアプリケーションの概要とそのインタフェースの移動方法について説明します。

この章は、次の項で構成されています。

第47.1項「サイト・キャプチャ・モデル」
第47.2項「サイト・キャプチャ・アプリケーションへのログイン」
第47.3項「デフォルト・クローラの使用」
第47.4項「サイト・キャプチャの操作の設定」
第47.5項「パブリッシュ・トリガー・サイト・キャプチャの有効化」

47.1 サイト・キャプチャ・モデル

クロールは、サイト・キャプチャ・インタフェースから手動で開始することも、WebCenter Sitesのリアルタイム・パブリッシュ・セッションの完了に従ってトリガーすることもできます。いずれの場合も、クローラは、その実行方法として選択されたモード(静的またはアーカイブ)に応じてWebサイトをディスクにダウンロードします。

この項は、次のトピックで構成されています。

第47.1.1項「キャプチャ・モード」
第47.1.2項「クローラ」

47.1.1 キャプチャ・モード

サイトを静的またはアーカイブのいずれのモードでダウンロードした場合も、ディスクには同じファイル(html、cssなど)が格納されますが、いくつかの相違点があります。たとえば、静的にダウンロードしたサイトはファイル・システムでのみ使用可能ですが、アーカイブしたサイトはファイル・システムとサイト・キャプチャ・インタフェースの両方で使用可能になります。つまりキャプチャのモードによって、クローラがサイトをダウンロードする方法およびその結果の管理方法が決まります。

静的モード	アーカイブ・モード
迅速なデプロイメントと高可用性のシナリオをサポートします。	コンプライアンスなどを目的として、定期的にWebサイトのコピーを維持するために使用されます。
クロールされたサイトが提供可能なファイルとして格納されます。最新のキャプチャのみが保持されます(以前に格納されたファイルは上書きされます)。	クロールされたすべてのサイトが保持され、タイムスタンプ付きのフォルダにzipファイル(アーカイブ)として格納されます。このzipファイルへのポインタがサイト・キャプチャ・データベースで作成されます。
静的クロール・セッションは、アプリケーション・インタフェースから手動で開始することも、パブリッシュ・セッションの終了時に開始させることもできます。ただし、ダウンロードされたサイトは、サイト・キャプチャ・ファイル・システムからのみアクセスおよび管理できます。	アーカイブ・クロール・セッションは、静的セッション同様、サイト・キャプチャ・インタフェースから手動で開始することも、パブリッシュ・セッションの終了時に開始させることもできます。ただし、zipファイルはサイト・キャプチャ・データベース内のポインタによって参照されるため、サイト・キャプチャ・インタフェースで管理できます。ここで、ファイルのダウンロード、アーカイブされたサイトのプレビュー、およびキャプチャ・スケジュールの設定を実行できます。

いずれのキャプチャ・モードでも、クロール・セッションの終了時にログが生成され、クロールされたURL、HTTPステータス、およびネットワーク条件などの情報が提供されます。静的キャプチャでは、ログをファイル・システムから取得する必要があります。アーカイブ・キャプチャでは、ログをサイト・キャプチャ・インタフェースからダウンロードできます。いずれのキャプチャ・モードにも、レポート生成時にレポートを電子メールで送信するようクローラを構成するオプションが用意されています。

47.1.2 クローラ

どのタイプのサイト・キャプチャ・プロセスを開始する場合でも、サイト・キャプチャ・インタフェースでクローラを定義する必要があります。すぐに始められるよう、サイト・キャプチャにはSampleおよびFirstSiteIIという2つのサンプル・クローラが用意されています。ここでは、サイト・キャプチャのインストール・プロセスでこれらのクローラがインストールされていることを前提としています。このガイドでは主にSampleクローラを使用します。

独自のクローラを作成するには、クローラに名前を付け(通常はターゲット・サイトにちなんだ名前)、クローラのサイト・キャプチャ・プロセスを制御するCrawlerConfigurator.groovyという名前のテキスト・ファイルをアップロードします。groovyファイルはBaseConfiguratorクラスのメソッドを使用してコード化し、少なくともクローラの開始URIとリンク抽出ロジックを指定する必要があります。groovyファイルはクローラのサイト・キャプチャ・プロセスを制御しますが、クローラのキャプチャ・モードはファイル外部で設定されます。

パブリッシュ・トリガー・サイト・キャプチャ用のクローラを使用するには追加の手順が必要です。『Oracle Fusion Middleware WebCenter Sitesインストレーション・ガイド』で説明されているように、クローラに名前を付け、サイト・キャプチャと統合されているWebCenter Sitesソース・システム上のパブリッシュの宛先定義でキャプチャ・モードを指定します。(すべてのパブリッシュの宛先定義で1つ以上のクローラを指定できますが、単一のキャプチャ・モードしか指定できない点に留意してください。)クローラの起動の成功に関する情報は、サイト・キャプチャ・ファイル・システムと、WebCenter Sitesソースおよびターゲット・システムのログ・ファイル(デフォルトではfuturetense.txt)に格納されます。

この章の演習では、手動およびパブリッシュ・トリガーの両方のタイプのクローラの起動シナリオについて説明します。

47.2 サイト・キャプチャ・アプリケーションへのログイン

サイト・キャプチャ・アプリケーションはWebCenter Sites上で実行されます。サイト・キャプチャ・アプリケーションには、WebCenter Siteにログインしてアクセスします。

サイト・キャプチャ・アプリケーションにログインするには:

次のURLでWebCenter Sitesにアクセスします。
```
http://<server>:<port>/<context>/login
```
ここで<server>はWebCenter Sitesを実行しているサーバーのホスト名またはIPアドレス、<port>はWebCenter Sitesアプリケーションの番号、<context>はサーバー上にデプロイされているWebCenter Sites Webアプリケーションの名前です。
一般管理者としてログインします。ログイン資格証明では大文字と小文字が区別されます。このガイドでは、次のデフォルトの資格証明を使用します。

ユーザー名: fwadmin

パスワード: xceladmin

図47-1 ログイン・ダイアログ

「図47-1 ログイン・ダイアログ」の説明
「ログイン」をクリックします。
初めてログインする場合は、次のダイアログが開きます。

図47-2 ログイン・ダイアログ

「図47-2 ログイン・ダイアログ」の説明

AdminSite (デフォルトでサイト・キャプチャ・アプリケーションが割り当てられている)を選択し、サイト・キャプチャ・アイコンを選択します。

図47-3 ログイン・ダイアログ

「図47-3 ログイン・ダイアログ」の説明
表示される最初のページは「クローラ」という名前のページです。デフォルトのクローラがサイト・キャプチャとともにインストールされている場合は、SampleおよびFirstSiteIIという名前でそれらがリストされます。

図47-4 「クローラ」ページ

「図47-4 「クローラ」ページ」の説明
次の手順は、要件に応じて次のいずれかになります。
- デフォルトのクローラについて詳細を習得するには、第47.3項「デフォルト・クローラの使用」に進みます。
- 独自のサイト・キャプチャ操作を設定し、その過程でサイト・キャプチャ・インタフェースの移動方法について習得するには、第47.4項「サイト・キャプチャの操作の設定」に進みます。
- クローラ構成コードの詳細は、『Oracle Fusion Middleware WebCenter Sites開発者ガイド』を参照してください。

47.3 デフォルト・クローラの使用

このガイドでは、デフォルトのクローラSampleおよびFirstSiteIIがサイト・キャプチャ・アプリケーションにインストールされており、(第47.2項「サイト・キャプチャ・アプリケーションへのログイン」の手順1に示すように)そのインタフェースに表示されていることを前提としています。独自のクローラを定義する場合は、第47.4項「サイト・キャプチャの操作の設定」を参照してください。

この項は、次のトピックで構成されています。

第47.3.1項「Sampleクローラ」
第47.3.2項「FirstSiteIIクローラ」
第47.3.3項「デフォルト・クローラの実行」

47.3.1 Sampleクローラ

Sampleクローラはすべてのサイトのダウンロードに使用できます。Sampleクローラの目的は、サイトを迅速にダウンロードできるようにし、独自のクローラを作成するときに再利用する必須の構成コードを提供することです。Sampleクローラは、必須メソッドと、クロールへのリンク数を制限することでクロールの期間を制限するオプション・メソッドによる最小構成になっています。

必須メソッドは、getStartURiおよび(クロールしたページからリンクを抽出するロジックを定義する)createLinkExtractorです。
オプションのメソッドは、クロールするリンク数を指定するgetMaxLinksです。

これらのメソッド、クローラのカスタマイズ方法およびインタフェースの詳細は、『Oracle Fusion Middleware WebCenter Sites開発者ガイド』を参照してください。

47.3.2 FirstSiteIIクローラ

FirstSiteIIクローラは、WebCenter Sitesの動的FirstSiteIIサンプルWebサイトを静的サイトとしてダウンロードするために使用されます。クローラの目的は、LinkExtractorおよびResourceRewriterインタフェースを使用して、カスタム・リンク・エクストラクタおよびリソース・リライタの作成方法を示す高度な構成コードを提供することです。インタフェースの詳細は、『Oracle Fusion Middleware WebCenter Sites開発者ガイド』を参照してください。

47.3.3 デフォルト・クローラの実行

この項では、SampleクローラまたはFirstSiteIIクローラのいずれかを実行します。FirstSiteIIクローラを使用するには、WebCenter SitesのFirstSiteIIサンプル・サイトがパブリッシュされている必要があります。

デフォルト・クローラを実行するには:

「クローラ」ページで、デフォルト・クローラのSampleまたはFirstSiteIIをポイントし、「構成の編集」を選択します。

注意:

デフォルト・クローラがリストされていない場合は、第47.4項「サイト・キャプチャの操作の設定」に進み、独自のクローラを定義します。

クローラの構成ファイルを編集して、クローラの開始URIを設定します。手順については、第47.4.2項「クローラの定義」の1に進み、クローラを実行してキャプチャされたデータを管理するための残りの手順を実行します。

47.4 サイト・キャプチャの操作の設定

この項では、独自のクローラを作成および実行するプロセスを通じて、サイト・キャプチャ・インタフェースおよびファイル・システムがどのように編成されるかを理解します。

この項は、次のトピックで構成されています。

第47.4.1項「初期クローラ構成ファイルの作成」
第47.4.2項「クローラの定義」
第47.4.3項「クローラ構成ファイルの編集」
第47.4.4項「クロールの開始」

47.4.1 初期クローラ構成ファイルの作成

クローラを作成する前に、クローラのサイト・キャプチャ・プロセスを制御する構成ファイルが必要です。有用なファイルを作成する最速の方法は、サンプル・コードをコピーして、必要に応じてリコードすることです。

初期クローラ構成ファイルを作成するには:

Sampleクローラの構成ファイルを、次のいずれかの方法でローカル・マシンにコピーします。

サイト・キャプチャ・アプリケーションにログインします。「クローラ」ページにSampleクローラがリストされている場合は、次を実行します(それ以外の場合は、次の項目に進みます)。
1. Sampleをポイントし、「構成の編集」を選択します。
2. 「構成ファイル」フィールドに移動し、そのコードをローカル・マシン上のテキスト・ファイルにコピーして、ファイルをCrawlerConfigurator.groovyとして保存します。

サイト・キャプチャ・ホスト・マシンに移動し、CrawlerConfigurator.groovyファイルを<SC_INSTALL_DIR>/fw-site-capture/crawler/Sample/app/からローカル・マシンにコピーします。

注意:

各クローラは自身のCrawlerConfigurator.groovyファイルによって制御されます。このファイルはカスタム・フォルダ構造に格納されます。次に例を示します。

クローラを定義すると、サイト・キャプチャによってクローラの名前(<crawlerName>、このシナリオではSample)の付いたフォルダが作成され、そのフォルダが<SC_INSTALL_DIR>/fw-site-capture/crawler/というパスに配置されます。サイト・キャプチャは、<crawlerName>フォルダ内に/appサブフォルダを作成し、ローカル・マシンからこのフォルダにgroovyファイルをアップロードします。

クローラが指定のモードで初めて使用される場合、サイト・キャプチャはそのモードでキャプチャしたサイトを格納するための追加のサブフォルダを(/<crawlerName>/内に)作成します。サイト・キャプチャ・ファイル・システムの詳細は、第48.1項「静的にキャプチャされたサイトの管理」を参照してください。

サンプルのgroovyファイルはサンプルの開始URIを指定します。これは次のステップで作成するクローラ用にリセットします。(開始URIのほか、クローラ深度などのパラメータを設定し、post-crawlコマンドを起動して、ターゲット・サイトに固有のロジックを定義するためのインタフェースを実装します。)

この時点では、ダウンロードされたgroovyファイルをただちにカスタマイズするか、最初にクローラを作成してからそのgroovyファイル(サイト・キャプチャ・インタフェースで編集可能)をカスタマイズするかのオプションがあります。
- この演習を行うには、次の手順第47.4.2項「クローラの定義」に進みます。
- クローラの構成方法およびインタフェースの詳細は、『Oracle Fusion Middleware WebCenter Sites開発者ガイド』を参照してください。

47.4.2 クローラの定義

「クローラ」ページに移動して、「クローラの追加」をクリックします。

図47-5 「クローラ」ページ

「図47-5 「クローラ」ページ」の説明

「クローラの追加」ページで次の手順を実行します。

図47-6 「クローラの追加」ページ

「図47-6 「クローラの追加」ページ」の説明

クロール対象サイトにちなんでクローラに名前を付けます。

注意:

いったん保存すると、クローラの名前は変更できません。
このガイドでは、すべてのカスタム・クローラがターゲット・サイトにちなんだ名前を付けられ、その他のサイトのキャプチャには使用されないことを前提としています。

説明を入力します(オプション)。たとえば、「このクローラはパブリッシュ・トリガー・サイト・キャプチャ用に予約されています」または「このクローラはスケジュール済キャプチャ用に予約されています」のように入力します。
「構成ファイル」フィールドで、第47.4.1項「初期クローラ構成ファイルの作成」で作成したgroovyファイルを参照します。
新しいクローラを保存します。

CrawlerConfigurator.groovyファイルは、サイト・キャプチャ・ホスト・マシンの<SC_INSTALL_DIR>/fw-site-capture/crawler/<crawlerName>/appフォルダにアップロードされます。このファイルは、サイト・キャプチャ・インタフェースで直接編集できます。

第47.4.3項「クローラ構成ファイルの編集」に進みます。

47.4.3 クローラ構成ファイルの編集

サイト・キャプチャ・インタフェースから、クローラ構成ファイル全体をリコードできます。この例では、単純にクローラの開始URIを設定します。

クローラ構成ファイルを編集するには:

「クローラ」ページで、定義したクローラをポイントし、「構成の編集」を選択します。

図47-7 「構成」ページ

「図47-7 「構成」ページ」の説明

クローラの開始URIを次のメソッドで設定します。

public String[] getStartUri() {
  return ["http://www.mycompany.com/home"]

注意:

次の点に注意してください。

複数の開始URIを設定できます。それらは同じサイトに属している必要があります。次の例に示すように、カンマ区切りの配列を入力します。

public String[] getStartUri() {  return ["http://www.fatwire.com/product","http://www.fatwire.com/support"];  }

構成ファイルには、クロール対象のリンクを抽出するためのロジックをコールするcreateLinkExtractorメソッドが含まれています。リンクは、クロール・セッション中にダウンロードされるマークアップから抽出されます。このメソッドおよび抽出ロジックの詳細は、『Oracle Fusion Middleware WebCenter Sites開発者ガイド』を参照してください。

構成ファイルには、クロールするリンク数を指定するgetMaxLinksメソッドも含まれています。デフォルト値は、迅速な実行を確保するため150に設定されています。なんらかの理由で静的キャプチャを停止する必要がある場合は、アプリケーション・サーバーを停止する必要があります。アーカイブ・キャプチャは、サイト・キャプチャ・インタフェースから停止できます。

クローラの構成方法およびインタフェースの詳細は、『Oracle Fusion Middleware WebCenter Sites開発者ガイド』を参照してください。

「保存」をクリックします。
第47.4.4項「クロールの開始」に進みます。

47.4.4 クロールの開始

クロールは次のいくつかの方法で開始できます。

第47.4.4.1項「静的モードでのクローラの手動実行」
第47.4.4.2項「アクティブ・モードでのクローラの手動実行」
第47.4.4.3項「クローラのアーカイブ・キャプチャのスケジュール」
第47.4.4.4項「リアルタイム・モードでのサイトのパブリッシュ」

47.4.4.1 静的モードでのクローラの手動実行

「クローラ」ページで、作成したクローラをポイントし、ドロップダウン・メニューから「静的キャプチャの開始」を選択します。

図47-8 ドロップダウン・メニューが開いた状態の「クローラ」ページ

「図47-8 ドロップダウン・メニューが開いた状態の「クローラ」ページ」の説明

キャプチャが開始されると、「クローラ」ページに次のメッセージが表示されます。

「成功しました。クローラ<crawlerName>によって静的キャプチャが開始されました。」

図47-9 ステータス・メッセージが表示された「クローラ」ページ

「図47-9 ステータス・メッセージが表示された「クローラ」ページ」の説明
この時点では、サイト・キャプチャ・インタフェースにはクローラまたはそのプロセスに関する他の情報は表示されず、ダウンロードされたサイトを使用することもできません。かわりに、サイト・キャプチャ・ファイル・システムを使用して、ダウンロードされたファイルや様々なログにアクセスします。
- 静的キャプチャ・プロセスを監視するには、次のファイルを検索します。
  - <SC_INSTALL_DIR>/fw-site-capture/<crawlerName>/logsのlockファイル。lockファイルは一時ファイルです。このファイルは、追加の静的キャプチャを開始するためにクローラが起動されないよう、静的キャプチャ・プロセスの開始時に作成されます。クロール・セッションが終了すると、lockファイルは削除されます。
  - <SC_INSTALL_DIR>/fw-site-capture/logs/のcrawler.logファイル。(このファイルで使用されている「VirtualHost」という用語は「クローラ」を意味します。)
  - <SC_INSTALL_DIR>/fw-site-capture/<crawlerName>のinventory.dbファイル。このファイルはクロールされたURLをリストします。inventory.dbファイルはサイト・キャプチャ・システムで使用されます。削除したり変更したりしないでください。
  - audit.log、links.txtファイルおよびreport.txtファイルは、/fw-site-capture/crawler/<crawlerName>/logs/yyyy/mm/ddにあります。
- ダウンロードされたファイルにアクセスするには、<SC_INSTALL_DIR>/fw-site-capture/crawler/<crawlerName>/wwwに移動します。
サイト・キャプチャ・ファイル・システムの詳細は、第48.1項「静的にキャプチャされたサイトの管理」を参照してください。

47.4.4.2 アーカイブ・モードでのクローラの手動実行

クローラがあるモードで使用されていた場合、それを別のモードで再実行できます。

クローラをアーカイブ・モードで実行するには:

「クローラ」ページで、作成したクローラをポイントし、「アーカイブの開始」を選択します。

ダイアログ・ボックスが開きます。

ダイアログで、クローラの今後のジョブに関するコメントを追加します。

図47-10 「コメント」ダイアログ

「図47-10 「コメント」ダイアログ」の説明

注意:

クローラの実行が開始されると、コメントは追加できません。

前出のダイアログでコメントを追加するように選択した場合、それは次の場所に表示されます。

「ジョブの詳細」ページの「ジョブのコメント」フィールド(次の手順に示す)
「ジョブ」ページの「ジョブのコメント」フィールド
「アーカイブ」ページの「コメント」フィールド

「アーカイブの開始」をクリックします。

「ジョブの詳細」ページが表示されます。ここでは、図47-11に示すように、アーカイブ・プロセスをいくつかの方法で管理できます。この演習を実行するには、「終了」が表示されるまで(「ジョブの状態」の横にある)「リフレッシュ」をクリックし、次の手順に進みます。

図47-11 「ジョブの詳細」ページ

「図47-11 「ジョブの詳細」ページ」の説明

アーカイブ・クロールが終了すると、結果がサイト・キャプチャ・インタフェースで使用可能になります。次に例を示します。

クローラ・レポートが「ジョブの詳細」ページに表示されます。レポートには、ダウンロードされたリソース数、その合計サイズとダウンロード時間、ネットワーク条件、HTTPステータス・コード、および必要に応じて追加のメモが記載されます。

図47-12 クローラ・レポートが表示された「ジョブの詳細」ページ

「図47-12 クローラ・レポートが表示された「ジョブの詳細」ページ」の説明

「ジョブの詳細」ページの「プレビュー」をクリックすると、アーカイブされたサイトがレンダリングされます(図47-13を参照)。サイトの横には、アーカイブ管理オプションを備えたアーカイブIDテーブルがあり、これはアーカイブをポイントすると表示されます。

図47-13 アーカイブされたサイト

「図47-13 アーカイブされたサイト」の説明

注意:

アーカイブされたサイトに外部ドメインへのリンクが含まれる場合、特に(CrawlerConfigurator.groovyファイルで)クロール深度とクロールするリンク数が大きな値に設定される場合には、そのプレビューにこれらのリンクが含まれることがあります。外部ドメインは参照できますが、アーカイブされません。

様々なデータへの経路の要約は、第48.2項「アーカイブされたサイトの管理」を参照してください。

47.4.4.3 クローラのアーカイブ・キャプチャのスケジュール

アーカイブ・キャプチャのみをスケジュールできます。特定のクローラに対して複数のスケジュールを作成できます。たとえば、定期的なキャプチャ用と、特定かつ一意の時間のキャプチャ用に別々のスケジュールを作成できます。

注意:

複数のスケジュールを設定する場合は、それらが重複しないようにしてください。

クローラのアーカイブ・キャプチャをスケジュールするには:

「クローラ」ページに移動して、作成したクローラをポイントし、「アーカイブのスケジュール」を選択します。
「スケジュールの追加」をクリックし、すべてのカレンダーで「曜日」、「日付」、「月」、「時間」および「分」を選択します。

図47-14 「スケジュールの追加」ページ

「図47-14 「スケジュールの追加」ページ」の説明
「保存」をクリックし、必要に応じて別のスケジュールを追加します。

47.4.4.4 リアルタイム・モードでのサイトのパブリッシュ

WebCenter Sitesパブリッシュ・システムを構成してサイト・キャプチャ・アプリケーションと通信する場合は、新たなパブリッシュ済サイトをキャプチャするために1つ以上のクローラを起動するようにリアルタイム・パブリッシュ・プロセスを設定できます。手順については、第47.5項「パブリッシュ・トリガー・サイト・キャプチャの有効化」を参照してください。

47.4.5 キャプチャ・データの管理

静的キャプチャおよびアーカイブ・キャプチャに関連した様々なデータにアクセスする方法については、第48章「ダウンロードされたサイトの管理」を参照してください。第48.3項「要約」には、クローラおよびキャプチャ・データを管理する際の注意事項とヒントをまとめています。次のトピックが含まれています。

47.5 パブリッシュ・トリガー・サイト・キャプチャの有効化

パブリッシュ・トリガー・サイト・キャプチャを有効にするための主な手順は次のとおりです。

第47.5.1項「サイト・キャプチャ・アプリケーションとOracle WebCenter Sitesの統合」
第47.5.2項「サイト・キャプチャ用のリアルタイム・パブリッシュの宛先定義の構成」
第47.5.3項「クローラの一致」
第47.5.4項「次の手順」

管理ユーザーは、必要な数のサイト・キャプチャ用のパブリッシュの宛先定義を構成し、必要な数のクローラを起動できます。

47.5.1 サイト・キャプチャ・アプリケーションとOracle WebCenter Sitesの統合

サイト・キャプチャ・アプリケーションが、パブリッシュ・プロセスで使用されるWebCenter Sitesソースおよびターゲット・システムと最初に統合される場合のみ、リアルタイム・パブリッシュ・セッションの終わりにサイト・キャプチャを有効にできます。サイト・キャプチャが統合されていない場合は、統合手順について『Oracle Fusion Middleware WebCenter Sitesインストレーション・ガイド』を参照してから、次の手順に進みます。

47.5.2 サイト・キャプチャ用のリアルタイム・パブリッシュの宛先定義の構成

パブリッシュの宛先定義を構成するときに、パブリッシュ・セッションの終わりに起動されるクローラを指定します。キャプチャ・モードも指定します。

パブリッシュの宛先定義を構成するには:

サイト・キャプチャ・アプリケーションと統合されるWebCenter Sitesソース・システムに移動します(『Oracle Fusion Middleware WebCenter Sitesインストレーション・ガイド』を参照)。

サイト・キャプチャと統合されるWebCenter Sitesターゲット・システムをポイントするリアルタイム・パブリッシュの宛先定義を作成します。リアルタイム・パブリッシュの宛先の作成方法の詳細は、第20章「リアルタイム・パブリッシュ・プロセスの構成」を参照してください。

パブリッシュの宛先定義の「他の引数」セクションで、パブリッシュ・セッションの終わりに起動するクローラを指定し、クローラの起動を制御するために次のパラメータを使用してキャプチャ・モードを設定します。

CRAWLERCONFIG: 各クローラの名前を指定します。複数のクローラを使用する場合は、名前をセミコロン(;)で区切ります。

例:

単一クローラの場合: CRAWLERCONFIG=crawler1

複数クローラの場合: CRAWLERCONFIG=crawler1;crawler2;crawler3

注意:

ここで指定するクローラは、サイト・キャプチャ・インタフェースでも構成され、さらに同じ名前である必要があります。クローラ名は大文字と小文字が区別されます。

CRAWLERMODE: アーカイブ・キャプチャを実行するには、このパラメータをdynamicに設定します。デフォルトでは、静的キャプチャが有効になります。

例: CRAWLERMODE=dynamic

注意:

CRAWLERMODEモードが省略されるかdynamic以外の値に設定された場合、パブリッシュ・セッションが終了すると、静的キャプチャが開始されます。
両方のクローラ・パラメータは次のように単一の文で設定できます。CRAWLERCONFIG=crawler1;crawler2&CRAWLERMODE=dynamic
複数のクローラを指定できますが、設定できるモードは1つのみです。すべてのクローラがそのモードで実行されます。一部のクローラを異なるモードで実行するには、別のパブリッシュの宛先定義を構成します。

次の手順に進みます。

47.5.3 クローラの一致

パブリッシュの宛先定義で指定したクローラは、サイト・キャプチャ・インタフェースに存在している必要があります。次の手順を実行します。

宛先定義(第47.5.2項「サイト・キャプチャ用のリアルタイム・パブリッシュの宛先定義の構成」の手順b)とサイト・キャプチャ・インタフェースのクローラ名が同じであることを確認します。名前は大文字と小文字が区別されます。
各クローラの構成ファイルでターゲット・サイトの有効な開始URIが設定されていることを確認します。クローラの構成ファイルへの移動の詳細は、第47.4.3項「クローラ構成ファイルの編集」を参照してください。構成コードの記述方法の詳細は、『Oracle Fusion Middleware WebCenter Sites開発者ガイド』を参照してください。

47.5.4 次の手順

パブリッシュ・トリガー・サイト・キャプチャが有効になると、いつでもターゲット・サイトをパブリッシュできます。パブリッシュが終了すると、サイト・キャプチャが開始されます。パブリッシュの宛先定義でCRAWLERMODEパラメータをどのように設定したかに応じて(第47.5.2項「サイト・キャプチャ用のリアルタイム・パブリッシュの宛先定義の構成」の手順b)、静的モードまたはアーカイブ・モードのいずれかで、起動されたクローラがページをキャプチャします。

サイト・キャプチャ・プロセスを監視するには、次の手順を実行します

静的キャプチャの場合、サイト・キャプチャ・インタフェースにはクロールに関する情報が表示されず、キャプチャされたサイトも使用可能になりません。

クローラが起動したかどうかを判断するには、ソースまたはターゲットのWebCenter Sitesシステムでfuturetense.txtファイルを開きます。

注意:

WebCenter Sitesのソースおよびターゲット・システム上のfuturetense.txtファイルには、静的およびアーカイブのいずれかのタイプのクロールに関するクローラ起動ステータスが含まれています。

キャプチャ・プロセスを監視するには、サイト・キャプチャ・ファイル・システムに移動し、第47.4.4.1項「静的モードでのクローラの手動実行」の手順2でリストされたファイルを確認します。

動的キャプチャの場合、サイト・キャプチャ・インタフェースからクロールのステータスを表示できます。
1. 「クローラ」ページに移動し、クローラをポイントして、ポップアップ・メニューから「ジョブ」を選択します。
2. 「ジョブの詳細」ページで、「終了」が表示されるまで「ジョブの状態」の横にある「リフレッシュ」をクリックします。(「ジョブの状態」で可能な値は、「スケジュール済」、「実行中」、「終了」、「停止」または「失敗」です。)「ジョブの詳細」ページの詳細は、第47.4.4.2項「アクティブ・モードでのクローラの手動実行」の手順3および4を参照してください。

キャプチャされたデータを管理します。

クロール・セッションが終了したら、キャプチャされたサイトと関連データを次のように管理できます。
- 静的にキャプチャされたサイトの場合は、サイト・キャプチャ・ファイル・システムに移動します。詳細は、第48.1項「静的にキャプチャされたサイトの管理」を参照してください。
- アーカイブされたサイトの場合は、サイト・キャプチャ・インタフェースを使用してサイトをプレビューし、zipファイルとログをダウンロードします。詳細は、第48.2項「アーカイブされたサイトの管理」を参照してください。