この章では、Oracle WebCenter Sites: Site Captureアプリケーションの概要とそのインタフェースの移動方法について説明します。
この章は、次の項で構成されています。
クロールは、サイト・キャプチャ・インタフェースから手動で開始することも、WebCenter Sitesのリアルタイム・パブリッシュ・セッションの完了に従ってトリガーすることもできます。いずれの場合も、クローラは、その実行方法として選択されたモード(静的またはアーカイブ)に応じてWebサイトをディスクにダウンロードします。
この項は、次のトピックで構成されています。
サイトを静的またはアーカイブのいずれのモードでダウンロードした場合も、ディスクには同じファイル(html、cssなど)が格納されますが、いくつかの相違点があります。たとえば、静的にダウンロードしたサイトはファイル・システムでのみ使用可能ですが、アーカイブしたサイトはファイル・システムとサイト・キャプチャ・インタフェースの両方で使用可能になります。つまりキャプチャのモードによって、クローラがサイトをダウンロードする方法およびその結果の管理方法が決まります。
静的モード | アーカイブ・モード |
---|---|
迅速なデプロイメントと高可用性のシナリオをサポートします。 |
コンプライアンスなどを目的として、定期的にWebサイトのコピーを維持するために使用されます。 |
クロールされたサイトが提供可能なファイルとして格納されます。最新のキャプチャのみが保持されます(以前に格納されたファイルは上書きされます)。 |
クロールされたすべてのサイトが保持され、タイムスタンプ付きのフォルダにzipファイル(アーカイブ)として格納されます。このzipファイルへのポインタがサイト・キャプチャ・データベースで作成されます。 |
静的クロール・セッションは、アプリケーション・インタフェースから手動で開始することも、パブリッシュ・セッションの終了時に開始させることもできます。ただし、ダウンロードされたサイトは、サイト・キャプチャ・ファイル・システムからのみアクセスおよび管理できます。 |
アーカイブ・クロール・セッションは、静的セッション同様、サイト・キャプチャ・インタフェースから手動で開始することも、パブリッシュ・セッションの終了時に開始させることもできます。ただし、zipファイルはサイト・キャプチャ・データベース内のポインタによって参照されるため、サイト・キャプチャ・インタフェースで管理できます。ここで、ファイルのダウンロード、アーカイブされたサイトのプレビュー、およびキャプチャ・スケジュールの設定を実行できます。 |
いずれのキャプチャ・モードでも、クロール・セッションの終了時にログが生成され、クロールされたURL、HTTPステータス、およびネットワーク条件などの情報が提供されます。静的キャプチャでは、ログをファイル・システムから取得する必要があります。アーカイブ・キャプチャでは、ログをサイト・キャプチャ・インタフェースからダウンロードできます。いずれのキャプチャ・モードにも、レポート生成時にレポートを電子メールで送信するようクローラを構成するオプションが用意されています。
どのタイプのサイト・キャプチャ・プロセスを開始する場合でも、サイト・キャプチャ・インタフェースでクローラを定義する必要があります。すぐに始められるよう、サイト・キャプチャにはSampleおよびFirstSiteIIという2つのサンプル・クローラが用意されています。ここでは、サイト・キャプチャのインストール・プロセスでこれらのクローラがインストールされていることを前提としています。このガイドでは主にSampleクローラを使用します。
独自のクローラを作成するには、クローラに名前を付け(通常はターゲット・サイトにちなんだ名前)、クローラのサイト・キャプチャ・プロセスを制御するCrawlerConfigurator.groovy
という名前のテキスト・ファイルをアップロードします。groovy
ファイルはBaseConfigurator
クラスのメソッドを使用してコード化し、少なくともクローラの開始URIとリンク抽出ロジックを指定する必要があります。groovy
ファイルはクローラのサイト・キャプチャ・プロセスを制御しますが、クローラのキャプチャ・モードはファイル外部で設定されます。
パブリッシュ・トリガー・サイト・キャプチャ用のクローラを使用するには追加の手順が必要です。『Oracle Fusion Middleware WebCenter Sitesインストレーション・ガイド』で説明されているように、クローラに名前を付け、サイト・キャプチャと統合されているWebCenter Sitesソース・システム上のパブリッシュの宛先定義でキャプチャ・モードを指定します。(すべてのパブリッシュの宛先定義で1つ以上のクローラを指定できますが、単一のキャプチャ・モードしか指定できない点に留意してください。)クローラの起動の成功に関する情報は、サイト・キャプチャ・ファイル・システムと、WebCenter Sitesソースおよびターゲット・システムのログ・ファイル(デフォルトではfuturetense.txt
)に格納されます。
この章の演習では、手動およびパブリッシュ・トリガーの両方のタイプのクローラの起動シナリオについて説明します。
サイト・キャプチャ・アプリケーションはWebCenter Sites上で実行されます。サイト・キャプチャ・アプリケーションには、WebCenter Siteにログインしてアクセスします。
サイト・キャプチャ・アプリケーションにログインするには:
次のURLでWebCenter Sitesにアクセスします。
http://<server>:<port>/<context>/login
ここで<server>
はWebCenter Sitesを実行しているサーバーのホスト名またはIPアドレス、<port>
はWebCenter Sitesアプリケーションの番号、<context>
はサーバー上にデプロイされているWebCenter Sites Webアプリケーションの名前です。
一般管理者としてログインします。ログイン資格証明では大文字と小文字が区別されます。このガイドでは、次のデフォルトの資格証明を使用します。
ユーザー名: fwadmin
パスワード: xceladmin
「ログイン」をクリックします。
初めてログインする場合は、次のダイアログが開きます。
AdminSite (デフォルトでサイト・キャプチャ・アプリケーションが割り当てられている)を選択し、サイト・キャプチャ・アイコンを選択します。
表示される最初のページは「クローラ」という名前のページです。デフォルトのクローラがサイト・キャプチャとともにインストールされている場合は、SampleおよびFirstSiteIIという名前でそれらがリストされます。
次の手順は、要件に応じて次のいずれかになります。
デフォルトのクローラについて詳細を習得するには、第47.3項「デフォルト・クローラの使用」に進みます。
独自のサイト・キャプチャ操作を設定し、その過程でサイト・キャプチャ・インタフェースの移動方法について習得するには、第47.4項「サイト・キャプチャの操作の設定」に進みます。
クローラ構成コードの詳細は、『Oracle Fusion Middleware WebCenter Sites開発者ガイド』を参照してください。
このガイドでは、デフォルトのクローラSampleおよびFirstSiteIIがサイト・キャプチャ・アプリケーションにインストールされており、(第47.2項「サイト・キャプチャ・アプリケーションへのログイン」の手順1に示すように)そのインタフェースに表示されていることを前提としています。独自のクローラを定義する場合は、第47.4項「サイト・キャプチャの操作の設定」を参照してください。
この項は、次のトピックで構成されています。
Sampleクローラはすべてのサイトのダウンロードに使用できます。Sampleクローラの目的は、サイトを迅速にダウンロードできるようにし、独自のクローラを作成するときに再利用する必須の構成コードを提供することです。Sampleクローラは、必須メソッドと、クロールへのリンク数を制限することでクロールの期間を制限するオプション・メソッドによる最小構成になっています。
必須メソッドは、getStartURi
および(クロールしたページからリンクを抽出するロジックを定義する)createLinkExtractor
です。
オプションのメソッドは、クロールするリンク数を指定するgetMaxLinks
です。
これらのメソッド、クローラのカスタマイズ方法およびインタフェースの詳細は、『Oracle Fusion Middleware WebCenter Sites開発者ガイド』を参照してください。
FirstSiteIIクローラは、WebCenter Sitesの動的FirstSiteIIサンプルWebサイトを静的サイトとしてダウンロードするために使用されます。クローラの目的は、LinkExtractor
およびResourceRewriter
インタフェースを使用して、カスタム・リンク・エクストラクタおよびリソース・リライタの作成方法を示す高度な構成コードを提供することです。インタフェースの詳細は、『Oracle Fusion Middleware WebCenter Sites開発者ガイド』を参照してください。
この項では、SampleクローラまたはFirstSiteIIクローラのいずれかを実行します。FirstSiteIIクローラを使用するには、WebCenter SitesのFirstSiteIIサンプル・サイトがパブリッシュされている必要があります。
デフォルト・クローラを実行するには:
「クローラ」ページで、デフォルト・クローラのSampleまたはFirstSiteIIをポイントし、「構成の編集」を選択します。
クローラの構成ファイルを編集して、クローラの開始URIを設定します。手順については、第47.4.2項「クローラの定義」の1に進み、クローラを実行してキャプチャされたデータを管理するための残りの手順を実行します。
この項では、独自のクローラを作成および実行するプロセスを通じて、サイト・キャプチャ・インタフェースおよびファイル・システムがどのように編成されるかを理解します。
この項は、次のトピックで構成されています。
クローラを作成する前に、クローラのサイト・キャプチャ・プロセスを制御する構成ファイルが必要です。有用なファイルを作成する最速の方法は、サンプル・コードをコピーして、必要に応じてリコードすることです。
初期クローラ構成ファイルを作成するには:
Sampleクローラの構成ファイルを、次のいずれかの方法でローカル・マシンにコピーします。
サイト・キャプチャ・アプリケーションにログインします。「クローラ」ページにSampleクローラがリストされている場合は、次を実行します(それ以外の場合は、次の項目に進みます)。
Sampleをポイントし、「構成の編集」を選択します。
「構成ファイル」フィールドに移動し、そのコードをローカル・マシン上のテキスト・ファイルにコピーして、ファイルをCrawlerConfigurator.groovy
として保存します。
サイト・キャプチャ・ホスト・マシンに移動し、CrawlerConfigurator.groovy
ファイルを<SC_INSTALL_DIR>/fw-site-capture/crawler/Sample/app/
からローカル・マシンにコピーします。
注意: 各クローラは自身の クローラを定義すると、サイト・キャプチャによってクローラの名前( クローラが指定のモードで初めて使用される場合、サイト・キャプチャはそのモードでキャプチャしたサイトを格納するための追加のサブフォルダを( |
サンプルのgroovy
ファイルはサンプルの開始URIを指定します。これは次のステップで作成するクローラ用にリセットします。(開始URIのほか、クローラ深度などのパラメータを設定し、post-crawlコマンドを起動して、ターゲット・サイトに固有のロジックを定義するためのインタフェースを実装します。)
この時点では、ダウンロードされたgroovy
ファイルをただちにカスタマイズするか、最初にクローラを作成してからそのgroovy
ファイル(サイト・キャプチャ・インタフェースで編集可能)をカスタマイズするかのオプションがあります。
この演習を行うには、次の手順第47.4.2項「クローラの定義」に進みます。
クローラの構成方法およびインタフェースの詳細は、『Oracle Fusion Middleware WebCenter Sites開発者ガイド』を参照してください。
「クローラ」ページに移動して、「クローラの追加」をクリックします。
「クローラの追加」ページで次の手順を実行します。
クロール対象サイトにちなんでクローラに名前を付けます。
注意:
|
説明を入力します(オプション)。たとえば、「このクローラはパブリッシュ・トリガー・サイト・キャプチャ用に予約されています」または「このクローラはスケジュール済キャプチャ用に予約されています」のように入力します。
「構成ファイル」フィールドで、第47.4.1項「初期クローラ構成ファイルの作成」で作成したgroovy
ファイルを参照します。
新しいクローラを保存します。
CrawlerConfigurator.groovy
ファイルは、サイト・キャプチャ・ホスト・マシンの<SC_INSTALL_DIR>/fw-site-capture/crawler/<crawlerName>/app
フォルダにアップロードされます。このファイルは、サイト・キャプチャ・インタフェースで直接編集できます。
第47.4.3項「クローラ構成ファイルの編集」に進みます。
サイト・キャプチャ・インタフェースから、クローラ構成ファイル全体をリコードできます。この例では、単純にクローラの開始URIを設定します。
クローラ構成ファイルを編集するには:
「クローラ」ページで、定義したクローラをポイントし、「構成の編集」を選択します。
クローラの開始URIを次のメソッドで設定します。
public String[] getStartUri() { return ["http://www.mycompany.com/home"]
注意: 次の点に注意してください。 複数の開始URIを設定できます。それらは同じサイトに属している必要があります。次の例に示すように、カンマ区切りの配列を入力します。
構成ファイルには、クロール対象のリンクを抽出するためのロジックをコールする 構成ファイルには、クロールするリンク数を指定する クローラの構成方法およびインタフェースの詳細は、『Oracle Fusion Middleware WebCenter Sites開発者ガイド』を参照してください。 |
「保存」をクリックします。
第47.4.4項「クロールの開始」に進みます。
クロールは次のいくつかの方法で開始できます。
「クローラ」ページで、作成したクローラをポイントし、ドロップダウン・メニューから「静的キャプチャの開始」を選択します。
キャプチャが開始されると、「クローラ」ページに次のメッセージが表示されます。
「成功しました。クローラ<crawlerName>によって静的キャプチャが開始されました。
」
この時点では、サイト・キャプチャ・インタフェースにはクローラまたはそのプロセスに関する他の情報は表示されず、ダウンロードされたサイトを使用することもできません。かわりに、サイト・キャプチャ・ファイル・システムを使用して、ダウンロードされたファイルや様々なログにアクセスします。
静的キャプチャ・プロセスを監視するには、次のファイルを検索します。
<SC_INSTALL_DIR>/fw-site-capture/<crawlerName>/logs
のlock
ファイル。lock
ファイルは一時ファイルです。このファイルは、追加の静的キャプチャを開始するためにクローラが起動されないよう、静的キャプチャ・プロセスの開始時に作成されます。クロール・セッションが終了すると、lock
ファイルは削除されます。
<SC_INSTALL_DIR>/fw-site-capture/logs/
のcrawler.log
ファイル。(このファイルで使用されている「VirtualHost」という用語は「クローラ」を意味します。)
<SC_INSTALL_DIR>/fw-site-capture/<crawlerName>
のinventory.db
ファイル。このファイルはクロールされたURLをリストします。inventory.db
ファイルはサイト・キャプチャ・システムで使用されます。削除したり変更したりしないでください。
audit.log
、links.txt
ファイルおよびreport.txt
ファイルは、/fw-site-capture/crawler/<crawlerName>/logs/yyyy/mm/dd
にあります。
ダウンロードされたファイルにアクセスするには、<SC_INSTALL_DIR>/fw-site-capture/crawler/<crawlerName>/www
に移動します。
サイト・キャプチャ・ファイル・システムの詳細は、第48.1項「静的にキャプチャされたサイトの管理」を参照してください。
クローラがあるモードで使用されていた場合、それを別のモードで再実行できます。
クローラをアーカイブ・モードで実行するには:
「クローラ」ページで、作成したクローラをポイントし、「アーカイブの開始」を選択します。
ダイアログ・ボックスが開きます。
ダイアログで、クローラの今後のジョブに関するコメントを追加します。
注意: クローラの実行が開始されると、コメントは追加できません。 前出のダイアログでコメントを追加するように選択した場合、それは次の場所に表示されます。
|
「アーカイブの開始」をクリックします。
「ジョブの詳細」ページが表示されます。ここでは、図47-11に示すように、アーカイブ・プロセスをいくつかの方法で管理できます。この演習を実行するには、「終了」が表示されるまで(「ジョブの状態」の横にある)「リフレッシュ」をクリックし、次の手順に進みます。
アーカイブ・クロールが終了すると、結果がサイト・キャプチャ・インタフェースで使用可能になります。次に例を示します。
クローラ・レポートが「ジョブの詳細」ページに表示されます。レポートには、ダウンロードされたリソース数、その合計サイズとダウンロード時間、ネットワーク条件、HTTPステータス・コード、および必要に応じて追加のメモが記載されます。
「ジョブの詳細」ページの「プレビュー」をクリックすると、アーカイブされたサイトがレンダリングされます(図47-13を参照)。サイトの横には、アーカイブ管理オプションを備えたアーカイブIDテーブルがあり、これはアーカイブをポイントすると表示されます。
様々なデータへの経路の要約は、第48.2項「アーカイブされたサイトの管理」を参照してください。
アーカイブ・キャプチャのみをスケジュールできます。特定のクローラに対して複数のスケジュールを作成できます。たとえば、定期的なキャプチャ用と、特定かつ一意の時間のキャプチャ用に別々のスケジュールを作成できます。
注意: 複数のスケジュールを設定する場合は、それらが重複しないようにしてください。 |
クローラのアーカイブ・キャプチャをスケジュールするには:
「クローラ」ページに移動して、作成したクローラをポイントし、「アーカイブのスケジュール」を選択します。
「スケジュールの追加」をクリックし、すべてのカレンダーで「曜日」、「日付」、「月」、「時間」および「分」を選択します。
「保存」をクリックし、必要に応じて別のスケジュールを追加します。
WebCenter Sitesパブリッシュ・システムを構成してサイト・キャプチャ・アプリケーションと通信する場合は、新たなパブリッシュ済サイトをキャプチャするために1つ以上のクローラを起動するようにリアルタイム・パブリッシュ・プロセスを設定できます。手順については、第47.5項「パブリッシュ・トリガー・サイト・キャプチャの有効化」を参照してください。
静的キャプチャおよびアーカイブ・キャプチャに関連した様々なデータにアクセスする方法については、第48章「ダウンロードされたサイトの管理」を参照してください。第48.3項「要約」には、クローラおよびキャプチャ・データを管理する際の注意事項とヒントをまとめています。次のトピックが含まれています。
パブリッシュ・トリガー・サイト・キャプチャを有効にするための主な手順は次のとおりです。
管理ユーザーは、必要な数のサイト・キャプチャ用のパブリッシュの宛先定義を構成し、必要な数のクローラを起動できます。
サイト・キャプチャ・アプリケーションが、パブリッシュ・プロセスで使用されるWebCenter Sitesソースおよびターゲット・システムと最初に統合される場合のみ、リアルタイム・パブリッシュ・セッションの終わりにサイト・キャプチャを有効にできます。サイト・キャプチャが統合されていない場合は、統合手順について『Oracle Fusion Middleware WebCenter Sitesインストレーション・ガイド』を参照してから、次の手順に進みます。
パブリッシュの宛先定義を構成するときに、パブリッシュ・セッションの終わりに起動されるクローラを指定します。キャプチャ・モードも指定します。
パブリッシュの宛先定義を構成するには:
サイト・キャプチャ・アプリケーションと統合されるWebCenter Sitesソース・システムに移動します(『Oracle Fusion Middleware WebCenter Sitesインストレーション・ガイド』を参照)。
サイト・キャプチャと統合されるWebCenter Sitesターゲット・システムをポイントするリアルタイム・パブリッシュの宛先定義を作成します。リアルタイム・パブリッシュの宛先の作成方法の詳細は、第20章「リアルタイム・パブリッシュ・プロセスの構成」を参照してください。
パブリッシュの宛先定義の「他の引数」セクションで、パブリッシュ・セッションの終わりに起動するクローラを指定し、クローラの起動を制御するために次のパラメータを使用してキャプチャ・モードを設定します。
CRAWLERCONFIG
: 各クローラの名前を指定します。複数のクローラを使用する場合は、名前をセミコロン(;)で区切ります。
例:
単一クローラの場合: CRAWLERCONFIG=
crawler1
複数クローラの場合: CRAWLERCONFIG=
crawler1;
crawler2;
crawler3
注意: ここで指定するクローラは、サイト・キャプチャ・インタフェースでも構成され、さらに同じ名前である必要があります。クローラ名は大文字と小文字が区別されます。 |
CRAWLERMODE
: アーカイブ・キャプチャを実行するには、このパラメータをdynamic
に設定します。デフォルトでは、静的キャプチャが有効になります。
例: CRAWLERMODE=dynamic
注意:
|
次の手順に進みます。
パブリッシュの宛先定義で指定したクローラは、サイト・キャプチャ・インタフェースに存在している必要があります。次の手順を実行します。
宛先定義(第47.5.2項「サイト・キャプチャ用のリアルタイム・パブリッシュの宛先定義の構成」の手順b)とサイト・キャプチャ・インタフェースのクローラ名が同じであることを確認します。名前は大文字と小文字が区別されます。
各クローラの構成ファイルでターゲット・サイトの有効な開始URIが設定されていることを確認します。クローラの構成ファイルへの移動の詳細は、第47.4.3項「クローラ構成ファイルの編集」を参照してください。構成コードの記述方法の詳細は、『Oracle Fusion Middleware WebCenter Sites開発者ガイド』を参照してください。
パブリッシュ・トリガー・サイト・キャプチャが有効になると、いつでもターゲット・サイトをパブリッシュできます。パブリッシュが終了すると、サイト・キャプチャが開始されます。パブリッシュの宛先定義でCRAWLERMODE
パラメータをどのように設定したかに応じて(第47.5.2項「サイト・キャプチャ用のリアルタイム・パブリッシュの宛先定義の構成」の手順b)、静的モードまたはアーカイブ・モードのいずれかで、起動されたクローラがページをキャプチャします。
サイト・キャプチャ・プロセスを監視するには、次の手順を実行します
静的キャプチャの場合、サイト・キャプチャ・インタフェースにはクロールに関する情報が表示されず、キャプチャされたサイトも使用可能になりません。
クローラが起動したかどうかを判断するには、ソースまたはターゲットのWebCenter Sitesシステムでfuturetense.txt
ファイルを開きます。
注意: WebCenter Sitesのソースおよびターゲット・システム上の |
キャプチャ・プロセスを監視するには、サイト・キャプチャ・ファイル・システムに移動し、第47.4.4.1項「静的モードでのクローラの手動実行」の手順2でリストされたファイルを確認します。
動的キャプチャの場合、サイト・キャプチャ・インタフェースからクロールのステータスを表示できます。
「クローラ」ページに移動し、クローラをポイントして、ポップアップ・メニューから「ジョブ」を選択します。
「ジョブの詳細」ページで、「終了」が表示されるまで「ジョブの状態」の横にある「リフレッシュ」をクリックします。(「ジョブの状態」で可能な値は、「スケジュール済」、「実行中」、「終了」、「停止」または「失敗」です。)「ジョブの詳細」ページの詳細は、第47.4.4.2項「アクティブ・モードでのクローラの手動実行」の手順3および4を参照してください。
キャプチャされたデータを管理します。
クロール・セッションが終了したら、キャプチャされたサイトと関連データを次のように管理できます。
静的にキャプチャされたサイトの場合は、サイト・キャプチャ・ファイル・システムに移動します。詳細は、第48.1項「静的にキャプチャされたサイトの管理」を参照してください。
アーカイブされたサイトの場合は、サイト・キャプチャ・インタフェースを使用してサイトをプレビューし、zipファイルとログをダウンロードします。詳細は、第48.2項「アーカイブされたサイトの管理」を参照してください。