ヘッダーをスキップ
Oracle® Fusion Middleware WebCenter Sites管理者ガイド
11gリリース1 (11.1.1.8.0)
E49682-01
  ドキュメント・ライブラリへ移動
ライブラリ
製品リストへ移動
製品
目次へ移動
目次

前
 
次
 

48 ダウンロードされたサイトの管理

ダウンロードされたサイトは、静的にキャプチャされるかアーカイブされるかによって、サイト・キャプチャ・ファイル・システムまたはインタフェースのいずれかから管理されます。

この章は、次の項で構成されています。

48.1 静的にキャプチャされたサイトの管理

サイト・キャプチャ・インタフェースでユーザーが作成するすべてのクローラごとに、サイト・キャプチャでは、そのファイル・システム内に同じ名前のフォルダが作成されます。このカスタム・フォルダ<crawlerName>を使用して、図48-1「サイト・キャプチャのカスタム・フォルダ: <crawlerName>」に示すようにクローラの構成ファイルを編成し、キャプチャして、ログを記録します。<crawlerName>フォルダとそのコンテンツの説明を参照してください。


注意:

静的キャプチャおよびログにアクセスするには、ファイル・システムを使用する必要があります。アーカイブ・キャプチャおよびログはサイト・キャプチャ・インタフェースから管理されます(ファイル・システム内のこれらの場所については、この項で説明します)。


図48-1 サイト・キャプチャのカスタム・フォルダ: <crawlerName>

図48-1の説明が続きます
「図48-1 サイト・キャプチャのカスタム・フォルダ: <crawlerName>」の説明

表48-1 <crawlerName>フォルダとそのコンテンツ

フォルダ 説明

/fw-site-capture/crawler/<crawlerName>

クローラを表します。サイト・キャプチャ・インタフェースでユーザーが定義するクローラごとに、サイト・キャプチャでは、/<crawlerName>フォルダが作成されます。たとえば、サンプル・クローラFirstSiteIIおよびSampleをインストールした場合、サイト・キャプチャ・インタフェースには両方のクローラがリストされ、サイト・キャプチャ・ファイル・システムに同じ名前のフォルダが存在するようになります。

注意: サブフォルダ(下記を参照)のほか、<crawlerName>フォルダには、静的にクロールされたURLがリストされたinventory.dbファイルが含まれています。このファイルは、クローラがその最初の静的キャプチャを取得したときに作成されます。inventory.dbを削除したり変更したりしないでください。それはサイト・キャプチャ・システムによって使用されます。

/fw-site-capture/crawler/<crawlerName>/app

クローラのCrawlerConfiguration.groovyファイルが含まれます。そのコードはクロール・プロセスを制御します。クローラが作成され保存されると、/appフォルダが作成されます。

/fw-site-capture/crawler/<crawlerName>/archive

/archiveフォルダは、アーカイブ・キャプチャ用としてのみ使用されます。このフォルダにはyyyy/mm/ddサブフォルダの階層が含まれます。/ddサブフォルダには、クローラのすべてのアーカイブ・キャプチャがタイムスタンプ付きzipファイルとして格納されます。

/archiveフォルダは、クローラが最初にアーカイブ・モードで実行されたときに作成されます。zipファイル(/ddにある)はデータベースで参照されるため、サイト・キャプチャ・インタフェースでWebサイトとしてのダウンロードおよび表示が可能になります。

注意: アーカイブ・キャプチャは、サイト・キャプチャ・インタフェースからアクセスできます。各zipファイルには、__inventory.dbという名前のURLログが含まれます。__inventory.dbを削除したり変更したりしないでください。それはサイト・キャプチャ・システムによって使用されます。

/fw-site-capture/crawler/<crawlerName>/www

最新の静的にキャプチャされたサイトのみが含まれます(同じクローラが静的モードで再実行されると、前のキャプチャが上書きされます)。サイトは、htmlcssおよび提供可能な他のファイルとして格納されます。

/wwwフォルダは、クローラが最初に静的モードで実行されたときに作成されます。

注意: 静的キャプチャは、サイト・キャプチャ・ファイル・システムからアクセスできます。

/fw-site-capture/crawler/<crawlerName>/logs/yyyy/mm/dd

クロールされたURLに関する情報を記載したログ・ファイルが含まれます。ログ・ファイルは/ddサブフォルダに格納され、図48-2に示すように命名されます。

  • audit.logファイルは、タイムスタンプ、クロール深度、HTTPステータス、ダウンロード時間などのデータとともにクロールされたURLをリストします。

  • links.txtファイルは、クロールされたURLをリストします。

  • report.txtファイルは、ダウンロードされたリソース数、合計サイズ、ダウンロード・サイズおよび時間、ネットワーク条件などのクロール統計全体をリストします。アーカイブ・キャプチャでは、このレポートを、クローラ・レポートとしてサイト・キャプチャ・インタフェースで使用できます(「ジョブの詳細」フォーム上で。「ジョブの詳細」フォームへのパスは、図48-3「アーカイブ情報へのパス」を参照してください)。

注意: クローラが静的モードとアーカイブ・モードの両方でキャプチャした場合、/ddサブフォルダには静的キャプチャとアーカイブ・キャプチャのログが含まれます。

/logsフォルダはlockという名前の一時ファイルを格納するためにも使用されます。このファイルは、追加の静的キャプチャを開始するためにクローラが起動されないよう、静的キャプチャ・プロセスの開始時に作成されます。クロール・セッションが終了すると、lockファイルは削除されます。


図48-2 ログ・ファイルの場所

図48-2の説明が続きます
「図48-2 ログ・ファイルの場所」の説明

48.2 アーカイブされたサイトの管理

アーカイブされたサイトは、サイト・キャプチャ・インタフェースの様々なフォームから管理できます。図48-3「アーカイブ情報へのパス」は、アーカイブ、ジョブ、サイト・プレビュー、クローラ・レポート、URLログなどの様々な情報への経路の一部を示しています。

図48-3 アーカイブ情報へのパス

図48-3の説明が続きます
「図48-3 アーカイブ情報へのパス」の説明

48.3 要約

この項では、クローラおよびキャプチャされたデータを管理するための注意事項とヒントをまとめています。

この項は、次のトピックで構成されています。

48.3.1 クローラの作成および編集

クローラを作成し、その構成コードを編集する場合は、次の情報を考慮してください。

  • クローラ名は大文字と小文字が区別されます。

  • すべてのクローラの構成ファイルには、CrawlerConfigurator.groovyという名前が付けられます。このファイルは、依存性を注入するために使用されます。そのため、この名前は変更しないでください。

  • クローラは、指定のサイト上で1つ以上のシードURIで開始し、1つ以上のパスをクロールするように構成できます。追加のJavaメソッドにより、クロール深度などのパラメータを設定したり、post-crawlコマンドを起動したり、セッション・タイムアウトを指定したりできます。リンクを抽出し、URLをリライトして、クロール・セッションの終了時に電子メールを送信するためのロジックを定義するようにインタフェースを実装できます。詳細は、『Oracle Fusion Middleware WebCenter Sites開発者ガイド』を参照してください。

  • クローラが作成され保存されると、そのCrawlerConfigurator.groovyファイルはサイト・キャプチャ・ファイル・システムにアップロードされ、サイト・キャプチャ・インタフェースで編集可能になります。

  • クローラが静的サイト・キャプチャ・プロセスを実行している間は、2番目の静的キャプチャ・プロセスを起動して実行することはできません。

  • クローラがアーカイブ・キャプチャ・プロセスを実行している間は、2番目のアーカイブ・キャプチャ・プロセスを起動して実行することはできません。2番目のプロセスは「スケジュール済」としてマークされ、最初のプロセスが終了した後に開始されます。

48.3.2 クローラの削除

クローラ(すべてのキャプチャされた情報を含む)を削除する必要がある場合は、ファイル・システムではなく、サイト・キャプチャ・インタフェースから実行してください。インタフェースから削除すると、リンクの破損を防ぐことができます。たとえば、クローラがアーカイブ・モードで実行された場合、インタフェースからそれを削除すると、クローラのアーカイブとログおよびこれらのアーカイブとログへのデータベース参照の2つの情報が削除されます。ファイル・システムからクローラを削除すると、すでに存在していないアーカイブやログに対するデータベース参照が保持されたままになるため、サイト・キャプチャ・インタフェースで破損したリンクが生じます。

48.3.2 クローラのスケジュール

アーカイブ・クロールのみをスケジュールできます。

  • クローラのスケジュールを設定する場合、サイトのパブリッシュ・スケジュールを考慮して、2つが重複しないようにします。

  • 単一クローラに対して複数のスケジュールを作成できます。たとえば、クローラを定期的に起動するためのスケジュールを1つ作成し、特定の一意の時間にクローラを起動する別のスケジュールを作成できます。

  • 複数のスケジュールを作成する場合は、それらが重複しないようにしてください。

48.3.4 静的クロールの監視

静的クロールが進行中であるか完了済であるかを判断するには、<SC_INSTALL_DIR>/fw-site-capture/<crawlerName>/logsフォルダのlockファイルを検索します。lockファイルは一時ファイルです。このファイルは、追加の静的キャプチャを開始するためにクローラが起動されないよう、静的キャプチャ・プロセスの開始時に作成されます。クロール・セッションが終了すると、lockファイルは削除されます。

48.3.5 クロールの停止

クローラを実行する前に、クロールされるリンク数およびクロール深度を考慮してください。その両方によってクローラのセッション期間が決まります。

  • アーカイブ・クロールを終了する必要がある場合は、サイト・キャプチャ・インタフェースを使用します(「ジョブの詳細」フォームで「アーカイブの停止」を選択します)。

  • 静的クロールを終了する必要がある場合は、アプリケーション・サーバーを停止する必要があります。

48.3.6 アーカイブのダウンロード

サイト・キャプチャ・インタフェースからは(250MBを超える)大きなアーカイブ・ファイルをダウンロードしないでください。かわりに、getPostExecutionCommandを使用して、サイト・キャプチャ・ファイル・システムから必要な場所にファイルをコピーします。

アーカイブ・サイズは、「ジョブの詳細」フォームのクローラ・レポートから取得できます。「ジョブの詳細」フォームへのパスは、図48-3「アーカイブ情報へのパス」を参照してください。getPostExecutionCommandメソッドの詳細は、『Oracle Fusion Middleware WebCenter Sites開発者ガイド』を参照してください。

48.3.7 サイトのプレビュー

アーカイブされたサイトに外部ドメインへのリンクが含まれる場合、特に(クローラのgroovyファイルで)クロール深度とクロールするリンク数が大きな値に設定される場合には、そのプレビューにこれらのリンクが含まれることがあります。外部ドメインは参照できますが、アーカイブされません。

48.3.8 パブリッシュの宛先定義の構成

  • パブリッシュ・トリガー・サイト・キャプチャを実行する場合は、パブリッシュの宛先定義の単一の文でクローラ・パラメータを設定できます。

    CRAWLERCONFIG=crawler1;crawler2&CRAWLERMODE=dynamic

  • パブリッシュの宛先定義で複数のクローラを指定できますが、設定できるキャプチャ・モードは1つのみです。すべてのクローラがそのモードで実行されます。一部のクローラを異なるモードで実行するには、別のパブリッシュの宛先定義を構成します。

48.3.9 ログ・ファイルへのアクセス

  • 静的にキャプチャされたサイトの場合、ログ・ファイルはサイト・キャプチャ・ファイル・システムでのみ使用可能です。

    • 静的にクロールされたURLをリストしているinventory.dbファイルは、/fw-site-capture/crawler/<crawlerName>フォルダにあります。


    注意:

    inventory.dbファイルはサイト・キャプチャ・システムによって使用されます。削除したり変更したりしないでください。


    • crawler.logファイルは、<SC_INSTALL_DIR>/fw-site-capture/logs/フォルダにあります。(crawler.logファイルで使用されている「VirtualHost」という用語は「クローラ」を意味します。)

  • 静的にキャプチャされアーカイブされたサイトの場合、共通のログ・ファイル・セットがサイト・キャプチャ・ファイル・システムに存在します。

    • audit.log。クロールされたURL、タイムスタンプ、クロール深度、HTTPステータスおよびダウンロード時間をリストします。

    • links.txt。クロールされたURLをリストします。

    • report.txt。クローラ・レポートです。

    前出の名前のファイルは次のフォルダにあります。

    /fw-site-capture/crawler/<crawlerName>/logs/yyyy/mm/dd


    注意:

    アーカイブされたサイトの場合、report.txtはサイト・キャプチャ・インタフェースの「ジョブの詳細」フォームでも入手可能で、そこでは「クローラのレポート」と呼ばれています。(「ジョブの詳細」フォームへのパスは、図48-3「アーカイブ情報へのパス」を参照してください。)


  • アーカイブ・プロセスでは、すべてのクロールのURLログも生成されます。ログは次の2つの場所で入手可能です。

    • サイト・キャプチャ・ファイル・システム内。__inventory.dbと呼ばれています。このファイルは次のフォルダのzipファイル内にあります。

      /fw-site-capture/crawler/<crawlerName>/archive/yyyy/mm/dd


      注意:

      __inventory.dbファイルはサイト・キャプチャ・システムによって使用されます。削除したり変更したりしないでください。


    • サイト・キャプチャ・インタフェースの「アーカイブ済URL」フォーム内(パスは図48-3「アーカイブ情報へのパス」に示されています)。