機械翻訳について

コレクションの記述

コレクションを記述するには、サイト・マップを提供して、コレクションに含める文書を対象とするようにコンテンツ・プロセッサに指示します。 また、コンテンツ・プロセッサが見つかったrobots.txtまたはrobotsメタ・タグに従うか無視するかも指定します。

サイト・マップの指定

サイト・マップ・ファイルおよびサイト・マップURLを使用して、コレクションに含める文書を対象とするようにコンテンツ・プロセッサに指示する必要があります。 サイト・マップは、検索エンジンで使用するために特別に作成された構造化索引です。 これには、サイト内の文書のURLがリストされ、最後に更新された日時、変更頻度など、各文書の重要なメタデータが含まれます。

コレクションに指定できるサイト・マップURLは1つのみです。 ただし、プライマリ・サイト・マップ・ファイル内の子サイト・マップ.xmlファイルを使用できます。 既存のサイト・マップを使用することも、使用可能な多数のツールを使用して新しいサイト・マップを作成することもできます。 サイト・マップ・ファイルを手動で作成することもできます。

サイト・マップ・ファイルの作成で考慮する重要な点がいくつかあります。

  • KMクローラでサポートされていない拡張(正規表現形式)のリストを次に示します:\.jpg$$|%\.gif$$|%\.jpeg$$|%\.js$$|%\.png$$|%\.zip$$|%\.exe$$|%\.[tjr]ar$$|%\. tgz$$|%\.css$$|%\.tar\.gz$$|%\.mp[g3e4a]$$|%\.avi$$|%\.rm$$|%\.ram$$|%\.as[fx] $$|%\.wm[vazsf]$$|%\.au$$|%\.msi$$|%\.sit$$|%\.m4a$$|%\.mov$$|%\.cab$ .
  • サイト・マップURLが次のように定義されている場合 : "https://<hostname.domain>/xx/xx/xxxx/sitemap.xml"。サイト・マップ内のドキュメントには、拒否される別のドメインがあります。 これを上書きして、別のドメインを持つURLを許可するには、パターンを含めるで定義する必要があります。

ロボット・ファイルとロボット・タグの使用または無視

ロボット・テキスト・ファイルとロボット・タグによって、コンテンツ・プロセッサで使用できるサイト上の文書およびリンクが指定されます。 使用する場合ははいを、無視する場合はいいえをクリックします。

特定の文書の除外または追加

1つ以上の正規表現パターンを入力して、特定の文書を除外することも、含めることもできます。 各パターンを個別のフィールドに入力します。 コンテンツ・プロセッサはデフォルトですべての文書を受け入れるため、ほとんどの場合、明示的な文書受入れパターンを指定する必要はありません。