SharePoint Web Servicesクロールの作成

SharePoint Web Servicesクロールを作成するには、SharePoint Web Servicesクロールのデフォルトのクロール構成ファイルをコピーし、使用環境に合せてファイルの設定を適宜変更します。

SharePoint Web Servicesクロールを作成するには:

  1. IASインストールで、<インストール・パス>\IAS\<バージョン>\sample\crawlConfigFilesにあるデフォルトのクロール構成ファイルを見つけます。
  2. sharePointWSCrawl.xmlをコピーして、環境に合せてファイル名を変更し、それをローカル・ディレクトリに保存します。
  3. 新しいクロール構成ファイルをテキスト・エディタで開きます。
  4. すべてのクロール・タイプに共通の設定を構成します。
    オプション 説明
    crawlId (必須)。IASでクロールとその他のものを区別する一意の名前を指定します。crawlIdには、英数字、アンダースコア、ダッシュおよびピリオドを使用できます。その他の文字はcrawlIdでは無効になります。
    unavailableIncrementalSwitchesToFullCrawl (必須)。IASがイ増分クロールを実行できない場合に増分クロールの実行から完全クロールの実行に切り替える必要があることを示すブール値を指定します。

    値がtrueの場合、増分クロールを実行できない場合に完全クロールを実行するようにIASに指示します。値がfalseの場合、増分クロールを中断し、増分クロールが実行できない理由を示すFullCrawlRequiredExceptionをスローするようにIASに指示します。

    デフォルト値はoutputConfigタイプによって異なります。

    outputConfigRecord Storeに設定する場合、デフォルト値はtrueになります。

    outputConfigFile Systemに設定する場合、デフォルト値はfalseになります。

    crawlThreads (必須)。IAS Serviceで使用可能な最大スレッドを指定します。

    スレッドのデフォルト数は、IAS Serviceを実行するマシンのCPUの数に1を足した数になります。

    複数のクロールを同時に実行している場合、システムでスレッドが過剰になり、その結果IASのパフォーマンス速度が低下する可能性があるため、この設定の値を増やすことはお薦めしません。オーバー・スレッドの危険を最小限に抑えるには、単一のIASシステムで実行するクロールごとに、この設定の値を、CPUの数に1を加えた数程度に減らします。

    textExtractionConfig (オプション)。ドキュメント変換が有効かどうかを指定します。textExtractionConfigの値がtrueの場合、IASは、ドキュメント変換を実行し、変換したテキストをEndecaレコードのプロパティとして格納します。
    manipulatorConfigs (オプション)。クロール構成内で任意の数のマニピュレータを指定します。1つ以上のmanipulatorConfig要素がある場合、IASは、そのmanipulatorConfig設定に従って処理するように、各レコードを各マニピュレータに渡します。マニピュレータは、manipulatorConfigs内にネストされている順序で実行します。
  5. SharePoint Web Servicesクロールに固有の次の設定を構成します。
    オプション 説明
    moduleId (必須)。SharePoint Web ServicesクロールのIASモジュールの名前を指定します。この値はMicrosoft SharePoint Web Servicesに設定する必要があります。
    siteUrl (必須)。SharePointのサーバー名とポート(http://sharepoint:10000など)を指定します。siteUrlは、リポジトリ・サイトまたはホームSharePointサイト・コレクションのみに設定できます。siteUrlはドキュメント・ライブラリに設定できません。siteUrlの名前は大文字と小文字が区別されます。
    handleGenericLists (オプション)。その他のSharepointリスト(問題、Wiki、アンケート、カスタム・リストなど)をサポートするかどうかを指定します。デフォルトでは、クロールはドキュメント・ライブラリを管理します。デフォルト値はtrueです。
    httpChunkingEnabled (オプション)。HTTPメッセージにチャンク・エンコーディングを使用するかどうかを指定します。デフォルト値はtrueです。
    domain (NTLM認証の場合は必須、それ以外はオプション。)

    NTLMを使用してサーバーにログオンするドメイン名を指定します。

    NTLM以外の認証の場合、これは、ユーザー名プロパティの先頭にこのプロパティの値を追加する際に便利です。ドメインは、ユーザー名と分けるバックスラッシュで付加されます。Endecaでは、わかりやすいように、このプロパティを追加せず、ユーザー名プロパティにのみドメインを追加することをお薦めします。

    strictSSLChecking (オプション)。自己署名証明書などSSLのすべての証明書を受け入れるかどうかを指定します。trueに設定する場合、信頼できるSSL証明書のみが受け入れられます。デフォルト値はfalseです。
    expandArchives (オプション。)アーカイブされたエントリごとにレコードを作成してレコードのプロパティを移入するかどうかを指定します。
    seeds (オプション)。SharePointサイト内のドキュメントの相対パスを指定します。このプロパティには、各シードを個別に指定する目的で複数の値を設定できます。指定しない場合、デフォルトのシードはリポジトリのルート・フォルダになります。次に例を示します。

    <moduleProperty>

    <key>seeds</key>

    <value>/Wiki Page Library</value>

    </moduleProperty>

  6. レコード・ストアにクロール出力を書き込むように設定を構成します。ファイルに出力を書き込むようにクロールを構成できますが、レコード・ストアへの書込みが推奨でありデフォルトでもあります。(ファイルに書き込むには、「ファイルへのクロール出力の書込み」を参照。)
    オプション 説明
    moduleId (必須)。クロールの出力タイプを指定します。クロールがレコード・ストアに書き込む場合はRecord Storeidを指定し、クロールがファイルに書き込む場合はFile Systemを指定します。
    isPortSsl (必須)。レコード・ストア・インスタンスへの接続でSSLを使用するかどうかを指定します。値がtrueの場合、HTTPSが使用され、portプロパティはSSLポートとして扱われます。値がfalseの場合、HTTPが使用され、portは非SSLポートとして扱われます。非SSLポートからSSLポートへのリダイレクトを有効にした場合はfalseを指定します。
    host (必須)。レコード・ストア・インスタンスを実行するホストの完全修飾名を指定します。デフォルト値はlocalhostです。
    port (必須)。レコード・ストア・インスタンスを実行するEndeca IAS Serviceのポートを指定します。デフォルト値は8510です。
    instanceName (オプション)。書込み先のレコード・ストア・インスタンス名を指定します。指定しない場合、これはデフォルトでcrawlIdと同じ値に設定されます。
    isManaged (オプション)。レコード・ストアを管理するかどうかを指定します。isManagedプロパティをfalseに設定して無効にする場合、クロールの作成時にレコード・ストア・インスタンスは作成されません。デフォルト値はtrueです。
  7. クロール構成ファイルを保存して閉じます。
  8. ias-cmdcreateCrawlsタスクを実行して、クロール構成ファイルをIASにアップロードします。「クロールの作成」を参照してください。