ファイル形式の除外

crawl-urlfilter.txtファイル内の除外行にファイル拡張子を追加することによって、グローバルで除外するファイル形式を指定します。

crawl-urlfilter.txtのデフォルトの構成では、次の種類のファイルが除外されます。
  • BMP(ビットマップ画像)、拡張子が.bmpおよび.BMP
  • CSS(カスケード・スタイル・シート)、拡張子が.css
  • EPS(カプセル化PostScript)、拡張子が.eps
  • EXE(Windows実行可能ファイル)、拡張子が.exe
  • GIF(Graphics Interchange Format)、拡張子が.gifおよび.GIF
  • GZIP(GNU Zip)、拡張子が.gz
  • ICO(アイコン画像)、拡張子が.icoおよび.ICO
  • JPGおよびJPEG(Joint Photographic Experts Group)、拡張子が.jpeg、.JPEG、.jpgおよび.JPG
  • MOV(Apple QuickTime Movie)、拡張子が.movおよび.MOV
  • MPG(Moving Picture Experts Group)、拡張子が.mpg
  • PNG(Portable Network Graphics)、拡張子が.pngおよび.PNG
  • RPM(Red Hat Package Manager)、拡張子が.rpm
  • SIT(Stuffitアーカイブ)、拡張子が.sit
  • TGZ(Gzipped Tar)、拡張子が.tgz
  • WMF(Windowsメタファイル)、拡張子が.wmf
  • ZIP(圧縮アーカイブ)、拡張子が.zip

HTMLファイル、テキストベース・ファイル、JavaScriptファイル以外の他のすべての種類のファイルでは、IAS Document Conversion Moduleによってテキスト変換が実行されます(このモジュールがインストールされ、有効になっている場合)。したがって、おおまかな規則として、このモジュールでサポートされていないファイル形式はすべて除外することをお薦めします。サポートされているファイル形式の一覧は、Integrator Acquisition System開発者ガイドを参照してください。

  1. ファイル形式を除外するには:
  2. テキスト・エディタでcrawl-urlfilter.txtを開きます。
  3. 次の行を探します。
    # skip image and other suffixes we can't yet parse
    -\.(gif|GIF|jpg|JPG|...|bmp|BMP)$

    (この例は読みやすいように一部省略されています)

  4. 除外するファイル拡張子に応じて2行目を変更します。
  5. ファイルを保存して閉じます。