crawl-urlfilter.txtのデフォルトの構成では、次の種類のファイルが除外されます。
- BMP(ビットマップ画像)、拡張子が.bmpおよび.BMP
- CSS(カスケード・スタイル・シート)、拡張子が.css
- EPS(カプセル化PostScript)、拡張子が.eps
- EXE(Windows実行可能ファイル)、拡張子が.exe
- GIF(Graphics Interchange Format)、拡張子が.gifおよび.GIF
- GZIP(GNU Zip)、拡張子が.gz
- ICO(アイコン画像)、拡張子が.icoおよび.ICO
- JPGおよびJPEG(Joint Photographic Experts Group)、拡張子が.jpeg、.JPEG、.jpgおよび.JPG
- MOV(Apple QuickTime Movie)、拡張子が.movおよび.MOV
- MPG(Moving Picture Experts Group)、拡張子が.mpg
- PNG(Portable Network Graphics)、拡張子が.pngおよび.PNG
- RPM(Red Hat Package Manager)、拡張子が.rpm
- SIT(Stuffitアーカイブ)、拡張子が.sit
- TGZ(Gzipped Tar)、拡張子が.tgz
- WMF(Windowsメタファイル)、拡張子が.wmf
- ZIP(圧縮アーカイブ)、拡張子が.zip
HTMLファイル、テキストベース・ファイル、JavaScriptファイル以外の他のすべての種類のファイルでは、IAS Document Conversion Moduleによってテキスト変換が実行されます(このモジュールがインストールされ、有効になっている場合)。したがって、おおまかな規則として、このモジュールでサポートされていないファイル形式はすべて除外することをお薦めします。サポートされているファイル形式の一覧は、Integrator Acquisition System開発者ガイドを参照してください。