ボイラープレート削除

ボイラープレート削除モジュールは、Webページのメインのテキスト・コンテンツの周囲にある余分なもの(ボイラープレート、テンプレート)を検出して削除します。

ボイラープレート削除モジュールは、入力文字列からボイラープレート・タグを削除し、様々なタイプの引用符を一貫した1つのタイプに正規化します。このモジュールは、HTMLテキストが含まれる文字列入力から<article>要素を抽出できます。

この入力は有効なHTMLドキュメントである必要があります。

構成可能性

このモジュールは、データ処理のサンプリング操作中は実行されません。

Studioから変換操作として実行される場合、このモジュールは引数として入力テキストのみを採用します。

出力

このモジュールの出力は、有効なHTMLドキュメントから抽出されたプレーン・テキスト、タイトルおよび説明のキーと値のペアです。出力属性の名前は<colname>_bp_stripです。