ボイラープレート削除モジュールは、Webページのメインのテキスト・コンテンツの周囲にある余分なもの(ボイラープレート、テンプレート)を検出して削除します。
ボイラープレート削除モジュールは、入力文字列からボイラープレート・タグを削除し、様々なタイプの引用符を一貫した1つのタイプに正規化します。このモジュールは、HTMLテキストが含まれる文字列入力から<article>要素を抽出できます。
この入力は有効なHTMLドキュメントである必要があります。
このモジュールは、データ処理のサンプリング操作中は実行されません。
Studioから変換操作として実行される場合、このモジュールは引数として入力テキストのみを採用します。
このモジュールの出力は、有効なHTMLドキュメントから抽出されたプレーン・テキスト、タイトルおよび説明のキーと値のペアです。出力属性の名前は<colname>_bp_stripです。