文字変換

文字変換プロセッサは、ある記述体系(アラビア語など)から別の記述体系(ラテン語など)に文字列を変換します。これは大部分は音声操作で、文字列が表す音声に基づいて、その文字列に相当する語をターゲットの記述体系で作成しようとする操作です。文字列の翻訳を目的とするものではありません。たとえば、アラビア語の氏名の一般的な構成要素である文字列に、音読すると「bin」のように聞こえる文字列がありますが、これはラテン語の文字列「bin」に文字変換され、文字どおりの意味である「son of」には翻訳されません。

元の記述体系の単一の文字列には、有効な文字変換が複数ある場合があります。たとえば、「bin」は「ben」にも文字変換できます。一部の氏名には非常に多くの代替文字変換があります。文字変換プロセッサの目的は、元の文字列に対して、可能性のあるすべての代替文字変換を提供するのではなく、単一の標準形式を提供することです。代替文字変換は照合プロセスの一環として認識され、文字変換されていない氏名の代替つづりと同様の認識方法で管理されます。

EDQの文字変換プロセッサは、ICUにより提供されるICU4Jライブラリを中心に構築されています。ICUは制限のないオープン・ソース・ライセンスでリリースされており、市販のソフトウェアは言うまでもなく、他のオープン・ソースやフリー・ソフトウェアと組み合せて使用する際に適しています。ICUおよびICUのライセンスての詳細は、ICUのWebサイトを参照してください。

文字変換プロセッサは、ある記述体系から別の記述体系へと発音的に適した方法で文字列を変換するために使用します。これは、ある記述体系で提供された文字列を別の記述体系で提供された参照データと照合する場合に役立ちます。たとえば、国際的なウォッチ・リストはラテン語のスクリプトでのみ提供されることがよくあります。

注意:

文字変換プロセッサは、EDQで代替記述体系を処理するために使用可能な唯一のツールではありません。文字変換要件の複雑性とICU4Jの多様な記述体系のサポートによっては、他のアプローチの方が確実な場合があります。たとえば、ソース記述体系とターゲット記述体系の適切な参照データ・セットとともに、置換プロセッサと文字の置換プロセッサの組合せを使用して文字変換を実装できます。

次の表に、構成オプションを示します。

構成 説明

入力

文字変換する任意の数の文字列属性または文字列属性の配列を指定します。数値および日付属性は、特定の記述体系とは独立した形式で格納されるため文字変換する必要はありません。数値または日付が含まれる文字列は、最も適切な方式でターゲット記述体系に変換されますが、これは音声操作ではありません。

オプション

次のオプションを指定します。

  • List of possible transliteration options: 入力の文字変換に使用するソースおよびターゲットの記述体系を定義します。標準リスト・リソースのデフォルト値は、任意の文字からラテン文字です。

出力

データ属性またはフラグ属性の出力を記述します。

データ属性

次のデータ属性が出力されます。

  • Transliterated: ターゲット記述体系に文字変換された属性のバージョンです。

フラグ

なし。

文字変換プロセッサは、サマリー・データを出力しません。文字変換された入力値は入力属性とともにデータ・ビューに表示されます。

出力フィルタ

なし。

次の例では、入力データの氏名がギリシャ語(Original Script Name)からラテン語(Original Script Name.Transliterated)に文字変換されます。