国際化対応言語環境の利用ガイド

語と文字の相違点

語の区切り

英語では、語は空白文字で区切ります。ただし、中国語、日本語、タイ語などの言語では多くの場合、語を区切りません。

ソートの順序

特定の文字をソートする順序は言語によって異なります。たとえば、ドイツ語の文字 旦 は普通の o と一緒にソートされますが、スウェーデン語ではアルファベットの最後の文字として別にソートされます。言語によっては、文字の優先順位を決めるために重みが定められています。たとえば、タイ語の辞書では、文字に異なる重みを与えることによってソート順序が決定されます。

文字集合

文字の数

英語のアルファベットは 26 文字しかありませんが、256 以上の文字を使用する言語もあります。たとえば、日本語には 40,000 以上の文字があり、中国語にはそれ以上の文字があります。

西ヨーロッパのアルファベット

西ヨーロッパ諸国のほとんどのアルファベットは英語圏の国で使用される 26 文字の標準アルファベットに類似しています。ただし、基本的な文字が追加されていたり、記号 (またはアクセント) の付いた文字や合字が使用される場合もあります。

日本語

日本語の文章には 3 種類の文字が混在しています。中国の漢字に由来する表意文字である漢字と、ひらがなとカタカナという 2 つの表音文字 (音節文字) です。

ひらがなとカタカナはそれぞれ対になっていますが、ひらがなのほうがより一般的で、丸みのある形をしています。漢字は語幹となる語を書くのに使用され、カタカナは主に外来語を書き記すのに使用されます。

漢字の数は数万もありますが、使用される漢字の数は徐々に減ってきています。現在、頻繁に使用される漢字の数は 3,500 字程度ですが、一般的な日本人の語彙に使用される漢字はおよそ 2,000 字ほどです。ただし、コンピュータシステムは日本工業規格 (JIS) で定められた 7,000 字以上の漢字に対応しなければなりません。また、170 文字ほどのひらがなとカタカナも必要です。日本語の文章の平均的な文字別構成は、ひらがな 55%、漢字 35%、カタカナ 10% となっています。また日本語の文章にはアラビア数字やローマ字も使用されます。

漢字をまったく使用しないことも可能ですが、ほとんどの日本人にとっては漢字かな混じり文のほうが容易に理解できます。

韓国語

韓国語は、ハングルと呼ばれる表音文字で表されます。ハングルには 11,000 以上の文字があり、19 の子音と 21 の母音で構成されます。これ以外に、27 のオプションの子音があります。通常、韓国語のコンピュータシステムでは、全ハングル文字の内約 3,000 文字が使用されています。韓国語にはまた、ハンジャと呼ばれる中国の漢字から派生した表意文字があります。韓国語では 6,000 以上のハンジャ文字が必要です。ハンジャは主に、ハングルだけでは意味があいまいになる場合に使用されます。ハングル文字では子音と母音を組み合わせて 1 つの音節を構成します。ハングル文字は通常、四角く配列されており、ハンジャ文字と同じスペースを必要とします。韓国語では、アラビア数字、ローマ字、および特殊記号も表示されます。

タイ語

タイ語の文字は、4 つの表示セルを持つディスプレイ上のカラム位置として定義されます。各カラム位置に表示できるのは最大 3 文字です。表示セルの構成内容はタイ文字の分類に基づいています。タイ文字の一部は、別の分類の文字と組み合わせることができます。組み合わされた文字は、同じセルに入ります。それ以外の場合は、別のセルに入ります。

中国語

中国語は通常、表意文字である漢字ですべてを表記します。中華人民共和国 (PRC) では、GB2312 (zh ロケール) にある約 7,000 の漢字が一般的に使用されており、この他にも GBK (zh.GBK ロケールにある 20,000 を超える文字があります。台湾では、現在の規格で必要とされる漢字の数は 13,000 文字以上で、さらに 6,000 の漢字が最近規格化されましたが、頻繁に使用されることはありません。

語幹文字でない限り、通常 1 つの文字は 2 つ以上の部分で形成されます。最も一般的なのは 2 つの部分で形成されるものです。2 つの部分で構成される文字では、1 つが意味を表し、もう 1 つは発音を表すのが普通ですが、両方とも意味を表すこともあります。漢字では部首が最も重要な要素です。漢字は伝統的に部首によって分類され、部首の数は数百にものぼります。異なる文字で同じ読み方をするものも多数ありますが、使用する際は明確に区別されます。同じ文字で異なる読み方をするものもあります。

中国語には四声と呼ばれる声調があり、文脈の中で適切な文字を音声によって区別します。一方、日本語と韓国語には声調はありません。

中国語の発音を表す表音体系にはいくつかの種類があります。中華人民共和国で最も普及しているのはピンイン方式です。これはローマ字を使用するもので、広く西部で採用されており、たとえば北京を Beijing と表します。ウェードガイル方式は旧式のもので、北京を Peking と表すなど地名の表現に以前は使用されていました。台湾では、独特の字体を持った表音用のアルファベットである zhuyin (bopomofo) がよく使用されています。

商用アプリケーション、特に人名を扱うアプリケーションでは、コードセットの拡張の影響を考慮する必要があります。中国語の多くの名前には、標準コードセットに存在しない文字が含まれています。この問題に対応するために、割り当てられていないコードセット用に、スペースを提供する必要があります。