国際化対応言語環境の利用ガイド

語と文字の相違点

この節では、言語間の重要な相違点について説明します。

語の区切り

英語では、通常、語は空白文字で区切ります。それに対して中国語、日本語、タイ語などの言語では多くの場合、語を区切りません。

ソートの順序

特定の文字をソートする順序は、すべての言語で同じであるわけではありません。たとえば、ドイツ語の文字 ö は普通の o と一緒にソートされますが、スウェーデン語ではアルファベットの最後の文字として別にソートされます。言語によっては、文字の優先順位を決めるために重みが定められています。たとえば、タイ語の辞書では、文字に異なる重みを与えることによってソート順序が決定されます。

文字セット

アルファベット文字や特殊文字の数は文字セットによって異なります。英語のアルファベットは 26 文字しかありませんが、それよりもずっと多くの文字を使用する言語もあります。たとえば、日本語には 20,000 以上の文字があり、中国語にはそれ以上の文字があります。

西ヨーロッパのアルファベット

ほとんどの西ヨーロッパ諸国のアルファベットは、英語圏の国で使用されている 26 文字の標準アルファベットに類似しています。ただし、基本的な文字が追加されていたり、記号 (またはアクセント) の付いた文字や合字が使用される場合があります。

日本語のテキスト

日本語のテキストには次の 3 種類の文字が混在しています。

ひらがなとカタカナはそれぞれ対になっていますが、ひらがなの方がより一般的で、丸みのある形をしています。漢字は語幹となる語を書くのに使用され、カタカナは主に外来語を書き記すのに使用されます。

漢字の数は数万もありますが、使用される漢字の数は徐々に減ってきています。現在、頻繁に使用される漢字の数は 3,500 字程度ですが、一般的な日本人の語彙に使用される漢字はおよそ 2,000 字ほどです。ただし、コンピュータシステムは日本工業規格 (JIS) で定められた 7,000 字以上の漢字に対応しなければなりません。また、170 文字ほどのひらがなとカタカナも必要です。日本語の文章の平均的な文字別構成は、ひらがな 55%、漢字 35%、カタカナ 10% となっています。また日本語の文章にはアラビア数字やローマ字も使用されます。

文章に漢字を全く使用しないこともできますが、ほとんどの日本人にとって、そのような文章は理解が困難です。

韓国語のテキスト

韓国語テキストは、ハングルと呼ばれる表音文字で表されます。ハングルには、 jamos と呼ばれる母音と子音から成る 11,000 以上の文字があります。通常、韓国語のコンピュータシステムでは、全ハングル文字の内約 3,000 文字が使用されています。韓国語にはまた、ハンジャと呼ばれる中国の漢字から派生した表意文字があります。韓国語では 6,000 以上のハンジャ文字が必要です。ハンジャは主に、ハングルだけでは意味があいまいになる場合に使用されます。ハングル文字では子音と母音を組み合わせて 1 つの音節を構成します。結合された子音と母音は 1 つの音節としてハングル文字になります。ハングル文字は通常、四角く配列されており、ハンジャ文字と同じスペースを必要とします。韓国語では、アラビア数字、ローマ字、および特殊記号も表示されます。

タイ語のテキスト

タイ語の文字は、4 つの表示セルを持つディスプレイ上のカラム位置として定義されます。各カラム位置に表示できるのは最大 3 文字です。表示セルの構成内容はタイ文字の分類に基づいています。タイ文字の一部は、別の分類の文字と組み合わせることができます。組み合わされた文字は、同じセルに入ります。それ以外の場合は、別のセルに入ります。

中国語のテキスト

中国語は通常、表意文字である漢字ですべてを表記します。

語幹文字でない限り、通常 1 つの文字は 2 つ以上の部分で形成されます。最も一般的なのは 2 つの部分で形成されるものです。2 つの部分で構成される文字では、1 つが意味を表し、もう 1 つは発音を表すのが普通です。しかし、両方とも意味を表すこともあります。漢字では部首が最も重要な要素です。漢字は伝統的に部首によって分類され、部首の数は数百にものぼります。異なる文字で同じ読み方をするものも多数ありますが、使用する際は明確に区別されます。同じ文字で異なる読み方をするものもあります。

中国語には四声と呼ばれる声調があり、文脈の中で適切な文字を音声によって区別します。一方、日本語と韓国語には声調はありません。

中国語の発音を表す表音体系にはいくつかの種類があります。中華人民共和国で最も普及しているのはピンイン方式です。これはローマ字を使用するもので、広く西部で採用されており、たとえば北京を Beijing と表します。ウェードガイル方式は旧式のもので、北京を Peking と表すなど地名の表現に以前は使用されていました。 台湾では、独特の字体を持った表音用のアルファベットである zhuyin (bopomofo) がよく使用されます。

ヘブライ語のテキスト

スクリプトをヘブライ語やイディッシュ語で作成するときにヘブライ語のテキストが使用されます。ヘブライ語は双方向スクリプトを使用します。ヘブライ文字は右から左に読み書きされますが、数字は左から右に読まれます。さらに、ヘブライ語テキストに組み込まれた英語テキストも左から右に読まれます。

ヘブライ語では、27 文字のアルファベットのほかに、標準的なラテン (英語) アルファベットの句読点と数字が使用されます。ヘブライ語テキストには、さらに、母音と発音記号が付きます。これらの記号は、基本文字内のドット (dagesh) や、文字の下の母音記号、文字の左上のアクセント記号として使用されます。これらの記号は、通常、典礼のテキストとして使用されるだけで日常の生活ではほとんど使用されません。ヘブライ語には大文字はありません。

ヒンディー語のテキスト

ヒンディー語のテキストは、神の書き物を意味するデーバナーガリーというスクリプトで使用されます。ヒンディー語は表音言語であり、一連の音節として書かれます。各音節は、3 種類の子音文字、独立母音、従属母音の記号であるアルファベット部分 (デーバナーガリー文字) から構成されます。音節自体は子音と母音のコア部分から構成され、その前に子音が付くこともあります。基線から始まる英語とは異なり、デーバナーガリー文字は、文字の上部に引かれた水平線 (頭なで線) から垂れ下がります。これらの文字は、内容に応じて結合したり、形を変えたりします。ヘブライ語と同じように、ヒンディー語テキストには、大文字と小文字の区別はありません。