Oracle® Solaris 11.2 国際化対応言語環境の利用ガイド

印刷ビューの終了

更新: 2014 年 7 月
 
 

文字セット

各文字セットに含まれるアルファベット文字や特殊文字の数は、それぞれ異なります。英語のアルファベットには 26 文字しか含まれていませんが、一部の言語にはより多くの文字が含まれています。たとえば、日本語には 20,000 個を超える文字が含まれ、中国語にはさらに多くの文字が含まれる可能性があります。

西ヨーロッパのアルファベット

西ヨーロッパのほとんどの国のアルファベットは、英語を話す各国で使用されている 26 文字から成る標準アルファベットに似ています。これらのアルファベットにはしばしば、若干の追加基本文字、記号またはアクセント付きの文字、および合字も含まれます。

日本語のテキスト

日本語のテキストは、互いに混在する異なる 3 つの文字から構成されます。

  • 中国語から派生した表意文字の漢字

  • ひらがなとカタカナという 2 つの表音文字 (または音節文字)

ひらがなの各文字に対応する文字がカタカナにもありますが、ひらがながもっとも一般的な文字であり、角張った字体ではなく丸みを帯びた字体を備えています。漢字は、根源的な単語を書くときに使用されます。カタカナは通常、「外来」語、つまり日本語以外の言語から輸入された単語を表現するために使用されます。

漢字には数万個の文字が含まれますが、一般的に使用される文字の数は、年を経るごとに着実に減少しています。現在では、頻繁に使用される文字は約 3500 個のみですが、平均的な日本人執筆者は、約 2000 個の漢字から成る語彙を持ちます。それでも、コンピュータシステムは日本工業規格 (JIS) の要件に従って、7000 個を超える文字をサポートする必要があります。さらに、ひらがなとカタカナの文字が約 170 個存在しています。平均して、日本語テキストの 55% がひらがな、35% が漢字、10% がカタカナとなっています。また、日本語テキストには、アラビア数字やローマ字も存在しています。

漢字の使用を完全に避けることも可能ですが、ほとんどの日本人読者は、漢字以外の文字だけで構成されたテキストを、理解しづらいと感じます。

韓国語のテキスト

韓国語のテキストは、ハングルと呼ばれる表音筆記体系を使って書くことができます。ハングルには 11,000 個を超える文字が含まれていますが、それらの文字は、jamos と呼ばれる子音字と母音字から構成されます。韓国語のコンピュータシステムでは通常、ハングル文字の語彙全体のうちの約 3000 文字が使用されます。韓国語では、中国で発明されたセットに基づく、ハンジャと呼ばれる表意文字も使用されます。韓国語のテキストでは、6000 個を超えるハンジャ文字が必要となります。ハンジャは通常、ハングルではあいまいになる場合に、混乱を避けるために使用されます。ハングル文字は、子音字と母音字を組み合わせることで形成されます。これらの文字を組み合わせたものは、1 つの音節を構成できるようになり、それが、1 つのハングル文字となります。通常、ハングル文字は四角の形に構成されるため、その集合体はハンジャ文字と同じスペースを占有します。また、韓国語テキストには、アラビア数字、ローマ字、および特殊記号文字も存在しています。

タイ語のテキスト

タイ語の文字は、ディスプレイ画面上の、4 つのディスプレイセルを備えた 1 つのカラム位置として定義できます。各カラム位置には最大 3 つの文字を含めることができます。1 つのディスプレイセルの構成は、タイ文字の分類に基づきます。タイ語の文字の中には、別の文字の分類と合成できるものもあります。両方の文字が互いに合成可能な場合は、両方の文字が同じセル内に存在します。それ以外の場合、それらは異なるセル内に存在します。

中国語のテキスト

中国語は通常、漢字と呼ばれる表意文字に含まれる文字だけで構成されます。

  • 中華人民共和国の場合、GB2312 (zh_CN.EUC ロケール) に約 7000 個の一般的に使用される漢字が、GBK 文字セット (zh_CN.GBK ロケール) に 20,000 個を超える文字が、そして Unicode 6.0 で規定されたすべての CJK 統合漢字拡張 A 文字を含む GB18030-2000 文字セット (zh_CN.GB18030 ロケール) に約 30,000 個の文字が、それぞれ存在しています。

  • 台湾の場合、もっとも頻繁に使用される文字セットは、CNS11643-1992 (zh_TW.EUC ロケール) と Big5 (zh_TW.BIG5 ロケール) です。これらは約 13,000 個の漢字を共有しています。

  • 香港では、Big5 文字セットに 4702 個の文字が追加され、Big5-HKSCS 文字セット (zh_HK.BIG5HK ロケール) となりました。

ある文字が根源的な文字でない場合、その文字は通常 2 つ以上の部分から構成されますが、2 つの場合がもっとも一般的です。2 つの部分から成る文字では、一方の部分が一般に意味を表し、他方が発音を表します。時には両方の部分が意味を表す場合もあります。もっとも重要な要素は部首であり、文字は従来部首に基づいて整理されますが、その部首は数百個存在しています。単一の音が多数の異なる文字によって表現される可能性がありますが、それらの文字は、使用上交換可能ではありません。単一の文字が複数の音を持つこともあります。

ある特定の文脈では、一部の文字がほかの文字よりも適しています。適切な文字は、声調を使用して音声上区別されます。これに対し、話し言葉の日本語や韓国語には、声調はありません。

中国語を表す表音体系はいくつかあります。中華人民共和国でもっとも一般的なのは、ローマ字を使用するピンインであり、Beijing のような地名として西洋で広く採用されています。ウェードガイル体系は、Peking のような地名として以前使用されていた古い表音体系です。台湾では通常、独自の字体を持つ表音アルファベットの一種である zhuyin (または bopomofo) が代わりに使用されます。

ヘブライ語のテキスト

ヘブライ語のテキストは、ヘブライ語やイディッシュ語の文字を書くときに使用されます。ヘブライ語では双方向の文字が使用されます。ヘブライ語では、文字は右から左に読み書きしますが、数字は左から右に読み取ります。ヘブライ語テキストに埋め込まれた英語テキストもすべて、左から右に読み取ります。

ヘブライ語では、27 文字のアルファベットが使用され、句読記号や数字については標準ラテン語 (または英語) のアルファベットから流用されます。ヘブライ語テキストには母音記号や発音記号も含まれます。これらの記号は、基本文字の内側のドット (dagesh)、文字の下の母音記号、文字の左上のアクセントのいずれかとして現れます。これらの記号は一般に典礼テキストで使用されるだけであり、日常の用途で見かけることはほとんどありません。ヘブライ語には大文字は一切含まれません。

ヒンズー語のテキスト

ヒンズー語のテキストは、デーバナーガリーと呼ばれる文字で書かれます。ヒンズー語は表音言語であり、一連の音節として書かれます。各音節は、子音字、独立母音字、従属母音記号という、アルファベット形式の 3 種類の部分 (デーバナーガリー文字) から構築されます。音節自体は子音字と母音字のコアから構成され、オプションでその先頭に子音字が付けられます。デーバナーガリー文字は、基底線から始まる英語と異なり、文字の最上部に書かれる水平線 (ヘッドストローク) から垂れ下がります。これらの文字は、文脈に応じて結合したり、形が変わったりする可能性があります。ヒンズー語のテキストではヘブライ語の場合と同じく、大文字と小文字の区別は一切ありません。