国際化対応言語環境の利用ガイド

ロケールのカテゴリを使用した各国語対応

製品の各国語対応は、対象となる言語や地域に密着したユーザーとともに進める必要があります。特定のスタイルや情報の形式が、開発者にとっては非常に明確であり、普遍的に見える場合でも、実際のユーザーにとっては奇妙であったり、正しくなかったり、状況によっては不快感を与えることもあるかもしれません。ここでは、製品を正しく国際化するために、Solaris オペレーティング環境により制御および指定できる各要素について説明します。

時間の形式

表 1-1 に、午後 11 時 59 分を表すいくつかの方法を示します。

表 1-1 国際的な時間の表記形式


ロケール	表記形式
カナダ (英語またはフランス語)	23:59
フィンランド語	23.59
ドイツ語	23.59 Uhr
ノルウェー語	Kl 23.59
タイ語	11:59 PM
イギリス英語	11.59 PM

時間は、12 時間単位および 24 時間単位のどちらでも表すことができます。時間と分はコロン (:) またはピリオド (.) で区切ります。

国が異なる場合、または国によっては国内でも時間帯が異なることがあります。時間帯は通常、グリニッジ標準時 (GMT) との時差で表現されますが、この時差は必ずしも整数であるとは限りません。たとえば、ニューファンドランド島の時間帯と隣接する時間帯との時差は 0.5 時間です。

夏時間 (DST) の実施期間も国によって異なっています。

日付の形式

表 1-2 は世界中で使用されている日付の表示形式の一部を示しています。ただし、各国内でさまざまな形式がある場合もあります。

表 1-2 国際的な日付の表記形式


ロケール	表記	例
カナダ (英語およびフランス語)	yyyy-mm-dd	1998-08-13
デンマーク語	yyyy-mm-dd	1999-08-24
フィンランド語	dd.mm.yyyy	13.08.1998
フランス語	dd/mm/yyyy	13/08/1999
ドイツ語	yyyy-mm-dd	1999-09-18
イタリア語	dd.mm.yy	13.08.98
ノルウェー語	dd.mm.yy	13.08.98
スペイン語	dd-mm-yy	13-08-98
スウェーデン語	yyyy-mm-dd	1998-08-13
イギリス英語	dd/mm/yy	13/08/98
アメリカ英語	mm-dd-yy	08-13-98
タイ語	dd/mm/yyyy	10/12/2009

数値

小数位と千単位の区切り文字

イギリスと米国では小数位を表すのにピリオドを使用しますが、その他の多くの国々ではピリオドの代わりにコンマを使用しています。小数位の区切り文字は小数点とも呼ばれます。同様に、イギリスと米国では千単位をコンマで区切るのに対し、他の国々では代わりにピリオドを用いたり、狭い空白文字で区切ったりしています。表 1-3 に、一般的な数値の表記形式を示します。

表 1-3 国際的な数値の表記形式


ロケール	大きな数値の表記
カナダ (英語およびフランス語)	4 294 967 295,000
デンマーク語	4.294.967.295,000
フィンランド語	4.294.967.295,000
フランス語	4.294.967.295,000
ドイツ語	4 294 967 295,000
イタリア語	4.294.967.295,000
ノルウェー語	4.294.967.295,000
スペイン語	4.294.967.295,000
スウェーデン語	4.294.967.295,00
イギリス英語	4,294,967,295.00
アメリカ英語	4,294,967,295.00
タイ語	4,294,967,295.00

データファイルにロケール固有の形式で格納されている場合、ロケールの異なるシステムに転送したときに正しく解釈されない可能性があります。たとえば、フランスの形式で数値を格納したファイルは、イギリス向けのプログラムでは使用できません。

並びの区切り文字

並んでいる数を区切る方法を指定する特別なロケールの規則はありません。並んでいる数は、イギリスや米国ではコンマで区切られますが、空白文字やセミコロンを使って区切るほうが一般的です。

通貨

通貨の単位や表記は世界中で大きく異なっています。表 1-4 にいくつかの国の通貨形式を示します。

表 1-4 国際的な通貨の表記規則


ロケール	通貨	例
カナダ (英語)	ドル ($)	$1 234.56
カナダ (フランス語)	ドル ($)	1 234.56$
デンマーク語	クローネ (kr)	kr 1.234,56
フィンランド語	マルッカ (mk)	1 234,56 mk
フランス語	フラン (F)	1.234,56 F
ドイツ語	ドイツマルク (DM)	DM 1.234,56
イタリア語	リラ (L)	L1.234,56
日本語	円	41,234 Yen
ノルウェー語	クローネ (kr)	kr 1.234,56
スペイン語	ペセタ (Pts)	1.234,56Pts
スウェーデン語	クローナ (Kr)	1.234,56 Kr
イギリス英語	ポンド	31,234.56 pounds
アメリカ英語	ドル ($)	$1,234.56
タイ語	バーツ	2539 Baht
ユーロ	EUR	400,00

注 -

国内での通貨記号と国際的に使われる通貨記号が異なっている場合があります。たとえば、フランスの通貨フランはフランス国内では F で示しますが、国際的にはスイスフランやポリネシアフランと区別するために FRF と表記される場合があります。

注 -

ユーロロケールは、ISO8859-15 文字セットに基づいています。使用可能なロケールについては、「ヨーロッパの地域対応」を参照してください。

また、通貨を他の通貨に換算すると、金額の桁数が元の桁数と異なる場合があるので注意が必要です。たとえば、$1,000 をリラに換算すると L1.307.000 になります。

語と文字の相違点

語の区切り

英語では、語は空白文字で区切ります。ただし、中国語、日本語、タイ語などの言語では多くの場合、語を区切りません。

ソートの順序

特定の文字をソートする順序は言語によって異なります。たとえば、ドイツ語の文字旦は普通の o と一緒にソートされますが、スウェーデン語ではアルファベットの最後の文字として別にソートされます。言語によっては、文字の優先順位を決めるために重みが定められています。たとえば、タイ語の辞書では、文字に異なる重みを与えることによってソート順序が決定されます。

文字集合

文字の数

英語のアルファベットは 26 文字しかありませんが、256 以上の文字を使用する言語もあります。たとえば、日本語には 40,000 以上の文字があり、中国語にはそれ以上の文字があります。

西ヨーロッパのアルファベット

西ヨーロッパ諸国のほとんどのアルファベットは英語圏の国で使用される 26 文字の標準アルファベットに類似しています。ただし、基本的な文字が追加されていたり、記号 (またはアクセント) の付いた文字や合字が使用される場合もあります。

日本語

日本語の文章には 3 種類の文字が混在しています。中国の漢字に由来する表意文字である漢字と、ひらがなとカタカナという 2 つの表音文字 (音節文字) です。

ひらがなとカタカナはそれぞれ対になっていますが、ひらがなのほうがより一般的で、丸みのある形をしています。漢字は語幹となる語を書くのに使用され、カタカナは主に外来語を書き記すのに使用されます。

漢字の数は数万もありますが、使用される漢字の数は徐々に減ってきています。現在、頻繁に使用される漢字の数は 3,500 字程度ですが、一般的な日本人の語彙に使用される漢字はおよそ 2,000 字ほどです。ただし、コンピュータシステムは日本工業規格 (JIS) で定められた 7,000 字以上の漢字に対応しなければなりません。また、170 文字ほどのひらがなとカタカナも必要です。日本語の文章の平均的な文字別構成は、ひらがな 55%、漢字 35%、カタカナ 10% となっています。また日本語の文章にはアラビア数字やローマ字も使用されます。

漢字をまったく使用しないことも可能ですが、ほとんどの日本人にとっては漢字かな混じり文のほうが容易に理解できます。

韓国語

韓国語は、ハングルと呼ばれる表音文字で表されます。ハングルには 11,000 以上の文字があり、19 の子音と 21 の母音で構成されます。これ以外に、27 のオプションの子音があります。通常、韓国語のコンピュータシステムでは、全ハングル文字の内約 3,000 文字が使用されています。韓国語にはまた、ハンジャと呼ばれる中国の漢字から派生した表意文字があります。韓国語では 6,000 以上のハンジャ文字が必要です。ハンジャは主に、ハングルだけでは意味があいまいになる場合に使用されます。ハングル文字では子音と母音を組み合わせて 1 つの音節を構成します。ハングル文字は通常、四角く配列されており、ハンジャ文字と同じスペースを必要とします。韓国語では、アラビア数字、ローマ字、および特殊記号も表示されます。

タイ語

タイ語の文字は、4 つの表示セルを持つディスプレイ上のカラム位置として定義されます。各カラム位置に表示できるのは最大 3 文字です。表示セルの構成内容はタイ文字の分類に基づいています。タイ文字の一部は、別の分類の文字と組み合わせることができます。組み合わされた文字は、同じセルに入ります。それ以外の場合は、別のセルに入ります。

中国語

中国語は通常、表意文字である漢字ですべてを表記します。中華人民共和国 (PRC) では、GB2312 (zh ロケール) にある約 7,000 の漢字が一般的に使用されており、この他にも GBK (zh.GBK ロケールにある 20,000 を超える文字があります。台湾では、現在の規格で必要とされる漢字の数は 13,000 文字以上で、さらに 6,000 の漢字が最近規格化されましたが、頻繁に使用されることはありません。

語幹文字でない限り、通常 1 つの文字は 2 つ以上の部分で形成されます。最も一般的なのは 2 つの部分で形成されるものです。2 つの部分で構成される文字では、1 つが意味を表し、もう 1 つは発音を表すのが普通ですが、両方とも意味を表すこともあります。漢字では部首が最も重要な要素です。漢字は伝統的に部首によって分類され、部首の数は数百にものぼります。異なる文字で同じ読み方をするものも多数ありますが、使用する際は明確に区別されます。同じ文字で異なる読み方をするものもあります。

中国語には四声と呼ばれる声調があり、文脈の中で適切な文字を音声によって区別します。一方、日本語と韓国語には声調はありません。

中国語の発音を表す表音体系にはいくつかの種類があります。中華人民共和国で最も普及しているのはピンイン方式です。これはローマ字を使用するもので、広く西部で採用されており、たとえば北京を Beijing と表します。ウェードガイル方式は旧式のもので、北京を Peking と表すなど地名の表現に以前は使用されていました。台湾では、独特の字体を持った表音用のアルファベットである zhuyin (bopomofo) がよく使用されています。

商用アプリケーション、特に人名を扱うアプリケーションでは、コードセットの拡張の影響を考慮する必要があります。中国語の多くの名前には、標準コードセットに存在しない文字が含まれています。この問題に対応するために、割り当てられていないコードセット用に、スペースを提供する必要があります。