国際化対応言語環境の利用ガイド

第 1 章 Solaris 国際化の概要

この章では、国際化と地域対応に関する概要を説明します。

Solaris 9 製品の一部のロケールでは、Unicode および ISO/IEC 10646 で定義されている Unicode 3.1 が完全にサポートされています。Solaris 9 は、Sun の国際市場向けのメジャーリリースです。このリリースには新機能が数多く含まれています。

Solaris 9 オペレーティング環境は、当初から世界の言語に対応するように設計されてきました。グローバル化に対して差し替え可能なサービスベースアプローチをとる Solaris 国際化アーキテクチャでは、グローバルなアプリケーションや言語サービスの開発、導入、管理が容易になります。ユーザーは、便利な 1 つの多言語製品で 39 の言語と 162 のロケールという広範なサポートを得ることができます。これには、タイ語やヒンディー語などのサポートに必要な複雑なテキストレイアウト環境や、アラビア語やヘブライ語のような言語の双方向レイアウト環境のサポートが含まれます。

Solaris 国際化アーキテクチャでは、入力方式、文字集合のエンコーディング、コードセットの変換など、言語サービスの基本的な側面を、差し替え可能かつ柔軟な方法で処理できます。ユーザーは、すでにあるシステムの強力なツールを使用することも、独自の環境をカスタマイズすることもできます。さらに、標準的な API を使用するだけで、アプリケーションを複数の言語環境に導入できます。入力方式の仕組みがどのようなものであるかや、どのコードセットコンバータを有効にする必要があるかを知る必要はありません。ユーザーは、さらに、特定の言語属性をカスタマイズできます。このアーキテクチャでは、コンバータテーブルを変更したり、新しい入力方式エディタを追加したりすることができます。

Solaris X グローバル化フレームワークのソースコードが 2000 年の秋にオープンコミュニティにリリースされました。したがって、開発者は、共通の参照実装に準拠することによって (さらに、このコードベースの発展に参画することによって) 、グローバルアプリケーションの互換性や相互運用性を強化できます。このアーキテクチャではグローバル化に際してコードセットの独立性が保たれるため、独自のエンコーディング環境 (ネーティブ環境) を使用することも、拡大しつつある Unicode の世界に参画することもできます。 Solaris フレームワークでは、さまざまなエンコーディングやプラットフォーム間の相互運用性を保証する豊富なデータコンバータを使ってプラットフォームを移行することができます (たとえば、Microsoft Windows や Macintosh から)。

さらに、Solaris では、多国籍企業がサーバーの管理を世界レベルで運用できます。他社のプラットフォームとは異なり、Solaris プラットフォームでは、サービスベースのアプローチを使って言語サービスを管理します。サーバー管理者は、世界的なネットワークからリモートで言語サービスを有効にすることができます。クライアントシステムが何であるかは関係ありません。クライアントから独立したこのアプローチでは、クライアントアプリケーションを変更せずにシステムを簡単にアップグレードできます。たとえば、アラビア語を話すユーザーがパリのインターネットカフェでアラビア語の電子メールを読みたい場合には、ローカルのクライアントアプリケーションを変更しなくても、その電子メールを読むことができます。

新しい国際化機能と地域対応機能

次の機能は、Solaris 9 リリースから新たに提供される機能です。

タイ、インド、香港、トルコ、エジプト、ブラジル、フィンランド、ベルギー (ワロン語) 向けの新しい Unicode (UTF-8 ) ロケール
Unicode ロケールでの Latin-3 文字サポート
mp 印刷フィルタでの PCL サポート .
繁体字中国語 (香港) Big5+HKSCS ロケール (zh_HK.BIG5HK)
繁体字中国語 (香港) UTF-8 ロケール (zh_HK.UTF-8 )
タイ UTF-8 ロケール (th_TH.UTF-8)
タイ ISO8859–11 ロケール (th_TH.ISO8859–11 )
Unicode ロケールでのヒンディー語スクリプトサポート
ヒンディー UTF-8 ロケール (hi_IN.UTF-8)
ISCII iconv モジュール。ISCII と UTF-8 エンコーディング間の変換をサポートします。
アジア向け Solaris 用の照合ロケール
新しい zh_CN.GB18030 ロケール。新しい GB18030–2000 標準をサポートします。
HKSCS iconv モジュール
新しい中国語入力方式
タイ語入力方式の拡張
アジア向け Solaris の入力方式補助ウィンドウサポート
新しい日本語 iconv 変換モジュール – Fujitsu JEF、Hitachi KEIS、NEC JIPS
ユーロ通貨。ユーロ記号が国の通貨記号として定義されているのは、ユーロを使用するロケールだけです。他には、ISO8859-15 ロケールがユーロ記号をサポートします。
Unicode iconv の拡張モジュール。iconv モジュールは、さまざまな新しい Unicode エンコーディング形式や、国際および事実上の標準である業界標準コードセットのために追加され、拡張されてきました。
Unicode ロケールでの Unicode 3.1 サポート
ISO8859–16 用の新しい iconv コード変換のサポート

国際化と各国語対応の定義

国際化と各国語対応の手順は異なります。各国語対応 (localization) とはソフトウェアを特定の言語や地域に適応させる処理であるのに対し、国際化とはソフトウェアを異なる言語や地域の間で移植可能にする処理のことを指します。国際化されたソフトウェアの開発には、特定の文化的要件に応じて実行時にプログラムの動作を変えるインタフェースを使用します。各国語対応には、「ロケール」と呼ばれる言語や地域をサポートするためのオンライン情報を確立する処理が含まれます。

異なる言語や慣習に従って動作させるために完全に書き直す必要のあるソフトウェアとは異なり、国際化されたソフトウェアはそのような作業を必要としません。ソフトウェアが国際化されていれば、ロケールを入れ替える場合でもソフトウェアを変更する必要はありません。Solaris システムは国際化に対応しており、国際化ソフトウェアを作成する際に必要な基本構造やインタフェースを備えています。

国際化の基本的な手順

国際化されたアプリケーションの実行可能イメージは、異なる言語や地域の間で共有することができます。ソフトウェアを国際化する手順を次に示します。

このマニュアルに記載されているインタフェースを使用して、再コンパイルしなくても異なる環境に動的に対応できるソフトウェアを作成します。
ソフトウェアを実行可能なコードとメッセージに分離します。メッセージには、操作中に印刷または表示されるすべてのメッセージが含まれます。メッセージ文字列はメッセージカタログに格納します。

メッセージ文字列は、特定の言語や地域向けに翻訳されます。ロケールには、メッセージ文字列やソートで使用される手続きなどが含まれます。

ある製品の言語対応されたバージョンを使用する場合、ユーザーは特定の環境変数を設定します。これにより、メッセージは翻訳された形式で表示されます。日付、時刻、通貨、およびその他の情報は、ロケール固有の規約に従ってフォーマットおよび表示されます。メッセージ翻訳とオンラインヘルプの内容は、次の図で示すさまざまな層を通して提供されます。

図 1–1 Solaris オペレーティング環境下でのロケールの機能と構造

Solaris インタフェースの地域対応機能

OS ロケール層によって、アプリケーションの実行時に OS システムのインタフェースに差し込まれる基本的なロケールデータベースと機能が実現します。アプリケーションでは、標準的な API を通してこれらの OS ロケールモジュールにアクセスします。

X11 ロケール層によって、X11 アプリケーションがローカルのテキスト入力と表示ができるように、X 入力方式と X 出力方式へのインタフェースを実現します。アプリケーションがさまざまな言語の文字を表示できるように各種のフォントが用意されています。

CDE/Motif は、X11 ウィンドウシステムの上に構築されています。したがって、CDE/Motif は、X11 API を使って X11 ロケールの機能を使用できます。目標のロケール内部でデスクトップを機能させるため、Solaris の地域対応には、CDE アプリケーションに関するさまざまなロケール固有の設定があります。翻訳されたメッセージとオンラインヘルプの内容は、さまざまな層で提供されます。

ロケールとは

アプリケーションプログラムの主要な概念は、プログラムのロケールの概念です。ロケールとは、自国語環境の明示的なモデルであり、定義です。ロケールの概念は、ANSI C 言語規格のライブラリ定義で明示的に定義され、組み込まれています。

ロケールは、国ごとの書式やその他の指定に関する多くのカテゴリから構成されています。プログラムのロケールは、コードセット、日付と時間の形式の規定、通貨の規定、10 進数の書式の規定、照合 (ソート) 順を定義します。

ロケールは、基本言語、使用国 (地域)、オプションのコードセットから構成されています。コードセットは、通常、言語に応じて自動的に選択されます。たとえばドイツ語は Deutsch の略語である de です。一方、スイス系ドイツ語は de_CH です。CH は Confederation Helvetica の略語です。これによって、通貨単位の指定のような国ごとに固有の差異に対応することができます。

言語によっては複数のロケールを持つものもあり、地域によって異なることがあります。たとえば、アメリカ英語を使う場合は en_US ロケール (アメリカ英語) を、イギリス英語を使う場合は en_GB (イギリス英語) を選択できます。

通常、ロケール名は環境変数 LANG で指定します。ロケールのカテゴリは LANG に依存しますが、カテゴリ別に設定することも可能です (例、LC_TIME)。この場合、ロケールのカテゴリは LANG の設定に優先します。 LC_ALL オペランドが設定されている場合、LC_ALL の設定は LANG だけでなく、ロケールの個別のカテゴリに優先します。

ロケールの命名規則は次のとおりです。

language[_territory][. codeset] [@modifier]

2 文字の language コードは ISO 639 に、2 文字の territory コードは ISO 3166 にそれぞれ準拠します。 codeset は、ロケールで使用されているコードセットの名前です。 modifier は、このロケールと、修飾子のないロケールを区別する特徴を表す名前です。

Solaris 製品の全ロケールには、US-ASCII コード値を持つ移植可能な文字集合 (Portable Character Set) が含まれています。

移植可能な文字集合については、『X/Open CAE Specification: System Interface Definitions, Issue 5” (ISBN 1–85912–186–1)』を参照してください。

単一のロケールが複数のロケール名を持つ場合があります。たとえば、 POSIX は C と同じものです。

完全ロケールと部分ロケール

Solaris の「完全ロケール」は、ロケールとしてのすべての機能を備え、言語に対応した翻訳メッセージを含んでいます。部分ロケール は、言語に対応した翻訳メッセージを含んでいません。Solaris 環境のすべてのロケールは翻訳メッセージを表示できます。ただし、その言語に対応する翻訳メッセージがインストールされている必要があります。たとえば、次のロケールは、部分ロケールにも、完全ロケールにもなりえます。

de_DE.ISO8859–1
de_DE.ISO8859–15
de_DE.UTF-8
de_AT.ISO8859–1
de_AT.ISO8859–15
de_CH.ISO8859–1

LANGUAGES CD を使ってドイツ語のメッセージがインストールされている場合、上記のすべてのロケールは、完全に翻訳されたデスクトップにアクセスするので、完全ロケールになります。この LANGUAGES CD には、以下の言語に対する翻訳メッセージが入っています。

ドイツ語
フランス語
スペイン語
スウェーデン語
イタリア語
日本語
韓国語
簡体字中国語
繁体字中国語

部分ロケールはすべて SOFTWARE CD に格納されています。翻訳メッセージは LANGUAGES CD に格納されています。

英語ロケールはすべて完全ロケールであり、SOFTWARE CD に格納されています。

ロケールによって影響を受ける動作

文化が異なると、通常、日付、時刻、数値の形式、語句の区切り、引用符などの表記も異なります。システム全体では、ロケールは次の動作を指定します。

テキストデータのエンコーディングと処理
リソースファイルの言語とエンコーディングの識別
テキスト文字列の描画と配置
クライアント間のテキスト通信に使用されるテキストの交換
入力方式 (すなわち生成されるコードセット) の選択とテキストデータの処理
文化的に固有なフォントおよびアイコンファイル
アクションとファイルタイプ
ユーザーインタフェース定義 (UID) ファイル
日付と時間の書式
数値形式
通貨形式
照合順序
ロケール特有の正規表現処理
通知と診断のメッセージと対話型応答の形式

Solaris 環境は、言語と文化に依存する情報をアプリケーションから分離し、アプリケーションとは別に保存します。したがって、異なる市場ごとにアプリケーションの翻訳や手直し、再コンパイルを行う必要はありません。各言語および慣習に合わせて外部情報を言語対応化するだけで新規市場に参入することができます。

ロケールのカテゴリ

以下にロケールのカテゴリを示します。

LC_CTYPE: 文字処理関数の動作を制御します。
LC_TIME: 日付と時間の形式を指定します。指定には月の名前、曜日、一般的な完全表記と省略表記も含まれます。
LC_MONETARY: 通貨の形式を指定します。これには、そのロケールの通貨記号、千単位の区切り記号、符号の位置、小数位以下の桁数などが含まれます。
LC_NUMERIC: 小数位記号 (小数点)、千単位の区切り文字、グループ化を指定します。
LC_COLLATE: そのロケールの照合順序や、正規表現の定義を指定します。
LC_MESSAGES: 翻訳メッセージの言語を指定します。
LO_LTYPE: 言語のレンダリングに関する情報を提供する、配置 (レイアウト) エンジンを指定します。言語のレンダリング (またはテキストのレンダリング) は、テキストのシェイピングと方向設定から成ります。

ロケールのカテゴリを使用した各国語対応

製品の各国語対応は、対象となる言語や地域に密着したユーザーとともに進める必要があります。情報の特定のスタイルや形式が、開発者にとっては非常に明確であり、普遍的に見える場合でも、実際のユーザーにとっては奇妙であったり、正しくなかったり、状況によっては不快感を与えることもあるかもしれません。次の各項では、製品の地域対応を正しく行うために制御および指定できる Solaris オペレーティング環境の要素について個別に説明します。

時間の形式

次の表に、午後 11 時 59 分を表すいくつかの方法を示します。

表 1–1 国際的な時間の表記形式


ロケール	表記形式
カナダ (英語またはフランス語)	23:59
フィンランド語	23.59
ドイツ語	23.59 Uhr
ノルウェー語	23.59
タイ	23:59
イギリス	23:59

時間は、12 時間単位および 24 時間単位のどちらでも表すことができます。時間と分はコロン (:) またはピリオド (.) で区切ります。

国が異なる場合、または国によっては国内でも時間帯が異なることがあります。時間帯は通常、協定世界時 (UTC) またはグリニッジ標準時 (GMT) との時差で表現されますが、この時差は必ずしも整数であるとは限りません。たとえば、ニューファンドランド島の時間帯と隣接する時間帯との時差は 0.5 時間です。

夏時間 (DST) の実施期間も国によって異なっています。DST を全く導入していない国もたくさんあります。さらに、同じ時間帯の中で夏時間が異なる場合もあります。米国では、この決定権は州にあります。

日付の形式

次の表に、世界中で使用されている日付の表示形式をいくつか示します。は世界中で使用されている日付の表示形式の一部を示しています。ただし、各国内でさまざまな形式がある場合もあります。

表 1–2 国際的な日付の表記形式


ロケール	表記	例
カナダ (英語)	dd/mm/yy	24/08/01
デンマーク語	yyyy-mm-dd	2001–08–24
フィンランド語	dd.mm.yyyy	24.08.2001
フランス語	dd/mm/yyyy	24/08/2001
ドイツ語	yyyy-mm-dd	2001–08–24
イタリア語	dd/mm/yy	24/08/01
ノルウェー語	dd-mm-yy	24–08–01
スペイン語	dd-mm-yy	24-08-01
スウェーデン語	yyyy-mm-dd	2001-08-24
イギリス	dd/mm/yy	24/08/01
米国	mm-dd-yy	08-24-01
タイ	dd/mm/yyyy	24/08/2001

数値

イギリスと米国は小数位をピリオドで表す数少ない国の 2 つです。その他の多くの国ではピリオドの代わりにコンマを使用しています。小数位の切り記号は 小数点文字とも呼ばれます。同様に、イギリスと米国では千単位をコンマで区切るのに対し、他の国々では代わりにピリオドを用いたり、狭い空白文字で区切ったりしています。

データファイルにロケール固有の形式で格納されている場合、ロケールの異なるシステムに転送したときに正しく解釈されない可能性があります。たとえば、フランスの形式で数値を格納したファイルは、イギリス向けのプログラムでは使用できません。

次の表に、一般的な数値の表記形式を示します。

表 1–3 国際的な数値の表記形式


ロケール	大きな数値の表記
カナダ (英語)	4,294,967.00
デンマーク語	4.294 967.295,00
フィンランド語	4 294 967 295,00
フランス語	4 294 967 295,00
ドイツ語	4,294,967.00
イタリア語	4.294.967,00
ノルウェー語	4.294.967.295,00
スペイン語	4.294.967.295,00
スウェーデン語	4 294 967 295,00
イギリス	4,294,967,295.00
米国	4,294,967,295.00
タイ	4,294,967,295.00

注 –

並んでいる数を区切る方法を指定する特別なロケールの規則はありません。

通貨

通貨の単位や表記は世界中で大きく異なっています。国内での通貨記号と国際的に使われる通貨記号が異なっている場合があります。次の表に、いくつかの国の通貨形式を示します。

表 1–4 国際的な通貨の表記規則


ロケール	通貨	例
カナダ (英語)	ドル ($)	$1,234.56
カナダ (フランス語)	ドル ($)	1 234,56$
デンマーク語	クローネ (kr)	Kr 1.234,56
フィンランド語	ユーロ ()	1 234,56
フランス語	ユーロ ()	1,234
日本語	円 (¥)	¥ 1,234
ノルウェー語	クローネ (kr)	kr 1.234,56
スウェーデン語	クローナ (Kr)	1 234,56 Kr
イギリス	ポンド (£)	£1,234.56
米国	ドル ($)	$1,234.56
タイ	バーツ	2539 Baht
ユーロ	ユーロ ()	5,000

Solaris 9 ソフトウェアは、ユーロ通貨をサポートしています。現地通貨記号は、下位互換としてまだ使用できます。

表 1–5 ユーロ通貨をサポートするユーザーロケール


領域	ロケール名	ISO コードセット
オーストリア	`de_AT.ISO8859-15`	8859-15
ベルギー (フランス語)	`fr_BE.ISO8859-15`	8859-15
ベルギー (フラマン語)	`nl_BE.ISO8859-15`	8859-15
デンマーク	`da_DK.ISO8859-15`	8859-15
フィンランド	`fi_FI.ISO8859-15`	8859-15
フランス	`fr_FR.ISO8859-15`	8859-15
ドイツ	`de_DE.ISO8859-15`	8859-15
アイルランド	`en_IE.ISO8859-15`	8859-15
イタリア	`it_IT.ISO8859-15`	8859-15
オランダ	`nl_NL.ISO8859-15`	8859-15
ポルトガル	`pt_PT.ISO8859-15`	8859-15
カタロニア (スペイン語)	`ca_ES.ISO8859-15`	8859–15
エストニア	`et_EE.ISO8859–15`	8859–15
スペイン	`es_ES.ISO8859-15`	8859-15
スウェーデン	`sv_SE.ISO8859-15`	8859-15
イギリス	`en_GB.ISO8859–15`	8859-15
米国	`en_US.ISO8859-15`	8859-15

ユーロロケールは、ISO8859-15 コードセットに基づいています。

また、通貨を他の通貨に換算すると、金額の桁数が元の桁数と異なる場合があるので注意が必要です。たとえば、$1,000 をユーロに換算すると 1.307.000 になります。

ユーロ地域内のロケールの場合、ロケールの現在の設定値は locale ユーティリティの LC_MONETARY オペランドで表されます。たとえば、ドイツ語の場合は、次の表のようになります。

表 1–6 ドイツ語のロケールとその LC_MONETARY


ロケール	LC_MONETARY
`de_DE.ISO8859–1`	DM
`de_DE.ISO8859-15`	Euro
`de_DE.UTF-8`	Euro
`de_DE.ISO8859–15@euro`	Euro
`de_DE.UTF-8@euro`	Euro

語と文字の相違点

この節では、言語間の重要な相違点について説明します。

語の区切り

英語では、通常、語は空白文字で区切ります。ただし、中国語、日本語、タイ語などの言語では多くの場合、語を区切りません。

ソートの順序

特定の文字をソートする順序は言語によって異なります。たとえば、ドイツ語の文字 ö は普通の o と一緒にソートされますが、スウェーデン語ではアルファベットの最後の文字として別にソートされます。言語によっては、文字の優先順位を決めるために重みが定められています。たとえば、タイ語の辞書では、文字に異なる重みを与えることによってソート順序が決定されます。

文字集合

アルファベット文字や特殊文字の数は文字集合によって異なります。英語のアルファベットは 26 文字しかありませんが、それよりもずっと多くの文字を使用する言語もあります。たとえば、日本語には 20,000 以上の文字があり、中国語にはそれ以上の文字があります。

西ヨーロッパのアルファベット

西ヨーロッパ諸国のほとんどのアルファベットは英語圏の国で使用される 26 文字の標準アルファベットに類似しています。ただし、基本的な文字が追加されていたり、記号 (またはアクセント) の付いた文字や合字が使用される場合もあります。

日本語

日本語の文章には 3 種類の文字が混在しています。中国の漢字に由来する表意文字である漢字と、ひらがなとカタカナという 2 つの表音文字 (音節文字) です。

ひらがなとカタカナはそれぞれ対になっていますが、ひらがなのほうがより一般的で、丸みのある形をしています。漢字は語幹となる語を書くのに使用され、カタカナは主に外来語を書き記すのに使用されます。

漢字の数は数万もありますが、使用される漢字の数は徐々に減ってきています。現在、頻繁に使用される漢字の数は 3,500 字程度ですが、一般的な日本人の語彙に使用される漢字はおよそ 2,000 字ほどです。ただし、コンピュータシステムは日本工業規格 (JIS) で定められた 7,000 字以上の漢字に対応しなければなりません。また、170 文字ほどのひらがなとカタカナも必要です。日本語の文章の平均的な文字別構成は、ひらがな 55%、漢字 35%、カタカナ 10% となっています。また日本語の文章にはアラビア数字やローマ字も使用されます。

文章に漢字を全く使用しないこともできますが、ほとんどの日本人にとって、そのような文章は理解が困難です。

韓国語

韓国語は、ハングルと呼ばれる表音文字で表されます。ハングルには、 jamos と呼ばれる母音と子音からなる 11,000 以上の文字があります。通常、韓国語のコンピュータシステムでは、全ハングル文字の内約 3,000 文字が使用されています。韓国語にはまた、ハンジャと呼ばれる中国の漢字から派生した表意文字があります。韓国語では 6,000 以上のハンジャ文字が必要です。ハンジャは主に、ハングルだけでは意味があいまいになる場合に使用されます。ハングル文字では子音と母音を組み合わせて 1 つの音節を構成します。結合された子音と母音は 1 つの音節になります。これがハングル文字です。ハングル文字は通常、四角く配列されており、ハンジャ文字と同じスペースを必要とします。韓国語では、アラビア数字、ローマ字、および特殊記号も表示されます。

タイ語

タイ語の文字は、4 つの表示セルを持つディスプレイ上のカラム位置として定義されます。各カラム位置に表示できるのは最大 3 文字です。表示セルの構成内容はタイ文字の分類に基づいています。タイ文字の一部は、別の分類の文字と組み合わせることができます。組み合わされた文字は、同じセルに入ります。それ以外の場合は、別のセルに入ります。

中国語

中国語は通常、表意文字である漢字ですべてを表記します。

中華人民共和国 (PRC) の場合、GB2312 (zh ロケール) には一般によく使用されている約 7,000 の漢字があり、GBK 文字セット (zh.GBK ロケール) には 20,000 以上の文字があり、GB18030-2000 文字セット ( zh_CN.GB18030 ロケール) には約 30,000 の文字があります (Unicode 3.0 で定義されているすべての CJK 拡張 A 文字を含む)。
中華民国では、CNS11643-1992 (zh_TW ロケール) と Big5 (zh_TW.BIG5 ロケール) 文字集合が最もよく使用されています。どちらのロケールにも約 13,000 の Hanzi 文字が定義されています。
香港では、Big5 文字セットに 4,702 文字が追加された Big5-HKSCS charset (zh_HK.BIG5HK) が使用されています。

語幹文字でない限り、通常 1 つの文字は 2 つ以上の部分で形成されます。最も一般的なのは 2 つの部分で形成されるものです。2 つの部分で構成される文字では、1 つが意味を表し、もう 1 つは発音を表すのが普通です。しかし、両方とも意味を表すこともあります。漢字では部首が最も重要な要素です。漢字は伝統的に部首によって分類され、部首の数は数百にものぼります。異なる文字で同じ読み方をするものも多数ありますが、使用する際は明確に区別されます。同じ文字で異なる読み方をするものもあります。

中国語には四声と呼ばれる声調があり、文脈の中で適切な文字を音声によって区別します。一方、日本語と韓国語には声調はありません。

中国語の発音を表す表音体系にはいくつかの種類があります。中華人民共和国で最も普及しているのはピンイン方式です。これはローマ字を使用するもので、広く西部で採用されており、たとえば北京を Beijing と表します。ウェードガイル方式は旧式のもので、北京を Peking と表すなど地名の表現に以前は使用されていました。台湾では、独特の字体を持った表音用のアルファベットである zhuyin (bopomofo) がよく使用されています。

ヘブライ語のテキスト

英語より何千年も古いヘブライ語のテキストは、スクリプトをヘブライ語やイディッシュ語で作成するときに使用されます。ヘブライ語は双方向スクリプトの 1 つの例です。ヘブライ語では、ヘブライ文字は右から左に読み書きされますが、数字は左から右に読まれます。さらに、ヘブライ語テキストに組み込まれた英語テキストも左から右に読まれます。

ヘブライ語では、27 文字のアルファベットの他に、標準的なラテン (英語) アルファベットの句読点と数字が使用されます。ヘブライ語テキストには、さらに、母音と発音記号が付きます。これらの記号は、基本文字内のドット (Dagesh) や、文字の下の母音記号、文字の左上のアクセント記号として使用されます。これらの記号は、通常、典礼のテキストとして使用されるだけで日常の生活ではほとんど使用されません。ヘブライ語には、大文字はありません。

ヒンディー語のテキスト

ヒンディー語のテキストは、「神の書き物」を意味するデーバナーガリーというスクリプトで使用されます。ヒンディー語は表音言語であり、一連の音節として書かれます。各音節は、子音文字、独立母音、従属母音記号という 3 種類のアルファベット部分 (デーバナーガリー文字) から構成されます。音節自体は子音と母音のコア部分から構成され、その前に子音が付くこともあります。基線から始まる英語とは異なり、デーバナーガリー文字は、文字の上部に引かれた水平線 (頭なで線) から垂れ下がります。これらの文字は、内容に応じて結合したり、形を変えたりします。ヘブライ語と同じように、ヒンディー語テキストには、大文字と小文字の区別はありません。

キーボードの相違点

U.S. キーボードにあるすべての文字が他のキーボードにあるとは限りません。同様に、U.S. キーボードにはない文字のキーが他のキーボードに付いている場合もあります。

注 –

SPARC^TM マシンでは、Compose キーを使用すれば、区別的発音符が付いた任意のラテン文字を、サポートされる任意の ISO8859 文字セットの中に生成できます。

Compose キーは、ラテンベースのロケールで使用できますが、韓国語、中国語、日本語ロケールでは UTF-8 ロケールを除き使用できません。

入力は Solaris オペレーティング環境によって処理されるため、任意のロケールの文字を任意のキーボードから入力できます。

用紙サイズの相違点

それぞれの国で一般的に使用される用紙サイズの数は多くはありません。しかも、そのうちの 1 つが他よりも頻繁に使用されます。ほとんどの国は、 ISO 216 規格の「筆記用紙および印刷物の分類 - A 版と B 版の定型サイズ」に従っています。

国際化アプリケーションでは、使用可能なページサイズをあらかじめ想定するべきではありません。Solaris には、出力ページのサイズを管理する機能はありません。したがって、この機能は、アプリケーションプログラムで行う必要があります。次の表に、各国で一般に使用されているページサイズを示します。

表 1–7 一般的な国際ページサイズ


用紙の種類	寸法	採用している国
ISO A4	21.0 cm x 29.7 cm	米国以外
ISO A5	14.8 cm x 21.0 cm	米国以外
JIS B4	25.9 cm x 36.65 cm	日本
JIS B5	18.36 cm x 25.9 cm	日本
米国レター	8.5 インチ × 11 インチ	米国、カナダ
US リーガル	8.5 インチ × 14 インチ	米国、カナダ