アクセント
文字の発音を変更する記号。アクセントの一般的な意味は文字の強勢または強調に関連しているため、『Oracle Databaseグローバリゼーション・サポート・ガイド』では発音区別記号という用語を使用します。
「発音区別記号」も参照。
AL16UTF16
SQL NCHAR
データ型に使用されるデフォルトのOracleデータベースのキャラクタ・セットで、各国語キャラクタ・セットに使用されます。このキャラクタ・セットは、UnicodeデータをUTF-16エンコーディングでエンコードします。
「各国語キャラクタ・セット」も参照。
AL32UTF8
SQL CHAR
データ型に使用されるOracleデータベースのキャラクタ・セットで、データベース・キャラクタ・セットに使用されます。このキャラクタ・セットは、UnicodeデータをUTF-8エンコーディングでエンコードします。
ASCII
米国の情報交換標準コード。英語用のエンコードされた共通7ビット・キャラクタ・セット。ASCIIには、文字AからZとaからz、数字、句読点記号および制御文字が含まれます。Oracle Databaseのキャラクタ・セット名はUS7ASCIIです。
文字
テキストの抽象要素。文字は、その文字の特定の表現である絵文字とは異なります。たとえば、英大文字の最初の文字は、A
、A、Aのように表示されます。これらの形式は、同じ文字を表現する異なる絵文字です。文字、文字コードおよび絵文字には、次のような関連があります。
文字 --(エンコーディング)--> 文字コード --(フォント)--> 絵文字
たとえば、英大文字の最初の文字は、コンピュータのメモリーでは数値として表されます。この数値は、エンコーディングまたは文字コードと呼ばれます。英大文字の最初の文字の文字コードは、ASCIIコード体系では0x41で、EBCDICコード体系では0xc1です。
この文字を表示または印字するには、フォントを選択する必要があります。使用可能なフォントは、使用するコード体系によって異なります。たとえば、文字をA
、AまたはAとして印字または表示できます。これらの形式は、同じ文字を表現する異なる絵文字です。
文字コード
特定の文字を表現する番号。この番号はコード体系によって異なります。たとえば、英大文字の最初の文字の文字コードは、ASCIIコード体系では0x41ですが、EBCDICコード体系では0xc1です。
「文字」も参照。
キャラクタ・セット
特定の言語または言語グループのテキスト情報を表す要素の集まり。1つの言語を複数のキャラクタ・セットで表現できます。
キャラクタ・セットは、必ずしも特定の文字コード体系を示すわけではありません。文字コード体系は、キャラクタ・セットの各文字に対する文字コードの割当てです。
このマニュアルでは、通常、キャラクタ・セットは特定の文字コード体系を示しています。したがって、このマニュアルでは、キャラクタ・セットとエンコードされたキャラクタ・セットは同じです。
クライアント・キャラクタ・セット
クライアントで使用される、エンコードされたキャラクタ・セット。クライアント・キャラクタ・セットは、サーバーのキャラクタ・セットとは異なる場合があります。サーバーのキャラクタ・セットは、データベース・キャラクタ・セットと呼ばれます。クライアント・キャラクタ・セットがデータベース・キャラクタ・セットと異なる場合は、キャラクタ・セット変換が必要です。
コード・ポイント
キャラクタ・セットの1文字の数値表現。たとえば、ASCIIキャラクタ・セットでは、A
のコード・ポイントは0x41です。文字のコード・ポイントは、その文字のエンコーディング値とも呼ばれます。
コード単位
エンコードされたテキストを処理および交換する単位。コード単位のサイズは、文字コード体系に応じて異なります。ほとんどの文字エンコーディングでは、コード単位は1バイトです。ただし、UTF-16とUCS-2の場合は2バイトのコード単位が使用され、ワイド・キャラクタの場合は4バイトが使用されます。
「文字コード体系」も参照。
照合
特定のロケールの言語に関連付けられた文字のソートに関する規則に従って文字列を順序付けすること。言語ソートとも呼ばれます。
「言語ソート」、「単一言語ソート」、「多言語ソート」、「アクセントを区別しない言語ソート」、「大/小文字を区別しない言語ソート」も参照。
データベース・キャラクタ・セット
テキストをデータベースに格納するために使用される、エンコードされたキャラクタ・セット。CHAR
、VARCHAR2
、LONG
および固定幅のCLOB
列の値と、すべてのSQLおよびPL/SQLテキストが含まれます。
発音区別記号
文字または文字列の上または下にある記号で、それが付いていない場合の文字とは発音が異なることを示します。たとえば、façade
の場合、セディラは発音区別記号です。セディラが付いている場合は、c
の発音が変化します。
エンコードされたキャラクタ・セット
文字コード体系が関連付けられているキャラクタ・セット。エンコードされたキャラクタ・セットは、各文字に割り当てる番号(文字コード)を指定します。
「文字コード体系」も参照。
エンコーディング値
キャラクタ・セットの1文字の数値表現。たとえば、ASCIIキャラクタ・セットでは、A
のコード・ポイントは0x41です。文字のエンコーディング値は、その文字のコード・ポイントとも呼ばれます。
グローバリゼーション
ソフトウェアを多様な言語および文化の環境に適したものにするプロセス。グローバリゼーションとローカライゼーションは異なるものであり、ローカライゼーションとは、ソフトウェアをある固有のロケールで使用できるように準備するプロセスです(たとえば、ある言語から他の言語へのエラー・メッセージやユーザー・インタフェースの翻訳)。
絵文字
文字の固有の表現。1つの文字は、多数の異なる絵文字を持つことができます。たとえば、英大文字の最初の文字は、A
、A、Aのように印字または表示されます。これらの形式は、同じ文字を表現する異なる絵文字です。
「文字」も参照。
ISO 8859
8ビットのエンコードされたキャラクタ・セット・ファミリ。最も一般的なものは、ISO 8859-1(ISO Latin-1として知られています)で、西ヨーロッパ諸国で使用されています。
ISO/IEC 10646
現在、世界で使用されているほとんどの主要文字を定義しているユニバーサル・キャラクタ・セットの規格。1993年には、ISOによってUnicodeバージョン1.1がISO/IEC 10646-1:1993として承認されています。ISO/IEC 10646には、2バイト固定幅形式のUCS-2と4バイト固定幅形式のUCS-4があります。実装には3つのレベルがあり、すべてのレベルは複合文字のサポートに関係します。
レベル1では、複合文字をサポートする必要はありません。
レベル2では、特定の文字(アラビア文字、タイ文字などのほとんどのUnicode文字を含む)をサポートする必要があります。
レベル3では、あらゆる言語の複合文字を無制限にサポートする必要があります。
ISO Latin-1
ISO 8859-1キャラクタ・セット規格。ASCIIに対する8ビット拡張機能で、西ヨーロッパで最も頻繁に使用される共通のラテン文字を含む128文字が追加されています。Oracle Databaseのキャラクタ・セット名は、WE8ISO8859P1です。
「ISO 8859」も参照。
ローカライゼーション
言語固有または文化固有の情報をソフトウェア・システムに提供するプロセス。アプリケーションのユーザー・インタフェースの翻訳は、ローカライゼーションの1つの例です。ローカライゼーションとグローバリゼーションは異なるものです。グローバリゼーションとは、ソフトウェアを多様な言語および文化的な環境に適したものにすることです。
単一言語ソート
文字列を2つのレベルで比較するOracleデータベースのソート。単一言語ソートを使用すると、ヨーロッパ地域の大半の言語はソートできますが、アジア地域の言語には不向きです。
「多言語ソート」も参照。
マルチバイト
2バイト以上であること。
特定の言語(または言語グループ)のすべての文字に対して文字コードが割り当てられた場合は、1バイト(8ビット)では256の異なる文字を表現できます。2バイト(16ビット)では、65,536の異なる文字を表現できます。すべての文字を表現するために、2バイトでは不十分な言語も多いです。一部の文字には3または4バイト必要です。
たとえば、UnicodeのUTF8エンコーディングがあります。UTF8には、多数の2バイトおよび3バイトの文字があります。
また、台湾で使用する繁体字中国語もこの例の1つ。この言語では、80,000以上の文字が使用されます。台湾で使用されている一部の文字コード体系は、4バイトを使用して文字をエンコードします。
「シングルバイト」も参照。
マルチバイト・キャラクタ
ある文字コード体系で、2バイト以上の文字コードから構成される文字。
コード体系が異なると、同じ文字に異なる文字コードが対応する場合があります。使用している文字コード体系が不明な場合、Oracleデータベースでは文字がマルチバイト・キャラクタであるかどうかを判断できません。たとえば、日本語の半角カタカナ文字は、JA16SJISのエンコードされたキャラクタ・セットでは1バイト、JA16EUCでは2バイト、UTF8では3バイトです。
「シングルバイト文字」も参照。
マルチバイト・キャラクタ文字列
次のいずれかの文字列で構成される文字列。
文字なし(ヌル文字列と呼ばれます)
1つ以上のシングルバイト文字
1つ以上のシングルバイト文字と1つ以上のマルチバイト文字の混合
1つ以上のマルチバイト文字
多言語ソート
3つのレベルで文字列を評価するOracleデータベースのソート。アジア言語の場合は、1言語によるデータしか存在しない場合にも、多言語ソートが必要です。多言語ソートは、複数言語によるデータが存在する場合にも使用されます。
NLBファイル
ロケール固有のデータを定義するためにLocale Builderが使用するバイナリ・ファイル。このファイルでは、特定リリースのOracle Databaseに付属するロケール定義がすべて定義されます。Oracle Locale Builderを使用すると、ユーザー定義のNLBファイルを作成できます。
NLS
National Language Support。NLSによって、ユーザーは母国語でデータベースと対話できます。さらに、アプリケーションを様々な言語および文化の環境で実行できます。Oracleデータベースはかつて複数のグローバル・ユーザーをサポートしていたため、この用語は幾分古いです。
NLSRTL
National Language Supportランタイム・ライブラリ。このライブラリは、ロケールに依存しない国際化に関するアルゴリズムを提供します。ロケール固有の情報(つまり、NLSDATA)は、実行中にNLSRTLライブラリによって読み込まれます。
Oracle Locale Builder
ロケール固有のデータを表示、変更または定義する方法を提供するGUIユーティリティ。言語、地域、キャラクタ・セットおよび言語ソートについて、独自の形式を作成することもできます。
制限付き多言語サポート
関連する言語のグループに制限された多言語サポート。西ヨーロッパ諸国の言語は、ISO 8859-1などで表現されます。多言語サポートが制限付きの場合、タイ語は言語グループに追加できません。
スクリプト
特定の書記体系。書記体系で使用される、関連する図形記号の集まり。スクリプトの中には複数の言語を表現できるものもあり、言語の中には複数のスクリプトを使用するものもあります。スクリプトの例として、ラテン文字、アラビア文字および漢字があります。
シングルバイト
1バイト。1バイトは、通常8ビットで構成されます。特定の言語のすべての文字に文字コードを割り当てる場合、1バイト(8ビット)では256の異なる文字を表現できます。
「マルチバイト」も参照。
シングルバイト文字
ある文字コード体系で、1バイトの文字コードで構成される文字。コード体系が異なると、同じ文字に異なる文字コードが対応する場合があります。使用しているコード体系が不明な場合、Oracle Databaseではどの文字がシングルバイト文字であるかを判断できません。たとえば、ユーロ通貨記号は、WE8MSWIN1252のエンコードされたキャラクタ・セットでは1バイト、AL16UTF16では2バイト、UTF8では3バイトです。
「マルチバイト・キャラクタ」も参照。
補助文字
Unicodeの最初のバージョンは16ビットの固定幅エンコーディングで、各文字のエンコーディングに2バイトを使用していました。このため、65,536文字を表現できました。しかし、アジア言語の多数の表意文字の関係で、より多くの文字のサポートが必要となっています。
Unicode 3.1では、このニーズを満たすために補助文字が定義されていました。Unicode 3.1では、2つの16ビット・コード単位(サロゲート・ペアとも呼ばれます)を使用して、1つの文字が表現するようになりました。このため、さらに1,048,576文字の定義が可能でした。Unicode 3.1規格には、最初のグループとして44,944文字の補助文字が追加されました。Unicode 4.0でも補助文字が追加され、Unicode 5.0ではさらに1,369文字が追加されました。
UCS-2
1993 ISO/IEC規格のキャラクタ・セット。固定幅の16ビットUnicodeキャラクタ・セットです。各文字は16ビットの領域を持ちます。ISO Latin-1文字は最初の256コード・ポイントであり、ISO Latin-1の16ビット拡張とみなすことができます。
UCS-4
固定幅の32ビットUnicodeキャラクタ・セット。各文字は32ビットの領域を持ちます。UCS-2の文字はこの規格の最初の65,536コード・ポイントであるため、UCS-2の32ビット拡張とみなすことができます。ISO-10646と呼ばれる場合もあります。
Unicode
エンコードされたユニバーサル・キャラクタ・セットのことで、1つのキャラクタ・セットを使用して任意の言語の情報を格納できます。Unicodeでは、プラットフォーム、プログラムまたは言語に関係なく、すべての文字に一意のコード値が指定されます。
Unicodeデータ型
SQL NCHAR
データ型(NCHAR
、NVARCHAR2
およびNCLOB
)。データベース・キャラクタ・セットがUnicodeでない場合も、これらのデータ型の列にUnicode文字を格納できます。
無制限多言語サポート
要求に応じて多数の言語を使用するための機能。Unicodeなどのユニバーサル・キャラクタ・セットを使用すると、無制限に多言語をサポートできるようになります。ユニバーサル・キャラクタ・セットでは大規模な文字レパートリをサポートしています。この文字レパートリには世界のほとんどの現代語が含まれています。
UTF8
UTF8 Oracleデータベース・キャラクタ・セットは、文字を1バイト、2バイトまたは3バイトでエンコードします。ASCIIベースのプラットフォーム用です。UTF8キャラクタ・セットはUnicode5.0をサポートし、CESU-8規格に準拠しています。Unicode 3.1では、特定の補助文字にコード・ポイントが割り当てられていませんでしたが、Unicode 3.0では補助文字用のコード・ポイント範囲が割り当てられていました。補助文字は、6バイトを占める2つの別個のユーザー定義文字として処理されます。
UTF-8
Unicodeの8ビット・エンコーディング。可変幅エンコーディングです。UTF-8エンコーディングでは、1つのUnicode文字を、1バイト、2バイト、3バイトまたは4バイトで表すことができます。ヨーロッパ言語の文字は、1バイトまたは2バイトで表します。ほとんどのアジア言語の文字は、3バイトで表します。補助文字は、4バイトで表します。UTF-8をサポートするOracleデータベース・キャラクタ・セットはAL32UTF8です。
UTF-16
Unicodeの16ビット・エンコーディング。UCS-2の拡張であり、UCS-2コード・ポイントのペアを使用して、Unicodeに定義されている補助文字をサポートします。UTF-16エンコーディングでは、1つのUnicode文字を、2バイトか4バイトで表すことができます。ヨーロッパ言語とほとんどのアジア言語の文字(ASCII文字を含む)は、ともに2バイトで表します。補助文字は、4バイトで表します。UTF-16をサポートするOracleデータベース・キャラクタ・セットはAL16UTF16です。