用語集

アクセント

文字の発音を変更する記号。アクセントの一般的な意味は文字の強勢または強調に関連しているため、『Oracle Databaseグローバリゼーション・サポート・ガイド』では発音区別記号という用語を使用します。

「発音区別記号」も参照。

アクセントを区別しない言語ソート

発音区別記号や大/小文字ではなく、ベース文字に関する情報のみを使用するソート。

「言語ソート」、「ベース文字」、「発音区別記号」、「ケース」も参照。

AL16UTF16

SQL NCHARデータ型に使用されるデフォルトのOracleデータベースのキャラクタ・セットで、各国語キャラクタ・セットに使用されます。このキャラクタ・セットは、UnicodeデータをUTF-16エンコーディングでエンコードします。

「各国語キャラクタ・セット」も参照。

AL32UTF8

SQL CHARデータ型に使用されるOracleデータベースのキャラクタ・セットで、データベース・キャラクタ・セットに使用されます。このキャラクタ・セットは、UnicodeデータをUTF-8エンコーディングでエンコードします。

「データベース・キャラクタ・セット」も参照。

ASCII

米国の情報交換標準コード。英語用のエンコードされた共通7ビット・キャラクタ・セット。ASCIIには、文字AからZとaからz、数字、句読点記号および制御文字が含まれます。Oracle Databaseのキャラクタ・セット名はUS7ASCIIです。

ベース文字

発音区別記号なしの文字。たとえば、a、A、äおよびÄのベース文字はaです。

「発音区別記号」も参照。

バイナリ・ソート

バイナリ・コード値に基づいた文字列の順序付け。

バイト・セマンティクス

文字列を一連のバイトとして取り扱うこと。

「キャラクタ・セマンティクス」と「長さセマンティクス」も参照。

標準的な同値化

文字間または文字列間の基本的な同値化。たとえば、çは、cと,の組合せと同じです。正常にレンダリングされている場合は、両者を区別できません。

ケース

大文字であるか小文字であるかの条件を指します。たとえばラテン・アルファベットの場合、Aが大文字で、それに対する小文字がaです。

大/小文字の変換

ある文字を大文字から小文字に、または小文字から大文字に変換すること。

大/小文字を区別しない言語ソート

大/小文字ではなく、ベース文字と発音区別記号に関する情報を使用するソート。

「ベース文字」、「ケース」、「発音区別記号」、「言語ソート」も参照。

文字

テキストの抽象要素。文字は、その文字の特定の表現である絵文字とは異なります。たとえば、英大文字の最初の文字は、A、A、Aのように表示されます。これらの形式は、同じ文字を表現する異なる絵文字です。文字、文字コードおよび絵文字には、次のような関連があります。

文字 --(エンコーディング)--> 文字コード --(フォント)--> 絵文字

たとえば、英大文字の最初の文字は、コンピュータのメモリーでは数値として表されます。この数値は、エンコーディングまたは文字コードと呼ばれます。英大文字の最初の文字の文字コードは、ASCIIコード体系では0x41で、EBCDICコード体系では0xc1です。

この文字を表示または印字するには、フォントを選択する必要があります。使用可能なフォントは、使用するコード体系によって異なります。たとえば、文字をA、AまたはAとして印字または表示できます。これらの形式は、同じ文字を表現する異なる絵文字です。

「文字コード」と「絵文字」も参照。

文字の分類

各文字コードに関連付けられた文字のタイプに関する詳細を提供する情報。たとえば、文字には大文字、小文字、句読点、制御文字があります。

文字コード

特定の文字を表現する番号。この番号はコード体系によって異なります。たとえば、英大文字の最初の文字の文字コードは、ASCIIコード体系では0x41ですが、EBCDICコード体系では0xc1です。

「文字」も参照。

文字コード体系

キャラクタ・セットのすべての文字に対して番号(文字コード)を割り当てる規則。コード体系、エンコーディング・メソッドおよびエンコーディングも、文字コード体系を意味します。

文字レパートリ

特定のキャラクタ・セットを表したり、エンコードしたりするときに使用される文字のこと。

キャラクタ・セマンティクス

文字列を一連の文字として取り扱うこと。

「バイト・セマンティクス」と「長さセマンティクス」も参照。

キャラクタ・セット

特定の言語または言語グループのテキスト情報を表す要素の集まり。1つの言語を複数のキャラクタ・セットで表現できます。

キャラクタ・セットは、必ずしも特定の文字コード体系を示すわけではありません。文字コード体系は、キャラクタ・セットの各文字に対する文字コードの割当てです。

このマニュアルでは、通常、キャラクタ・セットは特定の文字コード体系を示しています。したがって、このマニュアルでは、キャラクタ・セットとエンコードされたキャラクタ・セットは同じです。

キャラクタ・セットの移行

既存のデータベースのキャラクタ・セットを変更すること。

文字列

順序付きの文字グループ。

文字列に文字が含まれていない場合もあります。この場合、その文字列はヌル文字列と呼ばれます。ヌル文字列の文字列長は0(ゼロ)です。

クライアント・キャラクタ・セット

クライアントで使用される、エンコードされたキャラクタ・セット。クライアント・キャラクタ・セットは、サーバーのキャラクタ・セットとは異なる場合があります。サーバーのキャラクタ・セットは、データベース・キャラクタ・セットと呼ばれます。クライアント・キャラクタ・セットがデータベース・キャラクタ・セットと異なる場合は、キャラクタ・セット変換が必要です。

「データベース・キャラクタ・セット」も参照。

コード・ポイント

キャラクタ・セットの1文字の数値表現。たとえば、ASCIIキャラクタ・セットでは、Aのコード・ポイントは0x41です。文字のコード・ポイントは、その文字のエンコーディング値とも呼ばれます。

「Unicodeコード・ポイント」も参照。

コード単位

エンコードされたテキストを処理および交換する単位。コード単位のサイズは、文字コード体系に応じて異なります。ほとんどの文字エンコーディングでは、コード単位は1バイトです。ただし、UTF-16とUCS-2の場合は2バイトのコード単位が使用され、ワイド・キャラクタの場合は4バイトが使用されます。

「文字コード体系」も参照。

照合

特定のロケールの言語に関連付けられた文字のソートに関する規則に従って文字列を順序付けすること。言語ソートとも呼ばれます。

「言語ソート」、「単一言語ソート」、「多言語ソート」、「アクセントを区別しない言語ソート」、「大/小文字を区別しない言語ソート」も参照。

データ・スキャニング

データベース・キャラクタ・セットの移行前に、キャラクタ・セット変換とデータの切捨てに伴う問題の可能性を識別するプロセス。

データベース・キャラクタ・セット

テキストをデータベースに格納するために使用される、エンコードされたキャラクタ・セット。CHAR、VARCHAR2、LONGおよび固定幅のCLOB列の値と、すべてのSQLおよびPL/SQLテキストが含まれます。

発音区別記号

文字または文字列の上または下にある記号で、それが付いていない場合の文字とは発音が異なることを示します。たとえば、façadeの場合、セディラは発音区別記号です。セディラが付いている場合は、cの発音が変化します。

EBCDIC

拡張2進化10進コード。IBMシステムで最も使用されるエンコードされたキャラクタ・セット・ファミリ。

エンコードされたキャラクタ・セット

文字コード体系が関連付けられているキャラクタ・セット。エンコードされたキャラクタ・セットは、各文字に割り当てる番号(文字コード)を指定します。

「文字コード体系」も参照。

エンコーディング値

キャラクタ・セットの1文字の数値表現。たとえば、ASCIIキャラクタ・セットでは、Aのコード・ポイントは0x41です。文字のエンコーディング値は、その文字のコード・ポイントとも呼ばれます。

フォント

キャラクタ・セット内の文字をグラフィカルに表現する順序付けられた絵文字の集まり。

グローバリゼーション

ソフトウェアを多様な言語および文化の環境に適したものにするプロセス。グローバリゼーションとローカライゼーションは異なるものであり、ローカライゼーションとは、ソフトウェアをある固有のロケールで使用できるように準備するプロセスです(たとえば、ある言語から他の言語へのエラー・メッセージやユーザー・インタフェースの翻訳)。

絵文字

文字の固有の表現。1つの文字は、多数の異なる絵文字を持つことができます。たとえば、英大文字の最初の文字は、A、A、Aのように印字または表示されます。これらの形式は、同じ文字を表現する異なる絵文字です。

「文字」も参照。

表意文字

概念を表現する記号。表意的記述法の例に中国語があります。

ISO

国際標準化機構(ISO)。130か国からなる標準機関の世界的な連合。ISOでは、世界規模の規格を開発および促進し、商品やサービスの国際的な交流を容易にすることを目的としています。

ISO 8859

8ビットのエンコードされたキャラクタ・セット・ファミリ。最も一般的なものは、ISO 8859-1(ISO Latin-1として知られています)で、西ヨーロッパ諸国で使用されています。

ISO 14651

ほとんどの言語向けに設計された国際的な多言語ソート規格。

「多言語ソート」も参照。

ISO/IEC 10646

現在、世界で使用されているほとんどの主要文字を定義しているユニバーサル・キャラクタ・セットの規格。1993年には、ISOによってUnicodeバージョン1.1がISO/IEC 10646-1:1993として承認されています。ISO/IEC 10646には、2バイト固定幅形式のUCS-2と4バイト固定幅形式のUCS-4があります。実装には3つのレベルがあり、すべてのレベルは複合文字のサポートに関係します。

レベル1では、複合文字をサポートする必要はありません。
レベル2では、特定の文字(アラビア文字、タイ文字などのほとんどのUnicode文字を含む)をサポートする必要があります。
レベル3では、あらゆる言語の複合文字を無制限にサポートする必要があります。

ISO通貨

各国通貨を示すために使用される3文字の略称で、ISO 4217規格に基づいています。たとえば、USDは米国のドルを表します。

ISO Latin-1

ISO 8859-1キャラクタ・セット規格。ASCIIに対する8ビット拡張機能で、西ヨーロッパで最も頻繁に使用される共通のラテン文字を含む128文字が追加されています。Oracle Databaseのキャラクタ・セット名は、WE8ISO8859P1です。

「ISO 8859」も参照。

長さセマンティクス

文字列の長さの取扱い方法を決定します。文字列の長さは、一連の文字またはバイトとして取り扱うことができます。

「キャラクタ・セマンティクス」と「バイト・セマンティクス」も参照。

言語索引

言語上のソート順序に基づいた索引。

言語ソート

文字列のバイナリ表現ではなく、ロケールに関する要件に基づいた文字列の順序付け。

「多言語ソート」と「単一言語ソート」も参照。

ロケール

特定の地域で参照される言語的および文化的な情報の集まり。一般的に、ロケールはNLSデータファイルに定義されている言語、地域、キャラクタ・セット、言語処理およびカレンダ情報で構成されます。

ローカライゼーション

言語固有または文化固有の情報をソフトウェア・システムに提供するプロセス。アプリケーションのユーザー・インタフェースの翻訳は、ローカライゼーションの1つの例です。ローカライゼーションとグローバリゼーションは異なるものです。グローバリゼーションとは、ソフトウェアを多様な言語および文化的な環境に適したものにすることです。

単一言語ソート

文字列を2つのレベルで比較するOracleデータベースのソート。単一言語ソートを使用すると、ヨーロッパ地域の大半の言語はソートできますが、アジア地域の言語には不向きです。

「多言語ソート」も参照。

単一言語サポート

1つの言語のみのサポート。

マルチバイト

2バイト以上であること。

特定の言語(または言語グループ)のすべての文字に対して文字コードが割り当てられた場合は、1バイト(8ビット)では256の異なる文字を表現できます。2バイト(16ビット)では、65,536の異なる文字を表現できます。すべての文字を表現するために、2バイトでは不十分な言語も多いです。一部の文字には3または4バイト必要です。

たとえば、UnicodeのUTF8エンコーディングがあります。UTF8には、多数の2バイトおよび3バイトの文字があります。

また、台湾で使用する繁体字中国語もこの例の1つ。この言語では、80,000以上の文字が使用されます。台湾で使用されている一部の文字コード体系は、4バイトを使用して文字をエンコードします。

「シングルバイト」も参照。

マルチバイト・キャラクタ

ある文字コード体系で、2バイト以上の文字コードから構成される文字。

コード体系が異なると、同じ文字に異なる文字コードが対応する場合があります。使用している文字コード体系が不明な場合、Oracleデータベースでは文字がマルチバイト・キャラクタであるかどうかを判断できません。たとえば、日本語の半角カタカナ文字は、JA16SJISのエンコードされたキャラクタ・セットでは1バイト、JA16EUCでは2バイト、UTF8では3バイトです。

「シングルバイト文字」も参照。

マルチバイト・キャラクタ文字列

次のいずれかの文字列で構成される文字列。

文字なし(ヌル文字列と呼ばれます)
1つ以上のシングルバイト文字
1つ以上のシングルバイト文字と1つ以上のマルチバイト文字の混合
1つ以上のマルチバイト文字

多言語ソート

3つのレベルで文字列を評価するOracleデータベースのソート。アジア言語の場合は、1言語によるデータしか存在しない場合にも、多言語ソートが必要です。多言語ソートは、複数言語によるデータが存在する場合にも使用されます。

各国語キャラクタ・セット

NCHAR、NVARCHAR2およびNCLOB列に指定できるデータベース・キャラクタ・セットの代替キャラクタ・セット。各国語キャラクタ・セットはUnicode内のみです。

NLBファイル

ロケール固有のデータを定義するためにLocale Builderが使用するバイナリ・ファイル。このファイルでは、特定リリースのOracle Databaseに付属するロケール定義がすべて定義されます。Oracle Locale Builderを使用すると、ユーザー定義のNLBファイルを作成できます。

「Oracle Locale Builder」と「NLTファイル」も参照。

NLS

National Language Support。NLSによって、ユーザーは母国語でデータベースと対話できます。さらに、アプリケーションを様々な言語および文化の環境で実行できます。Oracleデータベースはかつて複数のグローバル・ユーザーをサポートしていたため、この用語は幾分古いです。

NLSRTL

National Language Supportランタイム・ライブラリ。このライブラリは、ロケールに依存しない国際化に関するアルゴリズムを提供します。ロケール固有の情報(つまり、NLSDATA)は、実行中にNLSRTLライブラリによって読み込まれます。

NLTファイル

ロケール固有のデータを定義するためにLocale Builderが使用するテキスト・ファイル。このファイルはテキスト形式なので、内容を表示できます。

ヌル文字列

文字が含まれていない文字列。

Oracle Locale Builder

ロケール固有のデータを表示、変更または定義する方法を提供するGUIユーティリティ。言語、地域、キャラクタ・セットおよび言語ソートについて、独自の形式を作成することもできます。

置換文字

ソース文字がターゲット・キャラクタ・セットにない場合、その文字の変換時に使用される文字。たとえば、Oracleデータベースでは多くの場合、?がデフォルトの置換文字として使用されます。

制限付き多言語サポート

関連する言語のグループに制限された多言語サポート。西ヨーロッパ諸国の言語は、ISO 8859-1などで表現されます。多言語サポートが制限付きの場合、タイ語は言語グループに追加できません。

SQL CHARデータ型

CHAR、VARCHAR、VARCHAR2、CLOBおよびLONGデータ型が含まれます。

SQL NCHARデータ型

NCHAR、NVARCHAR、NVARCHAR2およびNCLOBデータ型が含まれます。

スクリプト

特定の書記体系。書記体系で使用される、関連する図形記号の集まり。スクリプトの中には複数の言語を表現できるものもあり、言語の中には複数のスクリプトを使用するものもあります。スクリプトの例として、ラテン文字、アラビア文字および漢字があります。

シングルバイト

1バイト。1バイトは、通常8ビットで構成されます。特定の言語のすべての文字に文字コードを割り当てる場合、1バイト(8ビット)では256の異なる文字を表現できます。

「マルチバイト」も参照。

シングルバイト文字

ある文字コード体系で、1バイトの文字コードで構成される文字。コード体系が異なると、同じ文字に異なる文字コードが対応する場合があります。使用しているコード体系が不明な場合、Oracle Databaseではどの文字がシングルバイト文字であるかを判断できません。たとえば、ユーロ通貨記号は、WE8MSWIN1252のエンコードされたキャラクタ・セットでは1バイト、AL16UTF16では2バイト、UTF8では3バイトです。

「マルチバイト・キャラクタ」も参照。

シングルバイト文字列

シングルバイト文字列は、次のいずれかの文字列で構成されます。

文字なし(ヌル文字列と呼ばれます)
1つ以上のシングルバイト文字

補助文字

Unicodeの最初のバージョンは16ビットの固定幅エンコーディングで、各文字のエンコーディングに2バイトを使用していました。このため、65,536文字を表現できました。しかし、アジア言語の多数の表意文字の関係で、より多くの文字のサポートが必要となっています。

Unicode 3.1では、このニーズを満たすために補助文字が定義されていました。Unicode 3.1では、2つの16ビット・コード単位(サロゲート・ペアとも呼ばれます)を使用して、1つの文字が表現するようになりました。このため、さらに1,048,576文字の定義が可能でした。Unicode 3.1規格には、最初のグループとして44,944文字の補助文字が追加されました。Unicode 4.0でも補助文字が追加され、Unicode 5.0ではさらに1,369文字が追加されました。

サロゲート・ペア

「補助文字」も参照。

表音文字セット

日本語などの言語で使用する表意文字とともに表音的情報を伝達する方法を提供します。

UCS-2

1993 ISO/IEC規格のキャラクタ・セット。固定幅の16ビットUnicodeキャラクタ・セットです。各文字は16ビットの領域を持ちます。ISO Latin-1文字は最初の256コード・ポイントであり、ISO Latin-1の16ビット拡張とみなすことができます。

UCS-4

固定幅の32ビットUnicodeキャラクタ・セット。各文字は32ビットの領域を持ちます。UCS-2の文字はこの規格の最初の65,536コード・ポイントであるため、UCS-2の32ビット拡張とみなすことができます。ISO-10646と呼ばれる場合もあります。

Unicode

エンコードされたユニバーサル・キャラクタ・セットのことで、1つのキャラクタ・セットを使用して任意の言語の情報を格納できます。Unicodeでは、プラットフォーム、プログラムまたは言語に関係なく、すべての文字に一意のコード値が指定されます。

Unicodeデータベース

データベース・キャラクタ・セットがUTF-8のデータベース。

Unicodeコード・ポイント

Unicodeコード領域にある0から0x10FFFFの値。Unicodeでは、各文字に一意のコード・ポイントが割り当てられます。

Unicodeデータ型

SQL NCHARデータ型(NCHAR、NVARCHAR2およびNCLOB)。データベース・キャラクタ・セットがUnicodeでない場合も、これらのデータ型の列にUnicode文字を格納できます。

無制限多言語サポート

要求に応じて多数の言語を使用するための機能。Unicodeなどのユニバーサル・キャラクタ・セットを使用すると、無制限に多言語をサポートできるようになります。ユニバーサル・キャラクタ・セットでは大規模な文字レパートリをサポートしています。この文字レパートリには世界のほとんどの現代語が含まれています。

UTFE

6バイト補助文字のサポート付きUnicode 5.0 UTF-8 Oracleデータベース・キャラクタ・セット。EBCDICプラットフォームでのみ使用されます。

UTF8

UTF8 Oracleデータベース・キャラクタ・セットは、文字を1バイト、2バイトまたは3バイトでエンコードします。ASCIIベースのプラットフォーム用です。UTF8キャラクタ・セットはUnicode5.0をサポートし、CESU-8規格に準拠しています。Unicode 3.1では、特定の補助文字にコード・ポイントが割り当てられていませんでしたが、Unicode 3.0では補助文字用のコード・ポイント範囲が割り当てられていました。補助文字は、6バイトを占める2つの別個のユーザー定義文字として処理されます。

UTF-8

Unicodeの8ビット・エンコーディング。可変幅エンコーディングです。UTF-8エンコーディングでは、1つのUnicode文字を、1バイト、2バイト、3バイトまたは4バイトで表すことができます。ヨーロッパ言語の文字は、1バイトまたは2バイトで表します。ほとんどのアジア言語の文字は、3バイトで表します。補助文字は、4バイトで表します。UTF-8をサポートするOracleデータベース・キャラクタ・セットはAL32UTF8です。

UTF-16

Unicodeの16ビット・エンコーディング。UCS-2の拡張であり、UCS-2コード・ポイントのペアを使用して、Unicodeに定義されている補助文字をサポートします。UTF-16エンコーディングでは、1つのUnicode文字を、2バイトか4バイトで表すことができます。ヨーロッパ言語とほとんどのアジア言語の文字(ASCII文字を含む)は、ともに2バイトで表します。補助文字は、4バイトで表します。UTF-16をサポートするOracleデータベース・キャラクタ・セットはAL16UTF16です。

ワイド・キャラクタ

固定幅の文字形式。固定幅の領域でデータが処理されるので、大量のテキスト処理に適しています。ワイド・キャラクタは、内部の文字処理をサポートすることを目的としています。