用語集

アクセント

文字の発音を変更する記号。アクセントという語の一般的な意味は文字の強勢または強調に関連しているため、『Oracle Databaseグローバリゼーション・サポート・ガイド』では発音区別記号という用語を使用します。

「発音区別記号」も参照。

アクセントを区別しない言語ソート

発音区別記号や大/小文字ではなく、ベース文字に関する情報のみを使用するソート。

「言語照合」、「ベース文字」、「発音区別記号」、「ケース」も参照。

AL16UTF16

SQL NCHARデータ型に使用されるデフォルトのOracleデータベースの文字セットで、各国語文字セットに使用されます。この文字セットは、UnicodeデータをUTF-16コード体系でエンコードします。

「各国語文字セット」、「UTF-16」も参照。

AL32UTF8

SQL CHARデータ型に使用されるOracleデータベースの文字セットで、データベース文字セットに使用されます。この文字セットは、UnicodeデータをUTF-8コード体系でエンコードします。

Oracle Database 12cリリース2以降、データベースの作成にOracle Universal Installer (OUI)またはDatabase Configuration Assistant (DBCA)を使用する場合、使用されるデフォルトのデータベース文字セットはAL32UTF8です。

「データベース文字セット」も参照。

ASCII

米国の情報交換標準コード。英語用のエンコードされた共通7ビット文字セット。ASCIIには、文字AからZとaからz、数字、句読点記号および制御文字が含まれます。Oracle Databaseの文字セット名はUS7ASCIIです。

ベース文字

発音区別記号とケースを除去された文字。たとえば、a、A、äおよびÄのベース文字はaです。

「発音区別記号」も参照。

バイナリ照合

それぞれの文字列を単純なバイトの並びとして扱い、バイナリ表現(文字コード)に基づいて文字列を並べ替えるタイプの照合。

「照合」、「言語照合」、「単一言語照合」、「多言語照合」、「アクセントを区別しない言語ソート」、「大/小文字を区別しない言語照合」も参照。

バイナリ・ソート

バイナリ照合を使用する文字列の順序付け。

バイト・セマンティクス

文字列を一連のバイトとして取り扱うこと。文字列へのオフセットと文字列長はバイトで表されます。

「キャラクタ・セマンティクス」と「長さセマンティクス」も参照。

標準的な同値化

2つの文字または文字列が意味論的に同じ文字とみなされることになっていることを述べるUnicode規格の用語。正しく行われた場合、標準的に同値化された文字は区別できません。たとえば、合成された文字ñ (U+00F1波形記号付きラテン小文字N)は、n (U+006Eラテン小文字N)に˜ (U+0303波線の結合文字)が続く文字列に、標準的に同値です。

ケース

大文字であるか小文字であるかの条件を指します。たとえばラテン・アルファベットの場合、Aが大文字で、それに対する小文字がaです。

大/小文字の変換

ある文字を大文字から小文字に、または小文字から大文字に変換すること。

大/小文字を区別しない言語照合

文字列の順序付けを決定するときに、ベース文字と発音区別記号に関する情報は使用するが、ケースに関する情報は使用しない照合。

「ベース文字」、「ケース」、「発音区別記号」、「言語照合」も参照。

文字

テキストの抽象要素。文字は、その文字の特定の表現である絵文字とは異なります。たとえば、英語の大文字アルファベットの先頭の文字は、等幅のA、プロポーショナル斜体のAA、筆記体のAなどとして表示されることができます。これらの形式は、同じ文字を表現する異なる絵文字です。文字、文字コードおよび絵文字には、次のような関連があります。

文字 --(エンコーディング)--> 文字コード --(フォント)--> 絵文字

たとえば、英大文字の最初の文字は、コンピュータのメモリーでは数値として表されます。この数値は、エンコーディングまたは文字コードと呼ばれます。英大文字の最初の文字の文字コードは、ASCIIコード体系では0x41で、EBCDICコード体系では0xc1です。

この文字を表示または印字するには、フォントを選択する必要があります。使用可能なフォントは、使用するコード体系によって異なります。各フォントは、通常、異なる形(つまり、同じ文字を表す異なる絵文字)を使用します。

「文字コード」と「絵文字」も参照。

文字の分類

各文字コードに関連付けられた文字のタイプに関する詳細を提供する情報。たとえば、文字には大文字、小文字、句読点、制御文字があります。

文字コード

文字コードとは、特定の文字を表現するバイト列です。この列は、文字コード体系に依存します。たとえば、英大文字の最初の文字の文字コードは、ASCIIコード体系では0x41ですが、EBCDICコード体系では0xc1です。

「文字」も参照。

文字のエンコード形式

文字セットのすべての文字に対して番号を割り当てる規則。

文字コード体系

文字エンコード形式によって割り当てられる番号を、バイト(文字コード)の特定の列にマップするルール。たとえば、UTF-16エンコード形式には、ビッグ・エンディアン・コード体系(UTF-16BE)とリトル・エンディアン・コード体系(UTF-16LE)があります。

大部分のエンコード形式には、1つのコード体系のみがあります。このため、エンコード形式、コード体系およびエンコーディングが区別なく使用されることがよくあります。

Oracle文字セットは、文字コード体系に対応しています。たとえば、AL16UTF16は、UTF-16BEコード体系のOracle名です。

文字レパートリ

特定の文字セットを表したり、エンコードしたりするときに使用される文字のこと。

キャラクタ・セマンティクス

文字列を一連の文字として取り扱うこと。文字列へのオフセットと文字列長は文字(文字コード)数で表されます。

「バイト・セマンティクス」と「長さセマンティクス」も参照。

文字セット

特定の言語または言語グループのテキスト情報を表す要素の集まり。1つの言語を複数の文字セットで表現できます。

文字セットは、必ずしも特定の文字コード体系を示すわけではありません。文字コード体系は、文字セットの各文字に対する文字コードの割当てです。

このマニュアルでは、通常、文字セットは特定の文字コード体系を示しています。したがって、このマニュアルでは、文字セットとエンコードされた文字セットは同じです。

文字セットの移行

既存のデータベースの文字セットを変更すること。

文字列

文字の列。

文字列に文字が含まれていない場合もあります。この場合、その文字列はヌル文字列と呼ばれます。ヌル文字列の文字列長は0(ゼロ)です。

クライアント文字セット

データベース・クライアントが使用するエンコード済文字セット。クライアント文字セットは、データベース文字セットと異なることがあります。データベース文字セットは、サーバー文字セットと呼ばれることもあります。クライアント文字セットがデータベース文字セットと異なる場合は、文字セット変換が必要です。

「データベース文字セット」も参照。

コード・ポイント

文字セットの1文字の数値表現。たとえば、ASCII文字セットでは、Aのコード・ポイントは0x41です。文字のコード・ポイントは、その文字のエンコーディング値とも呼ばれます。

「Unicodeコード・ポイント」も参照。

コード単位

エンコードされたテキストを処理および交換する単位。コード単位のサイズは、文字コード体系に応じて異なります。ほとんどの文字エンコーディングでは、コード単位は1バイトです。ただし、UTF-16とUCS-2の場合は2バイトのコード単位が使用され、ワイド・キャラクタの場合は4バイトが使用されます。

「文字エンコード形式」も参照。

照合

特定のロケールの言語に関連付けられた文字のソートに関する規則に従って文字列を順序付けすること。言語ソートとも呼ばれます。

「言語照合」、「単一言語照合」、「多言語照合」、「アクセントを区別しない言語ソート」、「大/小文字を区別しない言語照合」も参照。

データ・スキャニング

データベース文字セットの移行前に、文字セット変換とデータの切捨てに伴う問題の可能性を識別するプロセス。

データベース文字セット

テキストをデータベースに格納するために使用される、エンコードされた文字セット。CHAR、VARCHAR2、LONGおよび固定幅のCLOB列の値と、すべてのSQLおよびPL/SQLテキストが含まれます。

Database Migration Assistant for Unicode(DMU)

直感的な操作が可能な、ユーザーに親しみやすいGUIを装備した、文字セットの移行ツール。作業量を大幅に減らし、移行上のあらゆる問題を解決するインタフェースを備えているため、これを使用すれば移行プロセスを効率化できます。

発音区別記号

文字または文字列の上または下にある記号で、それが付いていない場合の文字とは発音が異なることを示します。たとえば、façadeの場合、セディラは発音区別記号です。セディラが付いている場合は、cの発音が変化します。

EBCDIC

拡張2進化10進コード。EBCDICは、IBMメインフレーム・システムで最も使用されるエンコードされた文字セット・ファミリ。

エンコードされた文字セット

文字コード体系が関連付けられている文字セット。エンコードされた文字セットは、各文字に割り当てるバイト列(文字コード)を指定します。

「文字エンコード形式」も参照。

エンコーディング値

文字セットの1文字の数値表現。たとえば、ASCII文字セットでは、Aのコード・ポイントは0x41です。文字のエンコーディング値は、その文字のコード・ポイントとも呼ばれます。

フォント

文字セット内の文字をグラフィカルに表現する順序付けられた絵文字の集まり。

グローバリゼーション

ソフトウェアを多様な言語および文化の環境に適したものにするプロセス。グローバリゼーションとローカライゼーションは異なるものであり、ローカライゼーションとは、ソフトウェアをある固有のロケールで使用できるように準備するプロセスです(たとえば、ある言語から他の言語へのエラー・メッセージやユーザー・インタフェースの翻訳)。

絵文字

文字の固有の表現(形)。1つの文字は、多数の異なる絵文字を持つことができます。

「文字」も参照。

表意文字

概念を表現する記号。一部の書記体系では、文字の音を通して語を表すのでなく、文字の意味を通して語を表す表意文字を使用します。表意的記述法の例に中国語があります。

ISO

International Organization for Standardization (国際標準化機構)。130か国からなる標準機関の世界的な連合。ISOでは、世界規模の規格を開発および促進し、商品やサービスの国際的な交流を容易にすることを目的としています。

ISO 8859

8ビットのエンコードされた文字セット・ファミリ。最も一般的なものは、ISO 8859-1(ISO Latin-1として知られています)で、西ヨーロッパ諸国で使用されています。

ISO 14651

ほとんどの言語向けに設計された国際的な多言語照合規格。

「多言語照合」も参照。

ISO/IEC 10646

現在、世界で使用されているほとんどの主要文字を定義しているユニバーサル文字セットの規格。ISO/IEC 10646は、文字レパートリに関するかぎりUnicode規格との同期を維持しますが、定義するプロパティとテキスト処理アルゴリズムはUnicode規格より少なくなっています。

ISO通貨

各国通貨を示すために使用される3文字の略称で、ISO 4217規格に基づいています。たとえば、USDは米国のドルを表します。

ISO Latin-1

ISO 8859-1文字セット規格。ASCIIに対する8ビット拡張機能で、西ヨーロッパで最も頻繁に使用される共通のラテン文字を含む128文字が追加されています。Oracle Databaseの文字セット名は、WE8ISO8859P1です。

「ISO 8859」も参照。

長さセマンティクス

文字列の長さの取扱い方法を決定します。長さは、文字(文字コード)の数として、または文字列のバイト数として表すことができます。

「キャラクタ・セマンティクス」と「バイト・セマンティクス」も参照。

言語照合

標準的、慣習的な話し言葉を考慮に入れた照合の一種。

「照合」、「言語ソート」、「単一言語照合」、「多言語照合」、「アクセントを区別しない言語ソート」、「大/小文字を区別しない言語照合」も参照。

言語索引

言語上のソート順序に基づいた索引。

言語ソート

バイナリ言語照合を使用する文字列の順序付け。

「多言語照合」と「単一言語照合」も参照。

ロケール

特定の地域で参照される言語的および文化的な情報の集まり。一般的に、ロケールはNLSデータファイルに定義されている言語、地域、文字セット、言語処理およびカレンダ情報で構成されます。

ローカライゼーション

言語固有または文化固有の情報をソフトウェア・システムに提供するプロセス。アプリケーションのユーザー・インタフェースの翻訳は、ローカライゼーションの1つの例です。ローカライゼーションとグローバリゼーションは異なるものです。グローバリゼーションとは、ソフトウェアを多様な言語および文化的な環境に適したものにすることです。

単一言語照合

文字列を2つのレベルで比較するOracle Databaseの照合。文字列は、まず文字のメジャー値に基づいて順序付けされ、その比較で等しいと判断されると、文字のマイナー値に基づいて順序付けされます。メジャー値はだいたいベース文字に対応し、マイナー値は発音区別記号およびケースに対応します。単一言語照合を使用すると、ヨーロッパ地域の大半の言語はソートできますが、アジア地域の言語や多言語のテキストには不向きです。

「多言語照合」も参照。

単一言語サポート

1つの言語のみのサポート。

マルチバイト

2バイト以上であること。

特定の言語(または言語グループ)のすべての文字に対して文字コードが割り当てられた場合は、1バイト(8ビット)では256の異なる文字を表現できます。2バイト(16ビット)では、65,536の異なる文字を表現できます。すべての文字を表現するために、2バイトでは不十分な言語も多いです。一部の文字には3または4バイト必要です。

たとえば、UnicodeのUTF-8エンコード形式があります。UTF-8には、多数の2バイトおよび3バイトの文字があります。

また、台湾で使用する繁体字中国語もこの例の1つ。この言語では、80,000以上の文字が使用されます。台湾で使用されている一部の文字コード体系は、4バイトを使用して文字をエンコードします。

「シングルバイト」も参照。

マルチバイト・キャラクタ

ある文字コード体系で、2バイト以上の文字コードから構成される文字。

コード体系が異なると、同じ文字に異なる文字コードが対応する場合があります。使用している文字コード体系が不明な場合、Oracle Databaseでは文字がマルチバイト・キャラクタであるかどうかを判断できません。たとえば、日本語の半角カタカナ文字は、JA16SJISのエンコードされた文字セットでは1バイト、JA16EUCでは2バイト、AL32UTF8では3バイトです。

「シングルバイト文字」も参照。

マルチバイト・キャラクタ文字列

マルチバイト文字コード体系でエンコードされた文字列。

マルチバイト文字コード体系

文字コードが複数バイトになることがある文字コード体系。

「マルチバイト固定幅文字コード体系」、「マルチバイト変動幅文字コード体系」も参照。

マルチバイト固定幅文字コード体系

各文字コードが1より大きい同じ固定バイト数を持っている文字コード体系。AL16UTF16は、マルチバイト固定幅文字セットです。

マルチバイト変動幅文字コード体系

各文字コードが所定の範囲に収まるバイト数を持っている文字コード体系。範囲は、1から文字セットの最大文字幅までです。コード体系により異なりますが、文字セットの最大文字幅は、2バイト、3バイトまたは4バイトです。たとえば、ZHT16BIG5には1バイトまたは2バイトの文字コードがあります。UTF8には、1バイト、2バイトまたは3バイトの文字コードがあります。AL32UTF8には、1バイト、2バイト、3バイトまたは4バイトの文字コードがあります。Oracleは、文字コード当たりのバイト数が4を超えるコード体系をサポートしません。

多言語照合

3つのレベルで文字列を評価するOracle Databaseの照合。アジア言語の場合は、1言語によるデータしか存在しない場合にも、多言語照合が必要です。多言語照合は、複数言語によるデータが存在する場合にも使用されます。

多言語照合では、文字列はまず1次重み付けに基づいて順序付けられ、その後、必要に応じて2次重み付け、3次重み付けが行われます。文字の場合、1次重み付けはベース文字に、2次重み付けは発音区別記号に、3次重み付けはケースおよび固有の文字飾り(文字を囲む円など)に対応します。表意文字のスクリプトの場合、重み付けが他の文字変化形を表す場合があります。

各国語文字セット

NCHAR、NVARCHAR2およびNCLOB列に指定できるデータベース文字セットの代替文字セット。各国語文字セットは、AL16UTF16とUTF8のみです。

NLBファイル

ロケール固有のデータを定義するためにLocale Builderが使用するバイナリ・ファイル。このファイルでは、特定リリースのOracle Databaseに付属するロケール定義がすべて定義されます。Oracle Locale Builderを使用すると、ユーザー定義のNLBファイルを作成できます。

「Oracle Locale Builder」と「NLTファイル」も参照。

NLS

National Language Support。NLSによって、ユーザーは母国語でデータベースと対話できます。さらに、アプリケーションを様々な言語および文化の環境で実行できます。この用語は、グローバリゼーションおよびローカライゼーションという用語に置き換えられました。

NLSRTL

National Language Supportランタイム・ライブラリ。このライブラリは、ロケールに依存しない国際化に関するアルゴリズムを提供します。ロケール固有の情報(つまり、NLSDATA)は、実行中にNLSRTLライブラリによって読み込まれます。

NLTファイル

ロケール固有のデータを定義するためにLocale Builderが使用するテキスト・ファイル。このファイルはテキスト形式なので、内容を表示できます。

ヌル文字列

文字が含まれていない文字列。

Oracle Locale Builder

ロケール固有のデータを表示、変更または定義する方法を提供するGUIユーティリティ。

置換文字

ソース文字がターゲット文字セットにない場合、その文字の変換時に使用される文字。たとえば、Oracle文字セットでは多くの場合、?がデフォルトの置換文字として使用されます。

制限付き多言語サポート

関連する言語のグループに制限された多言語サポート。西ヨーロッパ諸国の言語は、ISO 8859-1などで表現されますが、ISO 8859-1を使用すると多言語サポートが制限されます。タイ語や中国語をグループに追加できませんでした。

SQL CHARデータ型

CHAR、VARCHAR、VARCHAR2、CLOBおよびLONGデータ型が含まれます。

SQL NCHARデータ型

NCHAR、NVARCHAR2およびNCLOBデータ型が含まれます。

スクリプト

特定の書記体系。書記体系で使用される、関連する図形記号の集まり。スクリプトの中には複数の言語を表現できるものもあり、言語の中には複数のスクリプトを使用するものもあります。スクリプトの例として、ラテン文字、アラビア文字および漢字があります。

シングルバイト

1バイト。1バイトは、通常8ビットで構成されます。特定の言語のすべての文字に文字コードを割り当てる場合、1バイト(8ビット)では256の異なる文字を表現できます。

「マルチバイト」も参照。

シングルバイト文字

ある文字コード体系で、1バイトの文字コードで構成される文字。コード体系が異なると、同じ文字に異なる文字コードが対応する場合があります。使用しているコード体系が不明な場合、Oracle Databaseではどの文字がシングルバイト文字であるかを判断できません。たとえば、ユーロ通貨記号は、WE8MSWIN1252のエンコードされた文字セットでは1バイト、AL16UTF16では2バイト、UTF8では3バイトです。

「マルチバイト・キャラクタ」も参照。

シングルバイト文字列

シングルバイト文字列は、シングルバイト文字コード体系でエンコードされた文字列です。この用語は、たまたまシングルバイト文字のみで構成されているマルチバイト変動幅文字列を記述するために使用される場合もあります。「マルチバイト変動幅文字コード体系」も参照。

ソート

文字列の順序付け。これは、文字列のバイナリ表現でなくロケール表現からの要件に基づくことも(言語ソートと呼ばれます)、バイナリ・エンコードされた値に基づくこともあります(バイナリ・ソートと呼ばれます)。

「多言語照合」と「単一言語照合」も参照。

補助文字

Unicode規格の最初のバージョンは16ビットの固定幅エンコーディングで、各文字のエンコーディングに2バイトを使用していました。このため、65,536文字を表現できました。しかし、アジア言語の多数の表意文字の関係で、より多くの文字のサポートが必要となっています。

Unicode規格バージョン3.1では、このニーズを満たすために、16進数の0000-FFFFから16進数の0000-10FFFFに文字の番号付け範囲を拡張することによって補助文字が定義されました。Unicode 3.1では、2つの16ビット・コード単位(サロゲート・ペアとも呼ばれます)を使用して、UTF-16形式で1つの補助文字を表現するようになりました。このため、さらに1,048,576文字の定義が可能でした。Unicode 3.1規格には、最初のグループとして44,944文字の補助文字が追加されました。以降のバージョンのUnicode規格では、さらに追加が行われました。

サロゲート・ペア

「補助文字」も参照。

表音文字セット

日本語などの言語で使用する表意文字とともに表音的情報を伝達する方法を提供します。

UCS-2

ISO/IEC 10646標準文字セット・エンコード形式の古い形式。現在、サロゲート・ペアをサポートしないUTF-16エンコード形式を指すために使用されます。

UCS-4

ISO/IEC 10646標準エンコード形式の旧称。UTF-32と同義。

Unicode規格

エンコードされたユニバーサル文字セットのことで、1つの文字セットを使用して任意の言語の情報を格納できます。Unicode規格では、プラットフォーム、プログラムまたは言語に関係なく、すべての文字に一意のコード値が指定されます。

Unicode規格はまた、様々な可変テキスト処理アルゴリズムおよび関連の文字プロパティを定義して、アラビア語またはデーバナーガリ(ヒンディー語)などスクリプトの複雑なスクリプト処理を助けます。

Unicodeデータベース

データベース文字セットがAL32UTF8またはUTF8であるデータベース。

Unicodeコード・ポイント

Unicodeコード領域にある0から0x10FFFFの値。Unicodeでは、各文字に一意のコード・ポイントが割り当てられます。

Unicodeデータ型

SQL NCHARデータ型(NCHAR、NVARCHAR2およびNCLOB)。データベース文字セットがUnicode規格に基づいていない場合も、これらのデータ型の列にUnicode文字を格納できます。

無制限多言語サポート

要求に応じて多数の言語を使用するための機能。Unicode規格などのユニバーサル文字セットを使用すると、無制限に多言語をサポートできるようになります。ユニバーサル文字セットでは大規模な文字レパートリをサポートしています。この文字レパートリには世界のほとんどの現代語が含まれています。

UTFE

EBCDICプラットフォーム上でのみ使用される、非推奨のUnicode UTF-EBCDICエンコード形式の4バイト・サブセットを実装するOracle文字セット。

UTF8

UTF8 Oracle文字セットは、文字を1バイト、2バイトまたは3バイトでエンコードします。UTF8文字セットはUnicode 3.0をサポートし、CESU-8コード体系を実装しています。Unicode 3.1では、特定の補助文字にコード・ポイントが割り当てられていませんでしたが、Unicode 3.0では補助文字用のコード・ポイント範囲が割り当てられていました。補助文字は、6バイトを占める2つの別個のユーザー定義文字として処理されます。UTF8は非推奨です。

ワイド・キャラクタ

マルチバイト固定幅の文字形式。固定幅の領域でデータが処理されるので、大量のテキスト処理に適しています。マルチバイト変動幅の文字値は、より高速な処理のために内部的にワイド・キャラクタ書式に変換されている場合があります。

UTF-8

Unicode規格の8ビット・エンコード形式とコード体系。マルチバイト変動幅エンコードです。UTF-8エンコーディングでは、1つのUnicode文字を、1バイト、2バイト、3バイトまたは4バイトで表すことができます。ヨーロッパ言語の文字は、1バイトまたは2バイトで表します。ほとんどのアジア言語の文字は、3バイトで表します。補助文字は、4バイトで表します。UTF-8を実装するOracle Database文字セットは、AL32UTF8です。

UTF-16

Unicodeの16ビット・エンコード形式です。UTF-16エンコーディングでは、1つのUnicode文字は、1つまたは2つの2コード単位です。スクリプトがヨーロッパの言語と、ほとんどのアジア言語の文字(ASCII文字を含む)は、1コード単位(2バイト)で表します。補助文字は、2コード単位(4バイト)で表します。UTF-16を実装するOracle Database文字セットは、AL16UTF16とAL16UTF16LEです。AL16UTF16は、UTF-16エンコード形式のビッグエンディアン・コード体系を実装します(各コード単位の、重要性の高い方のバイトがメモリー内で先にきます)。AL16UTF16は、有効な各国語文字セットです。AL16UTF16LEは、リトル・エンディアンUTF-16コード体系を実装します。変換専用の文字セットで、SQL CONVERTまたはPL/SQL UTL_I18N.STRING_TO_RAWなど、文字セット変換関数でのみ有効です。大部分のSQL文字列処理機能は、AL16UTF16の各UTF-16コード単位を別々の文字として扱うことに注意してください。関数INSTR4、SUBSTR4およびLENGTH4は例外です。