- AL32UTF8
- SQL
CHAR
データ型に使用されるOracleデータベースのキャラクタ・セットで、データベース・キャラクタ・セットに使用される。このキャラクタ・セットは、UnicodeデータをUTF-8エンコーディングでエンコードする。
- 関連項目: データベース・キャラクタ・セット(database character set)
- ASCII
- 米国の情報交換標準コード。英語用のエンコードされた共通7ビット・キャラクタ・セット。ASCIIには、文字A〜Zとa〜z、数字、句読点記号および制御文字が含まれる。Oracleデータベースのキャラクタ・セット名はUS7ASCIIである。
E
- EBCDIC
- 拡張2進化10進コード。IBMシステムで最も使用されるエンコードされたキャラクタ・セット・ファミリ。
I
- ISO/IEC 10646
- 現在、世界で使用されているほとんどの主要文字を定義しているユニバーサル・キャラクタ・セットの規格。1993年には、ISOによってUnicodeバージョン1.1がISO/IEC 10646-1:1993として承認されている。ISO/IEC 10646には、2バイト固定幅形式のUCS-2と4バイト固定幅形式のUCS-4がある。実装には3つのレベルがあり、すべてのレベルは複合文字のサポートに関係する。
-
- レベル1では、複合文字をサポートする必要はない。
-
- レベル2では、特定の文字(アラビア文字、タイ文字などのほとんどのUnicode文字を含む)をサポートする必要がある。
-
- レベル3では、あらゆる言語の複合文字を無制限にサポートする必要がある。
- ISO
- 国際標準化機構(ISO)。130か国からなる標準機関の世界的な連合。ISOでは、世界規模の規格を開発および促進し、商品やサービスの国際的な交流を容易にすることを目的としている。
- ISO 14651
- ほとんどの言語向けに設計された国際的な多言語ソート規格。
- 関連項目: 多言語ソート(multilingual linguistic sort)
- ISO 8859
- 8ビットのエンコードされたキャラクタ・セット・ファミリ。最も一般的なものは、ISO 8859-1(ISO Latin-1として知られている)で、西ヨーロッパ諸国で使用されている。
- ISO Latin-1
- ISO 8859-1キャラクタ・セット規格。ASCIIに対する8ビット拡張機能で、西ヨーロッパで最も頻繁に使用される共通のラテン文字を含む128文字が追加されている。Oracleデータベースのキャラクタ・セット名は、WE8ISO8859P1である。
- 関連項目: ISO 8859
- ISO通貨(ISO currency)
- 各国通貨を示すために使用される3文字の略称で、ISO 4217規格に基づいている。たとえば、
USD
は米国のドルを表す。
N
- NLBファイル(NLB files)
- ロケール固有のデータを定義するためにLocale Builderが使用するバイナリ・ファイル。このファイルでは、特定リリースのOracleデータベースに付属するロケール定義がすべて定義される。Oracle Locale Builderを使用すると、ユーザー定義のNLBファイルを作成できる。
- 関連項目: Oracle Locale BuilderおよびNLTファイル(NLT files)
- NLS
- National Language Support。NLSによって、ユーザーは母国語でデータベースと対話できる。さらに、アプリケーションを様々な言語および文化の環境で実行できる。Oracleデータベースはかつて複数のグローバル・ユーザーをサポートしていたため、この用語は幾分古い。
- NLSRTL
- National Language Supportランタイム・ライブラリ。このライブラリは、ロケールに依存しない国際化に関するアルゴリズムを提供する。ロケール固有の情報(つまり、NLSDATA)は、実行中にNLSRTLライブラリによって読み込まれる。
- NLTファイル(NLT files)
- ロケール固有のデータを定義するためにLocale Builderが使用するテキスト・ファイル。このファイルはテキスト形式なので、内容を表示できる。
O
- Oracle Locale Builder
- ロケール固有のデータを表示、変更または定義する方法を提供するGUIユーティリティ。言語、地域、キャラクタ・セットおよび言語ソートについて、独自の形式を作成することもできる。
S
- SQL CHARデータ型(SQL CHAR datatypes)
CHAR
、VARCHAR
、VARCHAR2
、CLOB
およびLONG
データ型が含まれる。
- SQL NCHARデータ型(SQL NCHAR datatypes)
NCHAR
、NVARCHAR
、NVARCHAR2
およびNCLOB
データ型が含まれる。
U
- UCS-2
- 1993 ISO/IEC規格のキャラクタ・セット。固定幅の16ビットUnicodeキャラクタ・セットである。各文字は16ビットの領域を持つ。ISO Latin-1文字は最初の256コード・ポイントであり、ISO Latin-1の16ビット拡張とみなすことができる。
- UCS-4
- 固定幅の32ビットUnicodeキャラクタ・セット。各文字は32ビットの領域を持つ。UCS-2の文字はこの規格の最初の65,536コード・ポイントであるため、UCS-2の32ビット拡張とみなすことができる。ISO-10646と呼ばれる場合もある。
- Unicode
- Unicodeとは、エンコードされたユニバーサル・キャラクタ・セットのこと。このセットを使用すると、1つのキャラクタ・セットを使用して任意の言語の情報を格納できる。Unicodeには、プラットフォーム、プログラムまたは言語に関係なく、すべての文字に対する一意のコード値が用意されている。
- Unicodeコード・ポイント(Unicode code point)
- Unicodeコード領域にある0〜0x10FFFFの値。Unicodeでは、各文字に一意のコード・ポイントが割り当てられる。
- Unicodeデータ型(Unicode datatype)
- SQL
NCHAR
データ型(NCHAR
、NVARCHAR2
およびNCLOB
)。データベース・キャラクタ・セットがUnicodeでない場合も、これらのデータ型の列にUnicode文字を格納できる。
- Unicodeデータベース(Unicode database)
- データベース・キャラクタ・セットがUTF-8のデータベース。
- UTF-16
- Unicodeの16ビット・エンコーディング。UCS-2の拡張であり、UCS-2コード・ポイントのペアを使用して、Unicodeに定義されている補助文字をサポートする。UTF-16エンコーディングでは、1つのUnicode文字を、2バイトか4バイトで表すことができる。ヨーロッパ言語とほとんどのアジア言語の文字(ASCII文字を含む)は、ともに2バイトで表す。補助文字は、4バイトで表す。UTF-16をサポートするOracleデータベース・キャラクタ・セットはAL16UTF16である。
- UTF-8
- Unicodeの8ビット・エンコーディング。可変幅エンコーディングである。UTF-8エンコーディングでは、1つのUnicode文字を、1バイト、2バイト、3バイトまたは4バイトで表すことができる。ヨーロッパ言語の文字は、1バイトまたは2バイトで表す。ほとんどのアジア言語の文字は、3バイトで表す。補助文字は、4バイトで表す。UTF-8をサポートするOracleデータベース・キャラクタ・セットはAL32UTF8である。
- UTF8
- UTF8 Oracleデータベース・キャラクタ・セットは、文字を1バイト、2バイトまたは3バイトでエンコードする。ASCIIベースのプラットフォーム用である。UTF8キャラクタ・セットはUnicode5.0をサポートし、CESU-8規格に準拠している。Unicode 3.1では、特定の補助文字にコード・ポイントが割り当てられていなかったが、Unicode 3.0では補助文字用のコード・ポイント範囲が割り当てられていた。補助文字は、6バイトを占める2つの別個のユーザー定義文字として処理される。
- UTFE
- 6バイト補助文字のサポート付きUnicode 5.0 UTF-8 Oracleデータベース・キャラクタ・セット。EBCDICプラットフォームでのみ使用される。
あ
- アクセント(accent)
- 文字の発音を変更する記号。アクセントの一般的な意味は文字の強勢または強調に関連しているため、『Oracle Databaseグローバリゼーション・サポート・ガイド』では発言区別記号という用語を使用する。
- 関連項目: 発音区別記号(diacritic)
- アクセントを区別しない言語ソート(accent-insensitive linguistic sort)
- 発音区別記号や大/小文字ではなく、ベース文字に関する情報のみを使用するソート。
- 関連項目: 言語ソート(linguistic sort)、ベース文字(base letter)、発音区別記号(diacritic)、ケース(case)
え
- 絵文字(glyph)
- 文字の固有の表現。1つの文字は、多数の異なる絵文字を持つことができる。たとえば、英大文字の最初の文字は、
A
、A、Aのように印字または表示される。これらの形式は、同じ文字を表現する異なる絵文字である。
- 関連項目: 文字(character)
- エンコーディング値(encoded value)
- キャラクタ・セットの1文字の数値表現。たとえば、ASCIIキャラクタ・セットでは、
A
のコード・ポイントは0x41である。文字のエンコーディング値は、その文字のコード・ポイントとも呼ばれる。
- エンコードされたキャラクタ・セット(encoded character set)
- 文字コード体系が関連付けられているキャラクタ・セット。エンコードされたキャラクタ・セットは、各文字に割り当てる番号(文字コード)を指定する。
- 関連項目: 文字コード体系(character encoding scheme)
お
- 大/小文字の変換(case conversion)
- ある文字を大文字から小文字に、または小文字から大文字に変換すること。
- 大/小文字を区別しない言語ソート(case-insensitive linguistic sort)
- 大/小文字ではなく、ベース文字と発音区別記号に関する情報を使用するソート。
- 関連項目: ベース文字(base letter)、ケース(case)、発音区別記号(diacritic)、言語ソート(linguistic sort)
か
- 各国語キャラクタ・セット(national character set)
NCHAR
、NVARCHAR2
およびNCLOB
列に指定できるデータベース・キャラクタ・セットの代替キャラクタ・セット。各国語キャラクタ・セットはUnicode内のみである。
き
- キャラクタ・セット(character set)
- 特定の言語または言語グループのテキスト情報を表す要素の集まり。1つの言語を複数のキャラクタ・セットで表現できる。
- キャラクタ・セットは、必ずしも特定の文字コード体系を示すわけではない。文字コード体系は、キャラクタ・セットの各文字に対する文字コードの割当てである。
- このマニュアルでは、通常、キャラクタ・セットは特定の文字コード体系を示している。したがって、このマニュアルでは、キャラクタ・セットとエンコードされたキャラクタ・セットは同じである。
- キャラクタ・セットの移行(character set migration)
- 既存のデータベースのキャラクタ・セットを変更すること。
- キャラクタ・セマンティクス(character semantics)
- 文字列を一連の文字として取り扱うこと。
- 関連項目: バイト・セマンティクス(byte semantics)および長さセマンティクス(length semantics)
く
- クライアント・キャラクタ・セット(client character set)
- クライアントで使用される、エンコードされたキャラクタ・セット。クライアント・キャラクタ・セットは、サーバーのキャラクタ・セットとは異なる場合がある。サーバーのキャラクタ・セットは、データベース・キャラクタ・セットと呼ばれる。クライアント・キャラクタ・セットがデータベース・キャラクタ・セットと異なる場合は、キャラクタ・セット変換が必要である。
- 関連項目: データベース・キャラクタ・セット(database character set)
- グローバリゼーション(globalization)
- ソフトウェアを多様な言語および文化の環境に適したものにするプロセス。グローバリゼーションとローカライゼーションは異なるものであり、ローカライゼーションとは、ソフトウェアをある固有のロケールで使用できるように準備するプロセスである(たとえば、ある言語から他の言語へのエラー・メッセージやユーザー・インタフェースの翻訳)。
け
- ケース(case)
- 大文字であるか小文字であるかの条件を指す。たとえばラテン・アルファベットの場合、
A
が大文字で、それに対する小文字がa
である。
- 言語索引(linguistic index)
- 言語上のソート順序に基づいた索引。
- 言語ソート(linguistic sort)
- 文字列のバイナリ表現ではなく、ロケールに関する要件に基づいた文字列の順序付け。
- 関連項目: 多言語ソート(multilingual linguistic sort)および単一言語ソート(monolingual linguistic sort)
こ
- コード単位(code unit)
- エンコードされたテキストを処理および交換する単位。コード単位のサイズは、文字コード体系に応じて異なる。ほとんどの文字エンコーディングでは、コード単位は1バイト。ただし、UTF-16とUCS-2の場合は2バイトのコード単位が使用され、ワイド・キャラクタの場合は4バイトが使用される。
- 関連項目: 文字コード体系(character encoding scheme)
- コード・ポイント(code point)
- キャラクタ・セットの1文字の数値表現。たとえば、ASCIIキャラクタ・セットでは、
A
のコード・ポイントは0x41である。文字のコード・ポイントは、その文字のエンコーディング値とも呼ばれる。
- 関連項目: Unicodeコード・ポイント(Unicode code point)
さ
- サロゲート・ペア(surrogate pairs)
- 関連項目: 補助文字(supplementary characters)
- シングルバイト(single byte)
- 1バイト。1バイトは、通常8ビットで構成される。特定の言語のすべての文字に文字コードを割り当てる場合、1バイト(8ビット)では256の異なる文字を表現できる。
- 関連項目: マルチバイト(multibyte)
- シングルバイト文字(single-byte character)
- ある文字コード体系で、1バイトの文字コードで構成される文字。コード体系が異なると、同じ文字に異なる文字コードが対応する場合がある。使用しているコード体系が不明な場合、Oracleデータベースではどの文字がシングルバイト文字であるかを判断できない。たとえば、ユーロ通貨記号は、WE8MSWIN1252のエンコードされたキャラクタ・セットでは1バイト、AL16UTF16では2バイト、UTF8では3バイトである。
- 関連項目: マルチバイト・キャラクタ(multibyte character)
- シングルバイト文字列(single-byte character string)
- シングルバイト文字列は、次のいずれかの文字列で構成される。
-
- 文字なし(ヌル文字列と呼ばれる)
-
- 1つ以上のシングルバイト文字
す
- スクリプト(script)
- 特定の書込みシステム。記述法で使用される関連する図形記号の集まり。一部のスクリプトは複数の言語を表現できる。また、言語によっては複数のスクリプトを使用するものもある。スクリプトの例として、ラテン文字、アラビア文字および漢字がある。
せ
- 制限付き多言語サポート(restricted multilingual support)
- 関連する言語のグループに制限された多言語サポート。西ヨーロッパ諸国の言語は、ISO 8859-1などで表現される。多言語サポートが制限付きの場合、タイ語は言語グループに追加できない。
た
- 多言語ソート(multilingual linguistic sort)
- 3つのレベルで文字列を評価するOracleデータベースのソート。アジア言語の場合は、1言語によるデータしか存在しない場合にも、多言語ソートが必要である。多言語ソートは、複数言語によるデータが存在する場合にも使用される。
- 単一言語サポート(monolingual support)
- 1つの言語のみのサポート。
- 単一言語ソート(monolingual linguistic sort)
- 文字列を2つのレベルで比較するOracleデータベースのソート。単一言語ソートを使用すると、ヨーロッパ地域の大半の言語はソートできるが、アジア地域の言語には不向きである。
- 関連項目: 多言語ソート(multilingual linguistic sort)
ち
- 置換文字(replacement character)
- ソース文字がターゲット・キャラクタ・セットにない場合、その文字の変換時に使用される文字。たとえば、Oracleデータベースでは多くの場合、
?
がデフォルトの置換文字として使用される。
て
- データ・スキャニング(data scanning)
- データベース・キャラクタ・セットの移行前に、キャラクタ・セット変換とデータの切捨てに伴う問題の可能性を識別するプロセス。
- データベース・キャラクタ・セット(database character set)
- テキストをデータベースに格納するために使用される、エンコードされたキャラクタ・セット。
CHAR
、VARCHAR2
、LONG
および固定幅のCLOB
列の値と、すべてのSQLおよびPL/SQLテキストが含まれる。
な
- 長さセマンティクス(length semantics)
- 文字列の長さの取扱い方法を決定する。文字列の長さは、一連の文字またはバイトとして取り扱うことができる。
- 関連項目: キャラクタ・セマンティクス(character semantics)およびバイト・セマンティクス(byte semantics)
ぬ
- ヌル文字列(null string)
- 文字が含まれていない文字列。
- バイナリ・ソート(binary sorting)
- バイナリ・コード値に基づいた文字列の順序付け。
- 発音区別記号(diacritic)
- 文字または文字列の上または下にある記号で、それが付いていない場合の文字とは発音が異なることを示す。たとえば、
façade
の場合、セディラは発音区別記号である。セディラが付いている場合は、c
の発音が変化する。
ひ
- 表意文字(ideograph)
- 概念を表現する記号。表意的記述法の例に中国語がある。
- 表音文字セット(syllabary)
- 日本語などの言語で使用する表意文字とともに表音的情報を伝達する方法を提供する。
- 標準的な同値化(canonical equivalence)
- 文字間または文字列間の基本的な同値化。たとえば、
ç
は、c
と,
の組合せと同じ。正常にレンダリングされている場合は、両者を区別できない。
ふ
- フォント(font)
- キャラクタ・セット内の文字をグラフィカルに表現する順序付けられた絵文字の集まり。
へ
- ベース文字(base letter)
- 発音区別記号なしの文字。たとえば、
a
、A
、ä
およびÄ
のベース文字はa
。
- 関連項目: 発音区別記号(diacritic)
ほ
- 補助文字(supplementary characters)
- Unicodeの最初のバージョンは16ビットの固定幅エンコーディングで、各文字のエンコーディングに2バイトを使用していた。このため、65,536文字を表現できた。しかし、アジア言語の多数の表意文字の関係で、より多くの文字のサポートが必要となっている。
- Unicode 3.1では、このニーズを満たすために補助文字が定義されていた。Unicode 3.1では、2つの16ビット・コード単位(サロゲート・ペアとも呼ばれる)を使用して、1つの文字が表現するようになった。このため、さらに1,048,576文字の定義が可能であった。Unicode 3.1規格には、最初のグループとして44,944文字の補助文字が追加された。Unicode 4.0でも補助文字が追加され、Unicode 5.0ではさらに1,369文字が追加された。
ま
- マルチバイト(multibyte)
- 2バイト以上であること。
- 特定の言語(または言語グループ)のすべての文字に対して文字コードが割り当てられた場合は、1バイト(8ビット)では256の異なる文字を表現できる。2バイト(16ビット)では、65,536の異なる文字を表現できる。すべての文字を表現するために、2バイトでは不十分な言語も多い。一部の文字には3または4バイト必要である。
- たとえば、UnicodeのUTF8エンコーディングがある。UTF8には、多数の2バイトおよび3バイトの文字がある。
- また、台湾で使用する繁体字中国語もこの例の1つ。この言語では、80,000以上の文字が使用される。台湾で使用されている一部の文字コード体系は、4バイトを使用して文字をエンコードする。
- 関連項目: シングルバイト(single byte)
- マルチバイト・キャラクタ(multibyte character)
- ある文字コード体系で、2バイト以上の文字コードから構成される文字。
- コード体系が異なると、同じ文字に異なる文字コードが対応する場合がある。使用している文字コード体系が不明な場合、Oracleデータベースでは文字がマルチバイト・キャラクタであるかどうかを判断できない。たとえば、日本語の半角カタカナ文字は、JA16SJISのエンコードされたキャラクタ・セットでは1バイト、JA16EUCでは2バイト、UTF8では3バイトである。
- 関連項目: シングルバイト文字(single-byte character)
- マルチバイト・キャラクタ文字列(multibyte character string)
- 次のいずれかの文字列で構成される文字列。
-
- 文字なし(ヌル文字列と呼ばれる)
-
- 1つ以上のシングルバイト文字
-
- 1つ以上のシングルバイト文字と1つ以上のマルチバイト文字の混合
-
- 1つ以上のマルチバイト文字
む
- 無制限多言語サポート(unrestricted multilingual support)
- 要求に応じて多数の言語を使用するための機能。Unicodeなどのユニバーサル・キャラクタ・セットを使用すると、無制限に多言語をサポートできるようになる。ユニバーサル・キャラクタ・セットでは大規模な文字レパートリをサポートしている。この文字レパートリには世界のほとんどの現代語が含まれている。
も
- 文字(character)
- テキストの抽象要素。文字は、その文字の特定の表現である絵文字とは異なる。たとえば、英大文字の最初の文字は、
A
、A、Aのように表示される。これらの形式は、同じ文字を表現する異なる絵文字である。文字、文字コードおよび絵文字には、次のような関連がある。
- 文字 --(エンコーディング)--> 文字コード --(フォント)--> 絵文字
- たとえば、英大文字の最初の文字は、コンピュータのメモリーでは数値として表される。この数値は、エンコーディングまたは文字コードと呼ばれる。英大文字の最初の文字の文字コードは、ASCIIコード体系では0x41、EBCDICコード体系では0xc1。
- この文字を表示または印字するには、フォントを選択する必要がある。使用可能なフォントは、使用するコード体系によって異なる。たとえば、文字を
A
、AまたはAとして印字または表示できる。これらの形式は、同じ文字を表現する異なる絵文字である。
- 関連項目: 文字コード(character code)および絵文字(glyph)
- 文字コード(character code)
- 特定の文字を表現する番号。この番号はコード体系によって異なる。たとえば、英大文字の最初の文字の文字コードは、ASCIIコード体系では0x41であるが、EBCDICコード体系では0xc1である。
- 関連項目: 文字(character)
- 文字コード体系(character encoding scheme)
- キャラクタ・セットのすべての文字に対して番号(文字コード)を割り当てる規則。コード体系、エンコーディング・メソッドおよびエンコーディングも、文字コード体系を意味する。
- 文字の分類(character classification)
- 各文字コードに関連付けられた文字のタイプに関する詳細を提供する情報。たとえば、文字には大文字、小文字、句読点、制御文字がある。
- 文字列(character string)
- 順序付きの文字グループ。
- 文字列に文字が含まれていない場合もある。この場合、その文字列はヌル文字列と呼ばれる。ヌル文字列の文字列長は0(ゼロ)である。
- 文字レパートリ(character repertoire)
- 特定のキャラクタ・セットを表したり、エンコードしたりするときに使用される文字のこと。
ろ
- ローカライゼーション(localization)
- 言語固有または文化固有の情報をソフトウェア・システムに提供するプロセス。アプリケーションのユーザー・インタフェースの翻訳は、ローカライゼーションの1つの例である。ローカライゼーションとグローバリゼーションは異なるものである。グローバリゼーションとは、ソフトウェアを多様な言語および文化的な環境に適したものにすることである。
- ロケール(locale)
- 特定の地域で参照される言語的および文化的な情報の集まり。一般的に、ロケールはNLSデータ・ファイルに定義されている言語、地域、キャラクタ・セット、言語処理およびカレンダ情報で構成される。
わ
- ワイド・キャラクタ(wide character)
- 固定幅の文字形式。固定幅の領域でデータが処理されるので、大量のテキスト処理に適している。ワイド・キャラクタは、内部の文字処理をサポートすることを目的としている。