탐색 링크 건너뛰기 | |
인쇄 보기 종료 | |
국제 언어 환경 설명서 Oracle Solaris 11 Information Library (한국어) |
유니코드는 컴퓨터 처리를 위한 텍스트 표현에 사용되는 범용 문자 인코딩 표준입니다. 유니코드는 일관성 있는 방식으로 다국어 텍스트를 인코딩할 수 있도록 하며 국제 텍스트 파일 교환을 원활하게 처리합니다.
다국어 텍스트 코드화 표준은 ISO/IEC 10646입니다. ISO/IEC 10646 및 유니코드 표준에 모두 동일한 문자와 인코딩 지점이 포함되어 있기는 하지만 유니코드 표준이 문자 및 문자 사용에 대한 추가 정보를 제공합니다.
Oracle Solaris 11은 유니코드 표준 버전 6.0 및 ISO/IEC 10646:2011에 대해 시스템 레벨의 지원을 제공합니다.
각 유니코드 문자는 0과 1,114,111 사이의 정수인 코드점에 매핑됩니다. 유니코드 코드점은 U+nnnn 형식의 표기법을 사용하거나 코드점을 기술하는 텍스트 문자열로 표시됩니다. 여기서 nnnn은 코드점의 16진수입니다. 예를 들어, 소문자 “a”는 U+0061 또는 텍스트 문자열 "LATIN SMALL LETTER A"로 표시할 수 있습니다.
코드점은 여러 문자 인코딩 체계를 사용하여 인코딩할 수 있습니다. Oracle Solaris 유니코드 로켈에서는 UTF-8 형식이 사용됩니다. UTF-8은 ASCII 문자 코드 값을 그대로 보존하는 유니코드 가변 길이 인코딩 형식입니다. UTF-8 개요를 참조하십시오.
유니코드 표준 및 ISO/IEC 10646과 다양한 표현 형식에 대한 자세한 내용은 다음 자료를 참조하십시오.
ISO/IEC 10646:2011, Information Technology-Universal Multiple-Octet Character Set (UCS) - Part 1: Architecture and Basic Multilingual Plane
UTF-8은 유니코드의 가변 길이 인코딩 형식입니다. 이 형식은 Oracle Solaris 유니코드 로켈에 사용됩니다.
이 형식의 이점은 ASCII 인코딩 체계와 역호환되며 엔디안 및 바이트 순서의 복잡성을 피할 수 있다는 것입니다. 유니코드 코드점은 8비트의 1-4바이트로 표현되는 UTF-8 형식입니다. 다음 표에서는 1바이트, 2바이트, 3바이트 및 4바이트 시퀀스에 해당하는 유니코드 코드점의 범위를 보여주면서 UTF-8에 대한 비트 분배를 지정합니다.
표 2-1 UTF-8의 비트 분배
|
UTF-8 인코딩 형식에 대한 자세한 내용은 다음 자료를 참조하십시오.
The Unicode Standard, Version 6.0, Chapter 3(http://www.unicode.org/versions/Unicode6.0.0/ch03.pdf), Section 3.9 “Unicode Encoding Forms”, pp. 93 - 94