유니코드 개요

유니코드는 컴퓨터 처리를 위한 텍스트 표현에 사용되는 범용 문자 인코딩 표준입니다. 유니코드는 일관성 있는 방식으로 다국어 텍스트를 인코딩할 수 있도록 하며 국제 텍스트 파일 교환을 원활하게 처리합니다.

다국어 텍스트 코드화 표준은 ISO/IEC 10646입니다. ISO/IEC 10646 및 유니코드 표준에 모두 동일한 문자와 인코딩 지점이 포함되어 있기는 하지만 유니코드 표준이 문자 및 문자 사용에 대한 추가 정보를 제공합니다.

Oracle Solaris 11은 유니코드 표준 버전 6.0 및 ISO/IEC 10646:2011에 대해 시스템 레벨의 지원을 제공합니다.

각 유니코드 문자는 0과 1,114,111 사이의 정수인 코드점에 매핑됩니다. 유니코드 코드점은 U+nnnn 형식의 표기법을 사용하거나 코드점을 기술하는 텍스트 문자열로 표시됩니다. 여기서 nnnn은 코드점의 16진수입니다. 예를 들어, 소문자 “a”는 U+0061 또는 텍스트 문자열 "LATIN SMALL LETTER A"로 표시할 수 있습니다.

코드점은 여러 문자 인코딩 체계를 사용하여 인코딩할 수 있습니다. Oracle Solaris 유니코드 로켈에서는 UTF-8 형식이 사용됩니다. UTF-8은 ASCII 문자 코드 값을 그대로 보존하는 유니코드 가변 길이 인코딩 형식입니다. UTF-8 개요를 참조하십시오.

유니코드 표준 및 ISO/IEC 10646과 다양한 표현 형식에 대한 자세한 내용은 다음 자료를 참조하십시오.

Unicode Consortium의 유니코드 표준 버전 6.0
ISO/IEC 10646:2011, Information Technology-Universal Multiple-Octet Character Set (UCS) - Part 1: Architecture and Basic Multilingual Plane
Unicode Consortium 웹 사이트

`UTF-8` 개요

UTF-8은 유니코드의 가변 길이 인코딩 형식입니다. 이 형식은 Oracle Solaris 유니코드 로켈에 사용됩니다.

이 형식의 이점은 ASCII 인코딩 체계와 역호환되며 엔디안 및 바이트 순서의 복잡성을 피할 수 있다는 것입니다. 유니코드 코드점은 8비트의 1-4바이트로 표현되는 UTF-8 형식입니다. 다음 표에서는 1바이트, 2바이트, 3바이트 및 4바이트 시퀀스에 해당하는 유니코드 코드점의 범위를 보여주면서 UTF-8에 대한 비트 분배를 지정합니다.

표 2-1 UTF-8의 비트 분배

코드점 범위	코드점(이진)	첫번째 바이트	두번째 바이트	세번째 바이트	네번째 바이트
`U+0000`..`U+007F`	`0xxxxxxx`	`0xxxxxxx`
`U+0080`..`U+07FF`	`00000yyy yyxxxxxx`	`110yyyyy`	`10xxxxxx`
`U+0800`..`U+FFFF`	`zzzzyyyy yyxxxxxx`	`1110zzzz`	`10yyyyyy`	`10xxxxxx`
`U+010000`..`U+10FFFF`	`000uuuuu zzzzyyyy yyxxxxxx`	`11110uuu`	`10uuzzzz`	`10yyyyyy`	`10xxxxxx`

UTF-8 인코딩 형식에 대한 자세한 내용은 다음 자료를 참조하십시오.

The Unicode Standard, Version 6.0, Chapter 3(http://www.unicode.org/versions/Unicode6.0.0/ch03.pdf), Section 3.9 “Unicode Encoding Forms”, pp. 93 - 94
Unicode Consortium 웹 사이트

탐색 링크 건너뛰기
인쇄 보기 종료
	국제 언어 환경 설명서 Oracle Solaris 11 Information Library (한국어)

유니코드 개요

UTF-8 개요

`UTF-8` 개요