Oracle® Solaris 11.2의 국제 언어 환경 설명서

인쇄 보기 종료

업데이트 날짜: 2014년 7월
 
 

UTF-8 개요

UTF-8은 유니코드의 가변 길이 인코딩 형식입니다. 이 형식은 Oracle Solaris 유니코드 로켈에 사용됩니다.

이 형식의 이점은 ASCII 인코딩 체계와 역호환되며 엔디안 및 바이트 순서의 복잡성을 피할 수 있다는 것입니다. 유니코드 코드점은 8비트의 1-4바이트로 표현되는 UTF-8 형식입니다. 다음 표에서는 1바이트, 2바이트, 3바이트 및 4바이트 시퀀스에 해당하는 유니코드 코드점의 범위를 보여주면서 UTF-8에 대한 비트 분배를 지정합니다.

표 2-1  UTF-8의 비트 분배
코드점 범위
코드점(이진)
첫번째 바이트
두번째 바이트
세번째 바이트
네번째 바이트
U+0000..U+007F
0xxxxxxx
0xxxxxxx
U+0080..U+07FF
00000yyy yyxxxxxx
110yyyyy
10xxxxxx
U+0800..U+FFFF
zzzzyyyy yyxxxxxx
1110zzzz
10yyyyyy
10xxxxxx
U+010000..U+10FFFF
000uuuuu zzzzyyyy yyxxxxxx
11110uuu
10uuzzzz
10yyyyyy
10xxxxxx

UTF-8 인코딩 형식에 대한 자세한 내용은 다음 자료를 참조하십시오.