UTF-8은 유니코드의 가변 길이 인코딩 형식입니다. 이 형식은 Oracle Solaris 유니코드 로켈에 사용됩니다.
이 형식의 이점은 ASCII 인코딩 체계와 역호환되며 엔디안 및 바이트 순서의 복잡성을 피할 수 있다는 것입니다. 유니코드 코드점은 8비트의 1-4바이트로 표현되는 UTF-8 형식입니다. 다음 표에서는 1바이트, 2바이트, 3바이트 및 4바이트 시퀀스에 해당하는 유니코드 코드점의 범위를 보여주면서 UTF-8에 대한 비트 분배를 지정합니다.
|
UTF-8 인코딩 형식에 대한 자세한 내용은 다음 자료를 참조하십시오.
Unicode Standard, 버전 6.0, 3장(http://www.unicode.org/versions/Unicode6.0.0/ch03.pdf), 3.9절 “Unicode Encoding Forms”, pp. 93 - 94