Guía de entornos de idiomas internacionales para Oracle® Solaris 11.2

Salir de la Vista de impresión

Actualización: Julio de 2014
 
 

Descripción general de UTF-8

UTF-8 es un formato de codificación de longitud variable de Unicode. Este formato se utiliza en conjuntos de parámetros Unicode de Oracle Solaris.

La ventaja de este formato es que es compatible con versiones anteriores de esquemas de codificación ASCII y se evitan complicaciones de "endianness" y de orden de bytes. Los puntos de código Unicode están en UTF-8 representados por 1 a 4 bytes de 8 bits. La siguiente tabla especifica la distribución de bits para UTF-8, mostrando los rangos de puntos de código Unicode correspondientes a secuencias de 1 byte, 2 bytes, 3 bytes y 4 bytes.

Tabla 2-1  Distribución de bits de UTF-8
Rango de puntos de código
Punto de código (binario)
1er byte
2do byte
3er byte
4to byte
U+0000..U+007F
0xxxxxxx
0xxxxxxx
U+0080..U+07FF
00000yyy yyxxxxxx
110yyyyy
10xxxxxx
U+0800..U+FFFF
zzzzyyyy yyxxxxxx
1110zzzz
10yyyyyy
10xxxxxx
U+010000..U+10FFFF
000uuuuu zzzzyyyy yyxxxxxx
11110uuu
10uuzzzz
10yyyyyy
10xxxxxx

Para obtener más detalles sobre el formato de codificación UTF-8, consulte las siguientes fuentes: