UTF-8 es un formato de codificación de longitud variable de Unicode. Este formato se utiliza en conjuntos de parámetros Unicode de Oracle Solaris.
La ventaja de este formato es que es compatible con versiones anteriores de esquemas de codificación ASCII y se evitan complicaciones de "endianness" y de orden de bytes. Los puntos de código Unicode están en UTF-8 representados por 1 a 4 bytes de 8 bits. La siguiente tabla especifica la distribución de bits para UTF-8, mostrando los rangos de puntos de código Unicode correspondientes a secuencias de 1 byte, 2 bytes, 3 bytes y 4 bytes.
|
Para obtener más detalles sobre el formato de codificación UTF-8, consulte las siguientes fuentes:
El estándar Unicode versión 6.0, capítulo 3 (http://www.unicode.org/versions/Unicode6.0.0/ch03.pdf), sección 3.9 “formatos de codificación Unicode”, páginas 93 - 94