Descripción general de Unicode

Unicode es el estándar de codificación de caracteres universal utilizado para la representación de texto para procesamiento del equipo. Unicode proporciona una manera consistente de codificación de texto multilingüe y facilita el intercambio de archivos de texto internacionales.

El estándar para codificación de texto multilingüe es ISO/IEC 10646. Aunque los estándares ISO/IEC 10646 y Unicode contienen todos los mismos caracteres y puntos de codificación, el estándar Unicode proporciona información adicional sobre los caracteres y su uso.

Oracle Solaris 11 admite a nivel del sistema el estándar Unicode versión 6.0 e ISO/IEC 10646:2011.

Cada carácter Unicode se asigna a un punto de código, que es un número entero entre 0 y 1114111. Se hace referencia a los puntos de código Unicode mediante la notación en formato U+nnnn, donde nnnn es el número hexadecimal del punto de código, o mediante una cadena de texto que describe el punto de código. Por ejemplo, la letra en minúscula “a” puede ser representada por U+0061 o la cadena de texto "LATIN SMALL LETTER A".

Los puntos de código se pueden codificar mediante diferentes esquemas de codificación de caracteres. En los conjuntos de parámetros Unicode de Oracle Solaris, se utiliza el formato UTF-8. UTF-8 es un formato de codificación de longitud variable de Unicode que preserva los valores de código de caracteres ASCII de manera transparente (consulte Descripción general de UTF-8).

Para obtener más detalles sobre el estándar Unicode e ISO/IEC 10646 y sus diversos formatos representativos, consulte las siguientes fuentes:

The Unicode Standard, Version 6.0 from the Unicode Consortium
ISO/IEC 10646:2011, conjunto de caracteres de múltiples octetos de tecnología universal (UCS): parte 1: arquitectura y planificación multilingüe básica
The Unicode Consortium web site

Descripción general de `UTF-8`

UTF-8 es un formato de codificación de longitud variable de Unicode. Este formato se utiliza en conjuntos de parámetros Unicode de Oracle Solaris.

La ventaja de este formato es que es compatible con versiones anteriores de esquemas de codificación ASCII y se evitan complicaciones de "endianness" y de orden de bytes. Los puntos de código Unicode están en UTF-8 representados por 1 a 4 bytes de 8 bits. La siguiente tabla especifica la distribución de bits para UTF-8, mostrando los rangos de puntos de código Unicode correspondientes a secuencias de 1 byte, 2 bytes, 3 bytes y 4 bytes.

Tabla 2-1 Distribución de bits de UTF-8

Rango de puntos de código	Punto de código (binario)	1er byte	2do byte	3er byte	4to byte
`U+0000`..`U+007F`	`0xxxxxxx`	`0xxxxxxx`
`U+0080`..`U+07FF`	`00000yyy yyxxxxxx`	`110yyyyy`	`10xxxxxx`
`U+0800`..`U+FFFF`	`zzzzyyyy yyxxxxxx`	`1110zzzz`	`10yyyyyy`	`10xxxxxx`
`U+010000`..`U+10FFFF`	`000uuuuu zzzzyyyy yyxxxxxx`	`11110uuu`	`10uuzzzz`	`10yyyyyy`	`10xxxxxx`

Para obtener más detalles sobre el formato de codificación UTF-8, consulte las siguientes fuentes:

El estándar Unicode versión 6.0, capítulo 3 (http://www.unicode.org/versions/Unicode6.0.0/ch03.pdf), sección 3.9 “formatos de codificación Unicode”, páginas 93 - 94
The Unicode Consortium web site

Omitir V�nculos de navegaci�n
Salir de la Vista de impresi�n
	Guía para entornos de idiomas internacionales Oracle Solaris 11 Information Library (Español)

Descripción general de Unicode

Descripción general de UTF-8

Descripción general de `UTF-8`