Omitir V�nculos de navegaci�n | |
Salir de la Vista de impresi�n | |
![]() |
Guía para entornos de idiomas internacionales Oracle Solaris 11 Information Library (Español) |
2. Compatibilidad de conjunto de parámetros Unicode y UTF-8
Conjuntos de parámetros con conjuntos de caracteres no UTF-8
Migración de conjuntos de parámetros no UTF-8 a conjuntos de parámetros UTF-8
Nombres de archivos y nombres de directorios
3. Trabajo con idiomas y configuraciones regionales
4. Métodos de entrada y preferencias del teclado en equipos de escritorio
Unicode es el estándar de codificación de caracteres universal utilizado para la representación de texto para procesamiento del equipo. Unicode proporciona una manera consistente de codificación de texto multilingüe y facilita el intercambio de archivos de texto internacionales.
El estándar para codificación de texto multilingüe es ISO/IEC 10646. Aunque los estándares ISO/IEC 10646 y Unicode contienen todos los mismos caracteres y puntos de codificación, el estándar Unicode proporciona información adicional sobre los caracteres y su uso.
Oracle Solaris 11 admite a nivel del sistema el estándar Unicode versión 6.0 e ISO/IEC 10646:2011.
Cada carácter Unicode se asigna a un punto de código, que es un número entero entre 0 y 1114111. Se hace referencia a los puntos de código Unicode mediante la notación en formato U+nnnn, donde nnnn es el número hexadecimal del punto de código, o mediante una cadena de texto que describe el punto de código. Por ejemplo, la letra en minúscula “a” puede ser representada por U+0061 o la cadena de texto "LATIN SMALL LETTER A".
Los puntos de código se pueden codificar mediante diferentes esquemas de codificación de caracteres. En los conjuntos de parámetros Unicode de Oracle Solaris, se utiliza el formato UTF-8. UTF-8 es un formato de codificación de longitud variable de Unicode que preserva los valores de código de caracteres ASCII de manera transparente (consulte Descripción general de UTF-8).
Para obtener más detalles sobre el estándar Unicode e ISO/IEC 10646 y sus diversos formatos representativos, consulte las siguientes fuentes:
The Unicode Standard, Version 6.0 from the Unicode Consortium
ISO/IEC 10646:2011, conjunto de caracteres de múltiples octetos de tecnología universal (UCS): parte 1: arquitectura y planificación multilingüe básica
UTF-8 es un formato de codificación de longitud variable de Unicode. Este formato se utiliza en conjuntos de parámetros Unicode de Oracle Solaris.
La ventaja de este formato es que es compatible con versiones anteriores de esquemas de codificación ASCII y se evitan complicaciones de "endianness" y de orden de bytes. Los puntos de código Unicode están en UTF-8 representados por 1 a 4 bytes de 8 bits. La siguiente tabla especifica la distribución de bits para UTF-8, mostrando los rangos de puntos de código Unicode correspondientes a secuencias de 1 byte, 2 bytes, 3 bytes y 4 bytes.
Tabla 2-1 Distribución de bits de UTF-8
|
Para obtener más detalles sobre el formato de codificación UTF-8, consulte las siguientes fuentes:
El estándar Unicode versión 6.0, capítulo 3 (http://www.unicode.org/versions/Unicode6.0.0/ch03.pdf), sección 3.9 “formatos de codificación Unicode”, páginas 93 - 94