JavaScript is required to for searching.
Omitir V�nculos de navegaci�n
Salir de la Vista de impresi�n
Guía para entornos de idiomas internacionales     Oracle Solaris 11 Information Library (Español)
PDF
search filter icon
search icon

Información del documento

Prefacio

1.  Introducción

2.  Compatibilidad de conjunto de parámetros Unicode y UTF-8

Descripción general de Unicode

Descripción general de UTF-8

Common Locale Data Repository

Conjuntos de parámetros con conjuntos de caracteres no UTF-8

Migración de conjuntos de parámetros no UTF-8 a conjuntos de parámetros UTF-8

Archivos de texto simple

Nombres de archivos y nombres de directorios

ZFS

NFS

3.  Trabajo con idiomas y configuraciones regionales

4.  Métodos de entrada y preferencias del teclado en equipos de escritorio

5.  Configuración de fuentes

6.  Temas avanzados

A.  Configuraciones regionales disponibles

Índice

Descripción general de Unicode

Unicode es el estándar de codificación de caracteres universal utilizado para la representación de texto para procesamiento del equipo. Unicode proporciona una manera consistente de codificación de texto multilingüe y facilita el intercambio de archivos de texto internacionales.

El estándar para codificación de texto multilingüe es ISO/IEC 10646. Aunque los estándares ISO/IEC 10646 y Unicode contienen todos los mismos caracteres y puntos de codificación, el estándar Unicode proporciona información adicional sobre los caracteres y su uso.

Oracle Solaris 11 admite a nivel del sistema el estándar Unicode versión 6.0 e ISO/IEC 10646:2011.

Cada carácter Unicode se asigna a un punto de código, que es un número entero entre 0 y 1114111. Se hace referencia a los puntos de código Unicode mediante la notación en formato U+nnnn, donde nnnn es el número hexadecimal del punto de código, o mediante una cadena de texto que describe el punto de código. Por ejemplo, la letra en minúscula “a” puede ser representada por U+0061 o la cadena de texto "LATIN SMALL LETTER A".

Los puntos de código se pueden codificar mediante diferentes esquemas de codificación de caracteres. En los conjuntos de parámetros Unicode de Oracle Solaris, se utiliza el formato UTF-8. UTF-8 es un formato de codificación de longitud variable de Unicode que preserva los valores de código de caracteres ASCII de manera transparente (consulte Descripción general de UTF-8).

Para obtener más detalles sobre el estándar Unicode e ISO/IEC 10646 y sus diversos formatos representativos, consulte las siguientes fuentes:

Descripción general de UTF-8

UTF-8 es un formato de codificación de longitud variable de Unicode. Este formato se utiliza en conjuntos de parámetros Unicode de Oracle Solaris.

La ventaja de este formato es que es compatible con versiones anteriores de esquemas de codificación ASCII y se evitan complicaciones de "endianness" y de orden de bytes. Los puntos de código Unicode están en UTF-8 representados por 1 a 4 bytes de 8 bits. La siguiente tabla especifica la distribución de bits para UTF-8, mostrando los rangos de puntos de código Unicode correspondientes a secuencias de 1 byte, 2 bytes, 3 bytes y 4 bytes.

Tabla 2-1 Distribución de bits de UTF-8

Rango de puntos de código
Punto de código (binario)
1er byte
2do byte
3er byte
4to byte
U+0000..U+007F
0xxxxxxx
0xxxxxxx
U+0080..U+07FF
00000yyy yyxxxxxx
110yyyyy
10xxxxxx
U+0800..U+FFFF
zzzzyyyy yyxxxxxx
1110zzzz
10yyyyyy
10xxxxxx
U+010000..U+10FFFF
000uuuuu zzzzyyyy yyxxxxxx
11110uuu
10uuzzzz
10yyyyyy
10xxxxxx

Para obtener más detalles sobre el formato de codificación UTF-8, consulte las siguientes fuentes: