Descripción general de Unicode

Idioma:

Unicode es el estándar de codificación de caracteres universal utilizado para la representación de texto para procesamiento del equipo. Unicode proporciona una manera consistente de codificación de texto multilingüe y facilita el intercambio de archivos de texto internacionales.

El estándar para codificación de texto multilingüe es ISO/IEC 10646. Aunque los estándares ISO/IEC 10646 y Unicode contienen todos los mismos caracteres y puntos de codificación, el estándar Unicode proporciona información adicional sobre los caracteres y su uso.

Oracle Solaris 11 admite a nivel del sistema el estándar Unicode versión 6.0 e ISO/IEC 10646:2011.

Cada carácter Unicode se asigna a un punto de código, que es un número entero entre 0 y 1114111. Se hace referencia a los puntos de código Unicode mediante la notación en formato U+nnnn, donde nnnn es el número hexadecimal del punto de código, o mediante una cadena de texto que describe el punto de código. Por ejemplo, la letra en minúscula “a” puede ser representada por U+0061 o la cadena de texto "LATIN SMALL LETTER A".

Los puntos de código se pueden codificar mediante diferentes esquemas de codificación de caracteres. En los conjuntos de parámetros Unicode de Oracle Solaris, se utiliza el formato UTF-8. UTF-8 es un formato de codificación de longitud variable de Unicode que preserva los valores de código de caracteres ASCII de manera transparente (consulte UTF-8 Overview).

Para obtener más detalles sobre el estándar Unicode e ISO/IEC 10646 y sus diversos formatos representativos, consulte las siguientes fuentes:

The Unicode Standard, Version 6.0 from the Unicode Consortium
ISO/IEC 10646:2011, conjunto de caracteres de múltiples octetos de tecnología universal (UCS): parte 1: arquitectura y planificación multilingüe básica
The Unicode Consortium web site