Présentation d'Unicode

Unicode est la norme universelle de codage de caractères, utilisée pour représenter du texte dans le cadre du traitement informatique. Unicode offre un moyen cohérent de coder du texte multilingue et simplifie l'échange de fichiers texte internationaux.

La norme pour le codage de texte multilingue est ISO/IEC 10646. Bien que ISO/IEC 10646 et Unicode contiennent les mêmes caractères et points de code, Unicode offre des informations supplémentaires sur les caractères et leur utilisation.

Oracle Solaris 11 offre la prise en charge à l'échelle du système des normes Unicode Version 6.0 et ISO/IEC 10646:2011.

Chaque caractère Unicode est associé à un point de code, un entier compris entre 0 et 1 114 111. Les points de code Unicode sont notés sous la forme U+nnnn, où nnnn est l'hexadécimal de point de code, ou sous forme d'une chaîne de texte descriptive. Par exemple, la lettre minuscule “a” peut être représentée par U+0061 ou par la chaîne de texte "LATIN SMALL LETTER A".

Les points de code peuvent être codés selon divers schémas de codage de caractères. Les environnements linguistiques Unicode d'Oracle Solaris utilisent la forme UTF-8. UTF-8 est une forme de codage de longueur variable d'Unicode, qui conserve les valeurs de code de caractère ASCII de manière transparente. Reportez-vous à la section Présentation d'UTF-8.

Pour plus de détails sur les normes Unicode et ISO/IEC 10646 et leurs diverses formes de représentation, reportez-vous aux sources suivantes :

Norme Unicode, version 6.0 du Consortium Unicode
ISO/IEC 10646:2011, Technologies de l'information -- Jeu universel de caractères codés à plusieurs octets - Partie 1 : Architecture et table multilingue
Site Web du Consortium Unicode

Présentation d'`UTF-8`

UTF-8 est une forme de codage à longueur variable d'Unicode. Cette forme est utilisée dans les environnements linguistiques Unicode d'Oracle Solaris.

Elle présente l'avantage d'être rétrocompatible avec le schéma de codage ASCII et d'éviter les complications liées à l'endianness et à l'ordre des octets. Dans UTF-8, les points de code Unicode sont représentés par un, deux, trois ou quatre octets de 8 bits. Le tableau suivant répertorie la distribution de bits pour UTF-8 et indique les plages de points de code Unicode correspondant aux séquences de un, deux, trois et quatre octets.

Tableau 2-1 Distribution de bits d'UTF-8

Plage de points de code	Point de code (binaire)	1er octet	2è octet	3è octet	4è octet
`U+0000`..`U+007F`	`0xxxxxxx`	`0xxxxxxx`
`U+0080`..`U+07FF`	`00000yyy yyxxxxxx`	`110yyyyy`	`10xxxxxx`
`U+0800`..`U+FFFF`	`zzzzyyyy yyxxxxxx`	`1110zzzz`	`10yyyyyy`	`10xxxxxx`
`U+010000`..`U+10FFFF`	`000uuuuu zzzzyyyy yyxxxxxx`	`11110uuu`	`10uuzzzz`	`10yyyyyy`	`10xxxxxx`

Pour plus d'informations sur la forme de codage UTF-8, reportez-vous aux sources suivantes :

Norme Unicode, Version 6.0, Chapitre 3 (http://www.unicode.org/versions/Unicode6.0.0/ch03.pdf), Section 3.9 “Unicode Encoding Forms”, pp. 93 - 94
Site Web du Consortium Unicode

Ignorer les liens de navigation
Quitter l'aperu
	Guide des environnements linguistiques internationaux Oracle Solaris 11 Information Library (Français)

Présentation d'Unicode

Présentation d'UTF-8

Présentation d'`UTF-8`