JavaScript is required to for searching.
Ignorer les liens de navigation
Quitter l'aperu
Guide des environnements linguistiques internationaux     Oracle Solaris 11 Information Library (Fran├žais)
PDF
search filter icon
search icon

Informations document

Préface

1.  Introduction

2.  Prise en charge des environnements linguistiques Unicode et UTF-8

Présentation d'Unicode

Présentation d'UTF-8

Common Locale Data Repository

Environnements linguistiques avec jeux de caractères non UTF-8

Migration d'environnements linguistiques non-UTF-8 vers des environnements linguistiques UTF-8

Fichiers de texte brut

Noms de fichiers et de répertoires

ZFS

NFS

3.  Utilisation des langues et des environnements linguistiques

4.  Préférences du clavier et méthodes d'entrée

5.  Configuration des polices

6.  Rubriques avancées

A.  Environnements linguistiques disponibles

Index

Présentation d'Unicode

Unicode est la norme universelle de codage de caractères, utilisée pour représenter du texte dans le cadre du traitement informatique. Unicode offre un moyen cohérent de coder du texte multilingue et simplifie l'échange de fichiers texte internationaux.

La norme pour le codage de texte multilingue est ISO/IEC 10646. Bien que ISO/IEC 10646 et Unicode contiennent les mêmes caractères et points de code, Unicode offre des informations supplémentaires sur les caractères et leur utilisation.

Oracle Solaris 11 offre la prise en charge à l'échelle du système des normes Unicode Version 6.0 et ISO/IEC 10646:2011.

Chaque caractère Unicode est associé à un point de code, un entier compris entre 0 et 1 114 111. Les points de code Unicode sont notés sous la forme U+nnnn, où nnnn est l'hexadécimal de point de code, ou sous forme d'une chaîne de texte descriptive. Par exemple, la lettre minuscule “a” peut être représentée par U+0061 ou par la chaîne de texte "LATIN SMALL LETTER A".

Les points de code peuvent être codés selon divers schémas de codage de caractères. Les environnements linguistiques Unicode d'Oracle Solaris utilisent la forme UTF-8. UTF-8 est une forme de codage de longueur variable d'Unicode, qui conserve les valeurs de code de caractère ASCII de manière transparente. Reportez-vous à la section Présentation d'UTF-8.

Pour plus de détails sur les normes Unicode et ISO/IEC 10646 et leurs diverses formes de représentation, reportez-vous aux sources suivantes :

Présentation d'UTF-8

UTF-8 est une forme de codage à longueur variable d'Unicode. Cette forme est utilisée dans les environnements linguistiques Unicode d'Oracle Solaris.

Elle présente l'avantage d'être rétrocompatible avec le schéma de codage ASCII et d'éviter les complications liées à l'endianness et à l'ordre des octets. Dans UTF-8, les points de code Unicode sont représentés par un, deux, trois ou quatre octets de 8 bits. Le tableau suivant répertorie la distribution de bits pour UTF-8 et indique les plages de points de code Unicode correspondant aux séquences de un, deux, trois et quatre octets.

Tableau 2-1 Distribution de bits d'UTF-8

Plage de points de code
Point de code (binaire)
1er octet
2è octet
3è octet
4è octet
U+0000..U+007F
0xxxxxxx
0xxxxxxx
U+0080..U+07FF
00000yyy yyxxxxxx
110yyyyy
10xxxxxx
U+0800..U+FFFF
zzzzyyyy yyxxxxxx
1110zzzz
10yyyyyy
10xxxxxx
U+010000..U+10FFFF
000uuuuu zzzzyyyy yyxxxxxx
11110uuu
10uuzzzz
10yyyyyy
10xxxxxx

Pour plus d'informations sur la forme de codage UTF-8, reportez-vous aux sources suivantes :