Ignorer les liens de navigation | |
Quitter l'aperu | |
Guide des environnements linguistiques internationaux pour Oracle Solaris 11.1 Oracle Solaris 11.1 Information Library (Français) |
Oracle Solaris et le marché mondial
Présentation de l'internationalisation et de la localisation
Qu'est-ce qu'un environnement linguistique ?
Catégories d'environnement linguistique
Environnements linguistiques principaux
Comportement affecté par les environnements linguistiques
Formats monétaires internationaux
2. Prise en charge des environnements linguistiques Unicode et UTF-8
3. Utilisation des langues et des environnements linguistiques
4. Préférences du clavier et méthodes d'entrée
Cette section décrit des différences importantes entre les langues.
En anglais, les mots sont généralement séparés par une espace. Cependant, les langues telles que le chinois, le japonais et le thaï n'utilisent pas de séparateurs de mots.
L'ordre de tri de caractères particuliers varie en fonction des langues. Par exemple, le caractère "ö" est groupé avec le "o" ordinaire en allemand, mais pas en suédois, où il est la dernière lettre de l'alphabet. Dans certaines langues, des caractères ont une graisse pour déterminer la priorité des séquences de caractères. Par exemple, le dictionnaire thaï définit le tri via les séquences de caractères qui ont différentes graisses.
Les jeux de caractères peuvent varier en termes de nombre de caractères alphabétiques et spéciaux. Alors que l'alphabet anglais contient seulement 26 caractères, certaines langues en contiennent beaucoup plus. Par exemple, le japonais contient plus de 20 000 caractères et le chinois en contient encore plus.
Les alphabets de la plupart des pays d'Europe occidentale sont similaires à l'alphabet de 26 caractères standard utilisé dans les pays anglophones. Ces alphabets incluent souvent des caractères de base supplémentaires, des caractères marqués ou accentués et des ligatures.
L'écriture japonaise se compose de trois différents scripts mélangés :
Les kanji (idéogrammes) viennent du chinois
Les hiragana et les katakana sont deux scripts phonétiques (ou syllabaires)
Bien que chaque hiragana ait un équivalent katakana, les hiragana sont le script le plus courant, avec une apparence cursive plutôt que rectiligne. Les kanji servent à écrire les mots racine. Les katakana servent principalement à retranscrire les mots étrangers, c'est-à-dire des mots importés d'autres langues en japonais.
Il existe des dizaines de milliers de kanji, mais le nombre de caractères couramment utilisés baisse régulièrement. Actuellement, environ 3 500 caractères sont fréquemment utilisés, bien qu'un écrivain japonais moyen dispose d'un vocabulaire de 2 000 kanji. Néanmoins, les systèmes informatiques doivent prendre en charge plus de 7 000 caractères pour respecter les exigences de la norme industrielle japonaise (JIS, Japanese Industrial Standard). De plus, il existe environ 170 hiragana et katakana. En moyenne, les textes japonais sont composés à 55 % de hiragana, à 35 % de kanji et à 10 % de katakana. Les chiffres arabes et les lettres latines sont également présents en japonais.
Bien qu'il soit possible d'éviter d'utiliser les kanji, la plupart des lecteurs japonais trouvent les textes sans kanji difficiles à comprendre.
Les textes coréens peuvent s'écrire avec un système phonétique appelé hangul. L'hangul comporte plus de 11 000 caractères, qui se composent de consonnes et de voyelles appelées jamos. Environ 3 000 caractères sur la totalité des caractères hangul sont utilisés dans les systèmes informatiques coréens. Le coréen utilise aussi des idéogrammes, basés sur le jeu inventé en Chine, appelés hanja. Le coréen nécessite plus de 6 000 hanja. Le hanja est principalement utilisé pour éviter les confusions quand le hangul serait ambigu. Les caractères hangul sont une combinaison de consonnes et de voyelles. Une fois ces caractères combinés, ils forment une syllabe ou hangul. Les hangul sont souvent arrangés en carré, de sorte que le groupe créé occupe le même espace qu'un hanja. Les chiffres arabes, les lettres latines et des symboles spéciaux sont également présents en coréen.
Un caractère thaï peut être défini comme une position en colonne sur un écran d'affichage avec quatre cellules d'affichage. Chaque position de colonne peut comporter jusqu'à 3 caractères. La composition d'une cellule d'affichage est basée sur la classification du caractère thaï. Certains caractères thaï sont composés avec la classification d'un autre caractère. Si les deux caractères peuvent être combinés, les deux caractères sont dans la même cellule. Dans le cas contraire, ils sont dans des cellules séparées.
Le chinois se compose entièrement de caractères du script idéographique appelé hanzi.
En République populaire de Chine, il y a environ 7 000 hanzi dans le jeu de caractères GB2312 (environnement linguistique zh_CN.EUC), plus de 20 000 caractères dans le jeu de caractères GBK (environnement linguistique zh_CN.GBK) et environ 30 000 caractère dans le jeu de caractères GB18030-2000 (environnement linguistique zh_CN.GB18030), dont tous les caractères CJK Unified Ideographs Extension A définis dans l'Unicode 6.0.
A Taïwan, les jeux de caractères les plus fréquemment utilisés sont CNS11643-1992 (environnement linguistique zh_TW.EUC) et Big5 (environnement linguistique zh_TW.BIG5). Ils partagent environ 13 000 hanzi.
A Hong Kong, 4 702 caractères ont été ajoutés au jeu de caractères Big5 pour devenir le jeu de caractères Big5-HKSCS (environnement linguistique zh_HK.BIG5HK).
Si un caractère n'est pas un caractère racine, il se compose généralement de deux parties ou plus, deux étant le plus courant. Dans les caractères en deux parties, une partie représente généralement le sens et l'autre la prononciation. Il arrive que les deux parties représentent le sens. Le radical est l'élément le plus important, et les caractères sont traditionnellement arrangés par radical, dont il existe plusieurs centaines. Un son peut être représenté par de nombreux caractères différents, qui ne sont pas interchangeables à l'usage. Un caractère peut avoir différentes prononciations.
Certains caractères sont plus appropriés que d'autres en fonction du contexte. Le caractère approprié est distingué phonétiquement par l'utilisation de tons. A contrario, le japonais et le coréen n'ont pas de tons à l'oral.
Plusieurs systèmes phonétiques représentent le chinois. En République populaire de Chine, le plus commun est pinyin, qui utilise des caractères latins et est largement utilisé en occident pour les noms de lieu comme Beijing. Le système Wade-Giles est un ancien système phonétique, autrefois utilisé pour des noms de lieux comme Pékin. A Taïwan, on utilise fréquemment le zhuyin (ou bopomofo), un alphabet phonétique avec des formes de lettres uniques.
L'hébreu sert à l'écriture de scripts dans les langues hébraïque et yiddish. L'hébreu utilise un texte bidirectionnel. Les lettres hébraïques sont écrites et lues de droite à gauche, alors que les chiffres se lisent de gauche à droite. Tout texte anglais inséré dans un texte en hébreu se lit également de gauche à droite.
L'hébreu utilise un alphabet de 27 caractères et tire ses signes de ponctuation et ses chiffres de l'alphabet latin standard (ou anglais). Les textes hébraïques incluent des voyelles et des marques de prononciation. Ces marques se présentent comme un point (daguech) à l'intérieur du caractère de base, des marques de voyelle sous le caractère ou des accents dans la partie supérieure gauche du caractère. Ces marques sont généralement réservées aux textes liturgiques et sont rares au quotidien. L'hébreu n'a pas de majuscules.
L'écriture hindi est parfois appelée devanagari. L'hindi est une langue phonétique, écrite sous la forme de séries de syllabes. Chaque syllabe est composée de pièces alphabétiques (les caractères devanagari) de trois types : des consonnes, des voyelles indépendantes et des signes de voyelle dépendante. La syllabe elle-même comporte un noyau qui se compose d'une consonne et d'une voyelle, avec une consonne précédente optionnelle. Contrairement à l'anglais, qui commence sur une ligne de base, les caractères devanagari pendent d'une ligne horizontale tracée à leur sommet. Ces caractères peuvent se combiner ou changer de forme en fonction du contexte. Comme l'hébreu, l'hindi ne fait pas de distinction entre les majuscules et les minuscules.
Tous les caractères américains n'apparaissent pas sur d'autres claviers. De même, d'autres claviers contiennent souvent beaucoup de caractères qui n'existent pas sur les claviers américains.
N'importe quel clavier peut servir à saisir n'importe quel caractère de n'importe quel environnement linguistique car la saisie est gérée par le Système d'exploitation Oracle Solaris.
Dans chaque pays, un petit nombre de formats de papier est couramment utilisé. Normalement, un de ces formats est beaucoup plus courant que les autres. La plupart des pays respectent la norme ISO 216 : “Writing paper and certain classes of printed matter-Trimmed sizes-A and B series.”
Les applications internationalisées ne doivent pas supposer les formats de pages disponibles. Le système Oracle Solaris ne fournit pas de prise en charge pour suivre le format des pages de sortie. Ce suivi est la responsabilité du programme d'application. Le tableau ci-dessous présente les formats de pages internationaux courants.
Tableau 1-6 Formats de pages internationaux courants
|