Diferencias de letras y palabras entre los idiomas

En esta sección, se describen las diferencias importantes entre los idiomas.

Delimitadores de palabras

En inglés, las palabras, generalmente, se separan con un carácter de espacio. Otros idiomas, como el chino, el japonés y el tailandés, sin embargo, no suelen tener delimitadores entre las palabras.

Criterio de ordenación

El criterio de ordenación para determinados caracteres no es el mismo en todos los idiomas. Por ejemplo, el carácter “ö” se ordena con la “o” común en Alemania, pero se ordena por separado en Suecia, donde es la última letra del alfabeto. En algunos idiomas, los caracteres tienen peso para determinar la prioridad de las secuencias de los caracteres. Por ejemplo, el diccionario tailandés define la ordenación mediante las secuencias de caracteres que tienen diferentes pesos.

Conjuntos de caracteres

Los conjuntos de caracteres pueden diferir en la cantidad de caracteres alfabéticos y caracteres especiales. Mientras que el alfabeto inglés contiene sólo 26 caracteres, algunos idiomas contienen muchos más. El japonés, por ejemplo, puede contener más de 20.000 caracteres, y el chino puede contener incluso un número superior de caracteres.

Alfabetos europeos occidentales

Los alfabetos de la mayoría de los países europeos occidentales son similares al alfabeto estándar de 26 caracteres que se utiliza en países de habla inglesa. A menudo, estos alfabetos también incluyen algunos caracteres básicos adicionales, algunos caracteres marcados o acentuados, y algunas ligaduras.

Texto en japonés

El texto en japonés está compuesto por tres sistemas de escritura diferentes mezclados todos juntos:

Idiogramas kanji derivados del chino
Hiragana y katakana, dos sistemas de escritura fonéticos (o silabarios)

Si bien cada carácter en hiragama tiene un equivalente en katakana, hiragana es el sistema de escritura más común, con letras cursivas en lugar de letras con estilo de bloque. Los caracteres kanji se utilizan para escribir palabras raíz. Katakana es el sistema de escritura más usado para representar palabras "extranjeras", es decir, palabras importadas de idiomas que no son japonés.

Kanji tiene decenas de miles de caracteres, pero el número de caracteres más usados ha disminuido a un ritmo constante con el correr de los años. Ahora sólo alrededor de 3500 caracteres se utilizan con frecuencia, aunque el escritor japonés promedio tiene un vocabulario de alrededor de 2000 caracteres kanji. No obstante, los sistemas informáticos deben admitir más de 7000 caracteres de acuerdo con los requisitos del estándar industrial japonés (JIS). Además, hay aproximadamente 170 caracteres hiragana y katakana. En promedio, el 55% del texto en japonés es hiragana; el 35%, kanji; y el 10%, katakana. Los numerales arábigos y las letras romanas también están presentes en el texto en japonés.

Aunque se puede evitar por completo el uso de kanji, a la mayoría de los lectores japoneses les resulta complicado entender un texto que está escrito sin kanji.

Texto en coreano

El texto en coreano se puede escribir usando un sistema de escritura fonético denominado hangul. Hangul tiene más de 11.000 caracteres, que están compuestos por consonantes y vocales conocidos como jamos. Por lo general, alrededor de 3000 caracteres de todo el vocabulario de caracteres hangul se utilizan en sistemas informáticos coreanos. El texto en coreano también usa ideogramas basados en el conjunto inventado en China, denominado hanja. El texto en coreano requiere más de 6000 caracteres hanja. Hanja se utiliza principalmente para evitar confusiones cuando hangul puede ser ambiguo. Los caracteres hangul se forman combinando consonantes y vocales. Una vez que estos caracteres se combinan, pueden formar una sílaba, que es un carácter hangul. Los caracteres hangul generalmente se colocan en forma de cuadrado, de modo que el grupo ocupa el mismo espacio que un carácter hanja. Los numerales arábigos, las letras romanas y los caracteres de símbolos especiales también están presentes en el texto en coreano.

Texto en tailandés

Un carácter tailandés se puede definir como una posición de columna en una pantalla con cuatro celdas de visualización. Cada posición de columna puede tener hasta tres caracteres. La composición de una celda de visualización se basa en la clasificación de los caracteres tailandeses. Algunos caracteres tailandeses pueden estar compuestos con otra clasificación de caracteres. Si ambos caracteres se pueden componer juntos, ambos caracteres están en la misma celda. De lo contrario, están en celdas separadas.

Texto en chino

El texto en chino usualmente está formado, en su totalidad, por caracteres del sistema de escritura ideográfico denominado hanzi.

En la República Popular China, hay alrededor de 7000 caracteres hanzi que se usan habitualmente en GB2312 (configuración regional zh_CN.EUC), más de 20.000 caracteres en el conjunto de caracteres GBK (configuración regional zh_CN.GBK) y alrededor de 30.000 caracteres en el conjunto de caracteres GB18030-2000 (configuración regional zh_CN.GB18030), incluidos todos caracteres de extensión A de ideogramas unificados CJK en Unicode 6.0.
En Taiwán, los conjuntos de caracteres que se usan con más frecuencia son CNS11643-1992 (configuración regional zh_TW.EUC) y Big5 (configuración regional zh_TW.BIG5). Comparten aproximadamente 13.000 caracteres hanzi.
En Hong Kong, se han agregado 4702 caracteres al conjunto de caracteres Big5 para formar el conjunto de caracteres Big5-HKSCS (configuración regional zh_HK.BIG5HK).

Si un carácter no es un carácter raíz, éste suele estar formado por dos (lo más común) o más partes. En los caracteres de dos partes, una parte, por lo general, representa el significado, y la otra representa la pronunciación. De vez en cuando, ambas partes representan el significado. El radical es el elemento más importante, y los caracteres tradicionalmente están ordenados por radical (del cual hay varios cientos). Un solo sonido se puede representar con muchos caracteres diferentes, que no se pueden intercambiar en el uso. Un solo carácter puede tener diferentes sonidos.

Algunos caracteres son más adecuados que otros en un contexto determinado. El carácter apropiado se distingue fonéticamente por el uso de tonos. En contraste, el japonés y el coreano hablados no tienen tonos.

Varios sistemas fonéticos representan el chino. En la República Popular China, el más común es pinyin, que utiliza caracteres romanos y se utiliza ampliamente en el occidente para referirse a nombres de lugares, como Pekín. El sistema Wade-Giles es un sistema fonético más antiguo, que se usaba anteriormente para nombres de lugares, como Pekín. En Taiwán zhuyin (o bopomofo), un alfabeto fonético con formas de letras únicas, se suele usar en su lugar.

Texto en hebreo

El texto en hebreo se usa para escribir en los idiomas hebreo y yidis. El hebreo usa un sistema de escritura bidireccional. Las letras hebreas se escriben y se leen de derecha a izquierda, mientras que los números se leen de izquierda a derecha. Cualquier texto en inglés incluido en un texto en hebreo también se lee de izquierda a derecha.

El hebreo usa un alfabeto de 27 caracteres y toma los signos de puntuación y los números del alfabeto estándar de latín (o inglés). El texto en hebreo también incluye marcas de pronunciación y vocales. Estas marcas aparecen como un punto (dagesh) dentro del carácter base, como marcas de vocales debajo del carácter o como acentos en la parte superior izquierda del carácter. Estas marcas, por lo general, sólo se usan en texto litúrgico y casi no se ven en el uso cotidiano. El hebreo no tiene letras mayúsculas.

Texto en hindi

El texto en hindi se escribe en un sistema de escritura denominado devanagari. El hindi es un idioma fonético y se escribe como una serie de sílabas. Cada sílaba está formada por partes alfabéticas (los caracteres devanagari) de tres tipos: letras consonantes, vocales independientes y signos de vocales dependientes. La sílaba consiste de un núcleo de vocal y consonante, con una consonante precedente opcional. A diferencia del inglés, que empieza desde un punto base, los caracteres devanagari cuelgan de una línea horizontal (denominada barra superior) escrita en la parte superior de los caracteres. Estos caracteres se pueden combinar o cambiar de forma según el contexto. Como el hebreo, el hindi no hace distinción entre las letras mayúsculas y minúsculas.

Diferencias de teclados

No todos los caracteres que se encuentran en el teclado estadounidense aparecen en otros teclados. De manera similar, otros teclados suelen contener muchos caracteres que no están presentes en el teclado estadounidense.

Cualquier teclado se puede usar para introducir caracteres de cualquier configuración regional porque las entradas son manejadas por el Sistema operativo Oracle Solaris.

Diferencias de tamaños de papel

Dentro de cada país, una pequeña cantidad de tamaños de papel se utiliza con frecuencia. Por lo general, uno de esos tamaños es mucho más común que los otros. La mayoría de los países siguen el estándar ISO 216: “Writing paper and certain classes of printed matter-Trimmed sizes-A and B series”.

Las aplicaciones internacionales no deben realizar suposiciones sobre los tamaños de páginas que tienen disponibles. El sistema Oracle Solaris no ofrece soporte para el seguimiento del tamaño de página de salida. Este seguimiento es responsabilidad del programa de la aplicación. En la siguiente tabla, se muestran los tamaños de páginas internacionales comunes.

Tabla 1-6 Tamaños de páginas internacionales comunes

Tipo de papel	Dimensiones	Países
ISO A4	21,0 cm por 29,7 cm	En todas partes, excepto EE. UU.
ISO A5	14,8 cm por 21,0 cm	En todas partes, excepto EE. UU.
JIS B4	25,9 cm por 36,65 cm	Japón
JIS B5	18,36 cm por 25,9 cm	Japón
U.S. Letter	8,5 in por 11 in	EE. UU. y Canadá
U.S. Legal	8,5 in por 14 in	EE. UU. y Canadá

Omitir V�nculos de navegaci�n
Salir de la Vista de impresi�n
	Guía para entornos de idiomas internacionales Oracle Solaris 11 Information Library (Español)