이 절에서는 언어간의 중요한 차이점을 설명합니다.
영어에서 단어는 일반적으로 공간 문자로 구분됩니다. 하지만 중국어, 일본어 및 태국어와 같은 언어에서는 단어 사이에 분리자가 없는 경우가 많습니다.
특정한 문자에 대한 정렬 순서는 모든 언어에서 동일하지 않습니다. 예를 들어, 문자 “ö”는 독일에서 보통의 “o”와 같이 분류됩니다. 하지만 스웨덴에서는 별개의 문자로 분류되며 알파벳의 끝 문자에 해당합니다. 일부 언어에서 문자에는 문자 시퀀스의 우선 순위를 결정하기 위해 가중치가 주어집니다. 예를 들어, 태국어 사전은 서로 가중치가 다른 문자들의 순서를 통해 정렬을 규정합니다.
문자 세트는 알파벳 문자와 특수 문자 수에 있어서 다를 수 있습니다. 영문자에는 26개 문자가 포함되지만 일부 언어에는 훨씬 많은 문자가 포함됩니다. 예를 들어, 일본어는 20,000자 이상이 포함될 수 있으며 중국어에는 이보다도 더 많은 문자가 포함될 수 있습니다.
서유럽 국가의 알파벳은 영어 사용 국가에서 사용되는 표준 26문자 알파벳과 유사합니다. 이러한 알파벳은 몇 가지 추가 기본 문자, 몇 가지 표시 또는 강세 표시되는 문자와 몇 가지 합자도 포함합니다.
일본어 텍스트는 다음 세 가지 다른 스크립트가 혼합되어 구성됩니다
히라가나의 각 문자는 가타카나에도 상응하는 문자가 있지만 히라가나는 가장 공통된 문자이고 블록체보다는 초서체에 가깝습니다. 간지 문자는 핵심 단어를 쓰는데 사용됩니다. 가타카나는 대개 “외래어”, 다시 말해 일본어 이외의 언어에서 수입된 단어를 표현하는데 사용됩니다.
간지는 수 만개의 문자를 갖고 있지만 시간이 지날수록 자주 사용되는 문자 수는 줄어들고 있습니다. 평균적인 일본어 작가들은 대략 2000자의 간지 문자를 사용할 수 있는 어휘력을 갖고 있지만 지금은 약 3500자만이 자주 사용되고 있습니다. 하지만 컴퓨터 시스템은 일본 공업 표준(JIS)이 요구하는 7000자 이상을 지원해야 합니다. 아울러 약 170개의 히라가나와 가타카나 문자가 있습니다. 평균적으로 일본어 텍스트의 55%가 히라가나이며 35%는 간지 그리고 10%가 가타카나입니다. 아라비아 숫자와 로마 문자 역시 일본어 텍스트에 사용됩니다.
간지를 전혀 사용하지 않는 것도 가능하지만 대부분의 일본 독자들은 간지를 전혀 사용하지 않고 작성한 텍스트는 이해하기 힘들어 합니다.
한국어 텍스트는 한글이라는 음성 쓰기 체계를 사용하여 작성할 수 있습니다. 한글은 자모로 알려져 있는 자음과 모음으로 구성된 11,000자 이상의 문자를 갖고 있습니다. 전체 한글 문자 사전 중에서 대략 3000자가 한국어 컴퓨터 시스템에서 일상적으로 사용됩니다. 한국인들은 중국에서 발명된 문자를 바탕으로 한 한자라는 표의 문자도 사용합니다. 한국어 텍스트에는 6,000자 이상의 한자 문자가 필요합니다. 한자는 대개 한글의 의미가 모호할 때 혼동을 방지하기 위해 사용됩니다. 한글 문자는 자음과 모음을 결합하여 형성됩니다. 이들 문자가 결합되어 하나의 한글 문자에 해당하는 하나의 음절을 합성할 수 있습니다. 한글 문자는 보통 사각형으로 배열되며 이 그룹은 한자 문자와 동일한 공간을 점유합니다. 아라비아 숫자, 로마 문자 및 특수 기호 문자도 한국어 텍스트에 사용됩니다.
태국어 문자는 디스플레이 화면에 네 개의 디스플레이 셀로 구성되는 열 위치로 정의할 수 있습니다. 각 열 위치에 최대 세 개의 문자를 표현할 수 있습니다. 디스플레이 셀의 구성은 태국어 문자의 분류법에 따릅니다. 일부 태국어 문자는 다른 문자의 분류법과 함께 구성될 수 있습니다. 함께 구성할 수 있는 경우에는 두 문자가 동일한 셀에 표시됩니다. 그렇지 않으면 별개의 셀들에 표시됩니다.
중국어는 보통 hanzi라는 표의 문자로만 구성됩니다.
중화인민공화국(PRC)에는 유니코드 3.0에 정의된 모든 CJK 확장 A 문자를 포함하여 GB2312(zh 로켈)의 공통적으로 사용되는 Hanzi 문자 7000개와 GBK 문자 세트(zh.GBK 로켈)의 20,000개 이상의 문자와 GB18030-2000 문자 세트(zh_CN.GB18030 로켈)의 약 30,000개 문자가 있습니다.
대만에서 가장 많이 사용되는 문자 세트는 CNS11643-1992 (zh_TW 로켈) 및 Big5(zh_TW.BIG5 로켈)입니다. 이들은 약 13,000자의 Hanzi 문자를 공유합니다.
홍콩에서는 4702개 문자가 Big5 문자 세트에 추가되어 Big5-HKSCS 문자 세트(zh_HK.BIG5HK)가 되었습니다.
특정 문자가 기본 문자가 아닌 경우에는 대개 두 개 이상의 부분으로 구성되며 이 중 두 자는 매우 자주 쓰이는 문자입니다. 두 부분으로 구성된 문자에서 한 부분은 보통 의미를, 다른 한 부분은 발음을 나타냅니다. 두 부분이 모두 의미를 나타내는 경우도 있습니다. 부수는 가장 중요한 요소이며 문자는 전통적으로 부수별로 정렬되며 수 백개의 부수 문자가 있습니다. 하나의 음은 서로 상호 교환해 사용할 수 없는 여러 개의 서로 다른 문자들로 표현될 수 있습니다. 하나의 문자는 여러 가지 음을 가질 수 있습니다.
어떤 문자가 주어진 컨텍스트에서 다른 것보다 더 적합합니다. 적합한 문자는 음조 사용으로 음성적으로 구분됩니다. 이와 대조적으로 일본어와 한국어는 성조가 많지 않습니다.
몇 가지 음성 체계가 중국어를 나타냅니다. 중국에서 가장 흔한 것은 pinyin으로서 로마 문자를 사용하며 Beijing과 같은 장소 이름을 표기하기 위해 서구에서 널리 사용되고 있습니다. Wade-Giles 체계는 이보다 오래된 음성학적 체계로서 과거에 Peking과 같이 장소 이름에 사용되었습니다. 대만에서는 대신 고유한 문자 형식의 음성 알파벳zhuyin (또는 bopomofo)이 사용됩니다.
히브리어 텍스트는 히브리어와 Yiddish 언어로 스크립트를 작성하는 데 사용됩니다. 히브리어는 양방향 스크립트를 사용합니다. 히브리어 문자는 오른쪽에서 왼쪽으로 쓰고 읽는 반면 숫자는 왼쪽에서 오른쪽으로 읽습니다. 히브리어 텍스트에 포함된 모든 영어 텍스트 역시 왼쪽에서 오른쪽으로 읽습니다.
히브리어는 27개 문자를 사용하며 표준 라틴(또는 영어) 문자의 구두점과 숫자를 사용합니다. 히브리어 텍스트에는 또한 모음과 발음 기호가 포함되어 있습니다. 이 기호들은 기본 문자 안의 점(dagesh), 문자 아래의 모음 기호 또는 문자 상단 왼쪽의 악센트 기호로 표시됩니다. 이 기호들은 보통 예배용 텍스트에서만 사용되며 일상적으로는 거의 사용되지 않습니다. 히브리어에는 대문자가 없습니다.
힌디어 텍스트는 "신의 기록"이라는 의미를 갖고 있는 Devanagari라 부르는 문자로 작성됩니다. 힌디어는 표음 언어로서 연속적인 음절로 쓰여집니다. 각각의 음절은 다음 세 가지 문자 조각(Devanagari 문자)으로 구성됩니다: 자음 문자, 독립 모음 및 종속 모음 기호. 음절 자체는 자음과 기본 모음으로 구성되며 별도의 전치 모음이 있을 수 있습니다. 기준선에서 시작되는 영어와 달리 Devanagari 문자는 문자의 상단에 쓰여 있는 가로선(head stroke)에 매달려 있습니다. 이 문자들은 문맥에 따라 결합하거나 모양을 변경할 수 있습니다. 히브리어와 마찬가지로 힌디어 텍스트는 대소문자 구분을 하지 않습니다.