국제 언어 환경 설명서

1장 Solaris 국제화 개요

이 장은 Solaris 국제화 및 지역화의 새로운 기능과 핵심 개념을 소개합니다. 이 장은 다음 내용으로 구성되어 있습니다.

Solaris 국제화 아키텍처 정보

현재 Solaris 릴리스는 UTF-8 로켈에 대한 유니코드 4.0 지원, 향상된 키보드 지원 및 몇 가지 mp 인쇄 필터 향상을 포함하는 여러 가지 새로운 기능을 포함합니다.

Solaris 국제화 아키텍처는 응용 프로그램 및 전세계 언어 서비스를 위한 개발, 배치 및 관리를 용이하게 합니다. 단일한 다국어 제품이 39가지 언어와 162개 로켈 지원을 제공합니다. 또한, 태국어와 힌두어 스크립트에 대해 필요한 복잡한 텍스트 레이아웃에 대한 지원이 사용 가능합니다. 양방향 텍스트 기능이 아랍어와 히브리어에 대해서도 지원됩니다.

입력 방법, 문자 세트, 코드 세트 변환 및 기타 언어 관련 기능이 여러 Solaris 로켈에 대하여 지원됩니다. 표준 API에 따라 여러 언어 환경에서 응용 프로그램을 배치할 수 있습니다. Solaris 환경에서 언어 속성을 사용자 정의하고 변환기 테이블을 변경하거나 새로운 입력 방법 편집기를 사용자 정의할 수도 있습니다.

Solaris X 세계화 프레임워크용 소스 코드가 2000년 가을에 개방형 소스 커뮤니티로 릴리스되었습니다. 해당 릴리스를 사용하여 공통 참조 구현에 따라 국제적 응용 프로그램의 호환성과 상호 운영성을 향상할 수 있습니다. 세계화에 대한 코드 세트 독립적 접근 방법을 통해 여러 토착 언어와 유니코드 로켈에서 작업할 수 있습니다. Solaris 프레임워크는 플랫폼에 걸친 확장 기능을 제공합니다. 풍부한 데이터 변환기 세트가 여러 코드화와 다양한 제3의 플랫폼 사이의 상호 운영성을 보장합니다.

또한 Solaris 플랫폼은 다국적 기업들의 전 세계 서버 관리 확장을 도와줍니다. 경쟁 플랫폼들과 달리 Solaris 플랫폼은 언어 서비스 관리에 서비스 기반 접근 방식을 사용합니다. 서버 관리자들은 클라이언트 시스템에 관계 없이 전세계 네트워크를 통해 언어 서비스를 활성화시킬 수 있습니다. 클라이언트 독립적 접근 방식은 클라이언트 응용프로그램을 변경하지 않아도 시스템을 업그레이드 가능하게 합니다. 예를 들어, 사용자는 파리의 인터넷 카페에서 아랍어로 전자 우편을 읽기 위해 로컬 클라이언트 응용 프로그램을 변경하지 않아도 됩니다.

새로운 국제화 및 지역화 기능

다음 새로운 기능이 현재 Solaris 릴리스에서 사용 가능합니다.

자동 코드화 파인더

자동 코드화 파인더는 국제적 문자 처리용 유틸리티입니다. 일반 용도 인터페이스를 통해 자동 코드화 파인더가 특정한 파일 또는 문자열의 코드화를 쉽게 감지하는 방법을 제공합니다. 코드화 감지가 다양한 언어 문자 인코딩에 대한 액세스를 간소화합니다. 자세한 내용은 auto_ef(1) 또는 libauto_ef(3LIB) 설명서 페이지를 참조하십시오.
로켈 관리자

로케일 관리자를 사용하면 명령줄 인터페이스를 통하여 Solaris OS용 로케일을 확인하고 구성할 수 있습니다. localeadm(1M) 도구를 사용하여 시스템에 설치되었거나 특정한 장치 또는 디렉토리에 상주하는 로켈 패키지에 대한 정보를 표시할 수 있습니다. 각 지역마다 현재 시스템에 로케일을 추가하거나 제거할 수 있습니다. 예를 들어 현재 시스템에 동유럽 지역의 로켈을 모두 추가할 수 있습니다.

로켈 관리자를 도입하기에 앞서 시스템이 설치되면 시스템의 로켈을 변경하기 위해 개별 패키지를 추가/제거해야 합니다. 개발 패키지 작업은 패키지를 놓치거나 간과하기 쉽기 때문에 오류가 발생하는 경향이 있습니다.

로켈 관리자는 Solaris 설치 프로그램에서 로켈 선택 로직을 보완하는 것입니다. 설치 프로그램은 여전히 Solaris 로켈을 올바로 설치하기 위한 기본 응용 프로그램입니다.
mp 향상

Solaris 9 운영 체제와 함께 최초로 출시된mp 인쇄 필터는 현재 Solaris 릴리스의 xutops 인쇄 필터를 대체합니다. mp 인쇄 필터는 이번 릴리스에서 다음 주요한 향상으로 향상되었습니다
- 구성된 글꼴이 mp.conf 파일에 없을 경우 mp 프로그램이 인식되지 않는 글꼴을 사용하는 그림 문자를 만날 때까지 계속 실행합니다.
- 트루타입 그림 문자를 인쇄할 때 mp 출력의 크기가 현저하게 줄어듭니다.
- mp이 채용하는 사전 메커니즘은 보다 빠른 인쇄를 위해 미세 조정됩니다.
- 트루타입 엔진이 다양한 폭의 모든 공간 문자를 처리하도록 향상되었습니다.
  
  주 –
  xutops 인쇄 필터는 Solaris Operating System에서 더 이상 지원되지 않습니다. xutops 인쇄 필터는 이전에 UTF-8 로켈의 국제화된 텍스트를 인쇄하는 데 사용되었습니다. xutops를 대체하는 mp 인쇄 필터는 xutops 인쇄 필터의 지원되는 기능의 수퍼 세트입니다. 자세한 내용은 mp(1) 설명서 페이지를 참조하십시오.
새로운 유럽 키보드 지원

Sun I/O 키보드는 폴란드어 프로그래머 유형 5 키보드와 Sun Ray^TM USB 유형 6 러시아어, 에스토니아어 및 캐나다 프랑스어 키보드에 대해 사용 가능합니다.

주 –
현재 이 새로운 유럽 키보드 유형에 사용할 수 있는 하드웨어는 없습니다. 새로운 키보드 소프트웨어를 사용하려면 새로운 Solaris 키보드 소프트웨어 지원의 절차를 참조하십시오.

유니코드 4.0 지원

다음 UTF-8 로켈은 유니코드 표준의 4.0 버전을 지원하도록 업데이트되었습니다.

ar_EG.UTF-8
de_DE.UTF-8
en_US.UTF-8
es_ES.UTF-8
fi_FI.UTF-8
fr_BE.UTF-8
fr_FR.UTF-8
he_IL.UTF-8
hi_IN.UTF-8
it_IT.UTF-8
ja_JP.UTF-8
ko_KR.UTF-8
pl_PL.UTF-8
pt_BR.UTF-8
ru_RU.UTF-8
sv_SE.UTF-8
th_TH.UTF-8
tr_TR.UTF-8
zh_CN.UTF-8
zh_HK.UTF-8
zh_TW.UTF-8

새로운 표준 버전은 추가로 1,226가지 새로운 문자를 도입하고 다양한 규범적이고 정보적인 변경 사항을 포함합니다.

유니코드 3.2는 “UTF-8 Corrigendum”으로서 보다 엄격한 UTF-8 바이트 시퀀스를 정의합니다

표 1–1 법정 UTF-8 바이트 시퀀스


코드 지점	첫번째 바이트	두번째 바이트	세번째 바이트	네번째 바이트
U+0000..U+007F	00..7F
U+0080..U+07FF	C2..DF	80..BF
U+0800..U+0FFF	E0	A0..BF	80..BF
U+1000..U+CFFF	E1..EC	80..BF	80..BF
U+D000..U+D7FF	ED	80..9F	80..BF
U+D800..U+DFFF	ill-formed
U+E000..U+FFFF	EE..EF	80..BF	80..BF
U+10000..U+3FFFF	F0	90..BF	80..BF	80..BF
U+40000..U+FFFFF	F1..F3	80..BF	80..BF	80..BF
U+100000..U+10FFFF	F4	80..8F	80..BF	80..BF

이러한 시퀀스는 U+D800과 U+DFFF 사이의 대용 코드 지점을 제외합니다. 시퀀스는 모든 기타 부적합 바이트 값도 금지합니다새로운 정의를 준수하기 위해 유니코드 로켈 방법과 UTF-8 iconv 모듈이 새로 정의된 UTF-8 부적합 바이트 시퀀스를 감지하도록 향상되었습니다.

태국어 키보드 레이아웃

다음 키보드 레이아웃이 태국어 입력 방법에 대하여 지원됩니다.
- Kedmanee (TIS820-2531) 키보드 레이아웃. Kedmanee 레이아웃은 컴퓨터 키보드가 아닌 타이프라이터용으로 디자인되었습니다. 타이프라이터 키보드의 키 수가 제한되어 레이아웃에서 일부 태국어 특수 문자를 사용할 수 없었습니다. TIS820-2531은 컴퓨터 키보드와 함께 사용하도록 Kedmanee 레이아웃을 채택했습니다.
- TIS820-2538 키보드 레이아웃. 이 향상된 Kedmanee 레이아웃은 원래 Kedmanee 레이아웃에서 사용할 수 없었던 일부 태국어 특수 문자를 포함하는 TIS820-2531 레이아웃의 업데이트 버전입니다. 현재, TIS820-2538은 태국 산업 표준 협회에서 발행한 유일한 태국어 키보드 레이아웃 표준입니다.
- Pattajoti 키보드 레이아웃. Pattajoti 레이아웃도 타이프라이터용으로 디자인되었지만 손가락 하중 배분이 보다 우수합니다. Pattajoti는 왕실 관개국 관리가 발명했고 아직까지 해당 부서에서 널리 사용되고 있습니다.
- 태국어 입력 방법에 대한 구성 가능한 키보드 레이아웃이자 사용자 정의 키보드 레이아웃.
인도 언어에 대한 입력 방법 지원

중국어 입력 방법용으로 사용되는 것과 유사한 코드 테이블 입력 방법 인터페이스가 이번 릴리스에서 사용 가능합니다. IIIMF SDK 및 SunIM 언어 인터페이스를 바탕으로 하는 인도어 입력 방법은 다음 새로운 기능을 제공합니다.
- 음성, 음역 기반 입력 방법 및 키보드 레이아웃. 지원되는 키보드 레이아웃은 ISCII 표준에서 INSCRIPT 키보드 레이아웃으로 정의됩니다.
- 표준 입력 방법 전환.
- 인도어 스크립트는 힌두어, 타밀어, Kannada, Malayalam, Telugu, Gujarati, 푼잡어 및 벵갈어를 포함합니다F5 키를 눌러 입력 스크립트를 변경할 수 있습니다.
- 향후에 보다 쉽게 확장할 수 있도록 하는 새로운 키보드 레이아웃용 플러그인 메커니즘. 플러그인 구성 파일이 언어 엔진 모듈에 의해 로드됩니다.

국제화 및 지역화의 개요

국제화와 지역화는 서로 차이가 있습니다. 국제화는 언어 또는 지역 사이에서 소프트웨어를 이식 가능하게 만드는 프로세스인 반면 지역화는 특정 언어 또는 지역용으로 소프트웨어를 적응시키는 프로세스입니다. 국제화된 소프트웨어는, 특정 문화의 요구에 맞도록 프로그램의 동작 방식을 변경시켜주는 인터페이스를 이용해 개발될 수 있습니다. 지역화는 로켈이라 부르는 언어나 지역을 지원하는 온라인 정보를 구축하는 것과 관련됩니다.

모국어 및 사용자가 달라지면 완전히 재작성해야 하는 소프트웨어와 달리 국제화된 소프트웨어는 재작성이 필요없습니다. 국제화된 소프트웨어는 하나의 로켈에서 다른 로켈로 아무런 변경없이 이식할 수 있습니다. Solaris 시스템은 국제화되어 있어 국제화된 소프트웨어를 작성하기 위해 필요한 인프라와 인터페이스를 제공합니다.

국제화 기본 절차

국제화된 응용프로그램의 실행 가능 이미지는 언어와 지역에 따라 이식 가능합니다. 소프트웨어를 국제화하려면 다음과 같이 하십시오.

이 책에서 설명하는 인터페이스를 사용하여, 동적으로 재컴파일함으로써 수정할 수 있는 환경을 가진 소프트웨어를 만듭니다.
소프트웨어를 사용자가 볼 수 있는 실행 코드와 모든 메시지로 분리합니다. 메시지 문자열은 메시지 카탈로그로 보관합니다.

메시지 문자열을 언어나 지역에 맞추어 번역합니다. 로켈에는 메시지 스트링과 정렬 방식을 지정하는 메소드가 포함됩니다.

제품의 지역화된 버전을 사용하려면 사용자는 특정한 환경 변수를 설정합니다. 그러면 제품이 로켈 언어로 번역 가능한 메시지를 표시합니다. 날짜, 시간, 통화 및 기타 정보가 로켈 특정 규약에 따라 형식화 및 표시됩니다. 메시지 번역과 온라인 도움말 컨텐트는 다음 도표에서 설명하는 바와 같이 서로 다른 계층에서 제공됩니다.

그림 1–1 Solaris Operating System에서 로켈의 기능 및 구조

Solaris 인터페이스의 지역화 기능

OS(운영 체제) 로켈 층은 기초 로켈 데이터베이스와, 응용프로그램의 런타임에 OS 시스템 인터페이스에 연결되는 함수들을 제공합니다. 응용프로그램들은 이 OS 로켈 모듈에 표준 API를 통해 액세스합니다.

X11 로켈 계층은 X 입력 방식 및 X 출력 방법에 인터페이스를 제공해 X11 응용프로그램이 로컬 텍스트를 입력 및 표시할 수 있게 합니다. 응용프로그램이 다양한 언어로 문자를 표시할 수 있게 하는 글꼴이 제공됩니다.

CDE/Motif는 X11 윈도우 시스템을 기반으로 설계되었습니다. 따라서, CDE/Motif는 API를 통해 X11 로켈 기능을 사용할 수 있습니다. Solaris 지역화는 대상 로켈에서 데스크탑이 작동되도록 하기 위해 다양한 로켈별 CDE 응용프로그램 구성을 갖고 있습니다. 메시지 번역과 온라인 도움말 컨텐트는 서로 다른 계층에서 제공됩니다.

로켈이란?

응용 프로그램의 핵심 개념은 프로그램 로켈의 개념과 같습니다. 로켈은 토착 언어 환경의 명시적 모델이자 정의입니다. 로켈의 개념은 ANSI C 언어 표준 라이브러리 정의에 명확히 정의되어 있습니다.

로켈은 국가별로 다른 형식이나 기타 사양을 갖는 여러 개의 범주로 구성됩니다. 프로그램의 로켈은 해당 로켈의 코드 세트, 날짜 및 시간 형식 규약, 통화 규약, 10진수 형식 규약 및 조합(정렬) 순서 등을 정의합니다.

로켈은 기본 언어, 사용하는 국가(영토) 및 선택적 코드 세트로 구성될 수 있습니다. 대개의 경우 코드 세트가 포합됩니다. 예를 들어, 독일어는 de로서 Deutsch의 약어이고 스위스 독일어는 de_CH로서 이 때 CH는 Confederation Helvetica의 약어입니다. 이 규약으로 인해 통화 단위 표기법과 같이 국가별로 차이를 둘 수 있습니다.

둘 이상의 로켈을 특정 언어와 연결하여 지리적 차이를 둘 수 있습니다. 예를 들어, 미국에서 영어를 사용하는 사용자는 en_US 로켈(미국 영어)을 선택할 수 있고 영국의 영어 사용자는 en_GB(영국 영어)를 선택할 수 있습니다.

일반적으로 로켈 이름은 LANG 환경 변수에 의해 지정됩니다. 로켈 범주는 LANG에 종속되지만 별도로 설정할 수 있는데, 이 경우 LANG은 무시됩니다. LC_ALL 연산자가 설정되면 이것이 LANG 및 모든 별개의 로켈 범주를 대체합니다.

로켈 이름 지정 규약은 다음과 같습니다:

language[_territory][.codeset] [@modifier]

두 자의 language 코드는 ISO 639, 두 자의 territory 코드는 ISO 3166의 코드이며, codeset은 로켈에서 사용될 코드 세트 이름이고, modifier는 그 수정자(modifier)가 없는 로켈에 별도로 존재하는 특성의 이름입니다.

모든 Solaris 제품 로켈은 US-ASCII 코드 값과 함께 PCS(Portable Character Set) 문자를 보존합니다.

이식 가능한 문자 세트에 대한 자세한 정보는 “X/Open CAE Specification: System Interface Definitions, Issue 5” (ISBN 1–85912–186–1)을 참조하십시오.

단일 로켈이 하나 이상의 로켈 이름을 가질 수 있습니다. 예를 들어, POSIX는 C와 동일합니다.

C 로켈 – 기본 로켈

POSIX 로켈이라고도 하는C 로켈은 모든 POSIX 준수 시스템에 대한 POSIX 시스템 기본 로켈입니다. Solaris 운영 체제는 POSIX 시스템입니다. Single UNIX Specification, Version 3이 C 로켈을 정의합니다. 다음에서 사양을 읽고 다운로드하기 위해 등록하십시오. http://www.unix.org/version3/online.html.

사용하는 국제화 프로그램이 다음 중 한 가지 방법으로 C 로켈에서 실행하도록 지정할 수 있습니다.

모든 로켈 환경 변수를 설정 해제합니다.
```
system% unsetenv LC_ALL LANG LC_CTYPE LC_COLLATE LC_NUMERIC \
					LC_TIME LC_MONETARY LC_MESSAGES
```
모든 로켈 환경 변수를 설정 해제합니다. C 로켈에서 응용 프로그램을 실행합니다.
로켈을 C 또는 POSIX로 명시적으로 설정합니다.
```
system% setenv LC_ALL C
system% setenv LANG C
```
일부 응용 프로그램에서는 현재 로켈을 참조하기 위해 실제로 setlocale(3C)을 호출하지 않고 LANG 환경 변수를 확인합니다. 이 경우, setenv는 LC_ALL 및 LANG 로켈 환경 변수를 지정하여 C 로켈을 명시적으로 설정합니다. 로켈 환경 변수 사이의 선행 관계에 대해서는 setlocale(3C) 설명서 페이지를 참조하십시오.

단말기 환경에서 현재 로켈 설정을 확인하려면 locale(1) 명령을 실행하십시오.

system% locale

전체 및 부분 로켈

전체 Solaris 로켈은 관련 언어에서 나열된 모든 기능과 지역화된 시스템 메시지를 갖습니다. 부분 로켈은 아무런 메시지도 설치되지 않습니다. Solaris 환경의 모든 로켈들은 관련 언어용 지역화된 메시지가 설치만 되어 있다면 지역화된 메시지를 표시할 수 있습니다. 예를 들어, 다음 로켈은 부분 또는 전체 로켈 중 하나입니다.

de_DE.ISO8859–1
de_DE.ISO8859–15
de_DE.UTF-8
de_AT.ISO8859–1
de_AT.ISO8859–15
de_CH.ISO8859–1

Language CD를 사용해 독일어 메시지 번역을 설치하면 위의 모든 로켈이 완전히 번역된 데스크탑에 액세스할 수 있어 전체 로켈이 됩니다. Languages CD에는 다음 언어 및 로켈용 메시지 번역이 포함되어 있습니다:

독일어
프랑스어
스페인어
스웨덴어
이탈리아어
일본어
한국어
간체 한자 로켈
번체 한자 로켈

모든 부분 로켈은 소프트웨어 CD에 포함되어 있습니다. 메시지 번역은 Language CD에 포함되어 있습니다.

모든 영어 로켈은 전체 로켈이며 소프트웨어 CD에 포함되어 있습니다.

로켈의 영향을 받는 동작

다양한 국가에서 숫자를 형식화하고 날짜 및 시간을 작성하고 단어와 구를 구분하거나 서면 또는 구두 자료를 인용하기 위해 대개 여러 가지 규약을 사용합니다로켈은 다른 지역에 대하여 다음 작업, 파일, 형식 및 표현식을 처리하는 방법을 결정합니다.

텍스트 데이터의 코드화 및 처리
자원 파일의 언어 식별 및 코드화
텍스트 문자열의 렌더링과 레이아웃
클라이언트 간 텍스트의 교환
선택한 스크립트의 코드 세트와 텍스트 처리 요구 사항을 충족하는 입력 방법 선택
문화적으로 다른 글꼴과 아이콘 파일
활동 및 파일 유형
사용자 인터페이스 정의(UID) 파일
날짜 및 시간 형식
숫자 형식
통화 형식
조합 순서
로켈에 따른 정규식 처리
정보 제공 메시지 및 진단 메시지와 대화식 응답용 형식

Solaris 환경은 언어와 문화에 따른 정보를 응용프로그램에서 분리하여 응용프로그램 밖에 저장합니다. 이렇게 함으로써 각 시장에 맞추어 응용프로그램을 번역, 재작성 및 재컴파일할 필요성을 제거합니다. 새로운 시장에 진출할 때 필요한 것은 외부 정보를 현지 언어 및 고객에 맞게 지역화하는 것 뿐입니다.

로켈 범주

로켈 범주는 다음과 같습니다.

LC_CTYPE: 문자 처리 기능의 동작을 제어합니다.
LC_TIME: 달과 요일 이름, 공통된 전체 표현 및 약식 표현을 포함한 날짜와 시간 형식을 지정합니다.
LC_MONETARY: 로켈용 통화 기호, 1000 구분자, 기호 위치, 분수 자리수 등을 포함한 통화 형식을 지정합니다.
LC_NUMERIC: 10진수 분리자(또는 기수 문자), 1000 단위 구분자 및 그룹화를 지정합니다.
LC_COLLATE: 조합 순서 및 로켈용 정규 표현 정의를 지정합니다.
LC_MESSAGES: 지역화된 메시지를 표시하는 언어, 로켈의 긍정과 부정 응답(yes 및 no 문자열과 표현)을 지정합니다.
LO_LTYPE: 언어 렌더링에 관한 정보를 제공하는 레이아웃 엔진을 지정합니다. 언어 렌더링(또는 텍스트 렌더링)은 스크립트의 모양과 방향 속성에 따라 다릅니다.

지역화용 로켈 범주 사용

제품의 지역화는 대상 언어나 지역의 원 사용자의 자문을 얻어 수행해야 합니다. 특정한 정보 스타일 및 형식이 개발자에게 완벽하게 명백하고 보편적으로 보일 수 있습니다. 그러나 사용자에게는 그러나 형식이 어색하고 잘못되었거나 심지어 모욕적으로 보일 수 있습니다. 다음 절은 제품의 지역화 요구 사항을 충족하도록 사용자 정의할 수 있는 Solaris Operating System의 요소에 대하여 설명합니다.

시간 형식

다음 표는 다른로켈이 11:59 P.M을 작성하는 몇 가지 방법을 보여줍니다.

표 1–2 국제 시간 형식


로켈	형식
캐나다어	23:59
핀란드	23.59
독일어	23.59 Uhr
노르웨이	23.59
태국어	23:59
영국 영어	23:59

시간은 12 시간 시계 및 24 시간 시계로 표현됩니다. 시간 및 분 구분자는 콜론 ( : ) 또는 마침표( . 참조).

시간대 분할이 국가 사이와 국가 내부에서 발생합니다. 시간대는 협정 세계시인 UTC (또는 그리니치 표준시인 GMT)에서 몇 시간 앞인지, 또는 뒤인지에 따라 설명할 수 있지만 이 숫자는 항상 정수인 것은 아닙니다. 예를 들어, 뉴펀들랜드는 인접 시간대와 30분 차이가 있는 시간대입니다.

일조 절약 시간(DST)은 국가마다 다른 날짜에서 시작하고 끝납니다. 많은 국가들은 아예 DST를 설정하지 않습니다. 또한, 일조 절약 시간은 시간대 내부에서 다양할 수 있습니다. 예를 들어, 미국에서는 구현이 국가 결정 사항입니다.

날짜 형식

다음 표는 세계 전역에서 사용되는 몇 가지 날짜 형식을 보여줍니다. 국가 안에서도 달라질 수 있습니ㅏㄷ.

표 1–3 국제 날짜 형식


로켈	표시	예
캐나다(영어)	dd/mm/yy	24/08/01
덴마크	yyyy-mm-dd	2001–08–24
핀란드	dd.mm.yyyy	24.08.2001
프랑스어	dd/mm/yyyy	24/08/2001
독일어	yyyy-mm-dd	2001–08–24
이탈리아어	dd/mm/yy	24/08/01
노르웨이	dd-mm-yy	24–08–01
스페인어	dd-mm-yy	24-08-01
스웨덴어	yyyy-mm-dd	2001-08-24
영국	dd/mm/yy	24/08/01
미국	mm-dd-yy	08-24-01
태국어	dd/mm/yyyy	24/08/2001

숫자 형식

영국과 미국은 세계에서 십진수 자리를 표시하기 위해 마침표를 사용하는 몇 안 되는 국가에 속합니다. 그 밖의 많은 국가들은 마침표 대신 콤마를 사용합니다. 소수 구분 기호는 기수 문자라고도 부릅니다. 마찬가지로 영국과 미국은 콤마를 사용해 1000 단위 그룹을 구분하지만 다른 많은 국가들은 대신 마침표를 사용하고 일부 국가는 1000 단위를 좁은 공백으로 구분합니다.

로켈 지향 형식을 포함한 데이터 파일은 다른 로켈의 시스템으로 전달될 때 잘못 해석되는 경우가 종종 발생합니다. 예를 들어, 프랑스어 형식의 숫자를 포함하고 있는 파일은 영국 프로그램에는 적합하지 않습니다.

다음 표는 흔히 사용되는 숫자 형식 일부를 보여줍니다.

표 1–4 국제 숫자 규약


로켈	큰 숫자
캐나다(영어)	4,294,967.00
덴마크	4.294 967.295,00
핀란드	4 294 967 295,00
프랑스어	4 294 967 295,00
독일어	4,294,967.00
이탈리아어	4.294.967,00
노르웨이	4.294.967.295,00
스페인어	4.294.967.295,00
스웨덴어	4 294 967 295,00
영국	4,294,967,295.00
미국	4,294,967,295.00
태국어	4,294,967,295.00

주 –

목록의 숫자를 구분하는 방법을 지정하는 특별한 로켈 규약은 없습니다.

국제적 통화 형식

통화 단위와 표시 순서는 세계 전역에서 대단히 다양합니다. 현지 통화 기호와 국제적으로 통용되는 통화 기호가 서로 다를 수 있습니다. 다음 표는 일부 국가의 통화 형식을 보여줍니다.

표 1–5 국제 통화 규약


로켈	Currency	예
캐나다(영어)	달러 ($)	$1,234.56
캐나다(프랑스어)	달러 ($)	1 234,56$
덴마크	크로네(kr)	Kr 1.234,56
핀란드	Euro ()	1 234,56
프랑스어	Euro ()	1,234
일본어	Yen (¥)	¥ 1,234
노르웨이	크로네 (kr)	kr 1.234,56
스웨덴어	크로너 (Kr)	1 234,56 Kr
영국	Pound (£)	£1,234.56
미국	달러 ($)	$1,234.56
태국어	바트	2539 바트
유로	Euro ()	5,000

현재 릴리스는 유로 통화를 지원합니다. 하지만 역 호환성을 위해 현지 통화 기호도 사용할 수 있습니다.

표 1–6 유로 통화를 지원하는 사용자 로켈


지역	로켈 이름	ISO Code Set
오스트리아	`de_AT.ISO8859-15`	8859-15
벨기에(프랑스어)	`fr_BE.ISO8859-15`	8859-15
벨기에(플란더즈어)	`nl_BE.ISO8859-15`	8859-15
덴마크	`da_DK.ISO8859-15`	8859-15
에스토니아	`et_EE.ISO8859–15`	8859–15
핀란드	`fi_FI.ISO8859-15`	8859-15
프랑스	`fr_FR.ISO8859-15`	8859-15
독일	`de_DE.ISO8859-15`	8859-15
영국	`en_GB.ISO8859-15`	8859-15
아일랜드	`en_IE.ISO8859-15`	8859-15
이탈리아	`it_IT.ISO8859-15`	8859-15
네덜란드	`nl_NL.ISO8859-15`	8859-15
포루투갈	`pt_PT.ISO8859-15`	8859-15
카탈로니아어 스페인	`ca_ES.ISO8859-15`	8859–15
스페인	`es_ES.ISO8859-15`	8859-15
스웨덴	`sv_SE.ISO8859-15`	8859-15
미국	`en_US.ISO8859-15`	8859-15

유로 로켈은 ISO8859–15 코드 세트를 기본으로 합니다.

변환된 통화 금액에 대하여 원래 금액과 다른 공간이 필요할 수 있다는 점을 기억하십시오. 예를 들어, $1,000이1.307.000이 될 수 있습니다.

현재 유로 사용 지역 내의 로켈용 로켈 설정 상태 예는 로켈 유틸리티의 LC_MONETARY 피연산자에 대한 것입니다. 예를 들어, 독일의 상태는 다음 표에 표시되어 있습니다.

표 1–7 독일어 로켈과 관련 LC_MONETARY 피연산자


로켈	LC_MONETARY
`de_DE.ISO8859–1`	DM
`de_DE.ISO8859–15`	유로
`de_DE.UTF-8`	유로
`de_DE.ISO8859–15@euro`	유로
`de_DE.UTF-8@euro`	유로

언어 단어 및 글자 차이

이 절에서는 언어간의 중요한 차이점을 설명합니다.

단어 분리자

영어에서 단어는 일반적으로 공간 문자로 구분됩니다. 하지만 중국어, 일본어 및 태국어와 같은 언어에서는 단어 사이에 분리자가 없는 경우가 많습니다.

정렬 순서

특정한 문자에 대한 정렬 순서는 모든 언어에서 동일하지 않습니다. 예를 들어, 문자 “ö”는 독일에서 보통의 “o”와 같이 분류됩니다. 하지만 스웨덴에서는 별개의 문자로 분류되며 알파벳의 끝 문자에 해당합니다. 일부 언어에서 문자에는 문자 시퀀스의 우선 순위를 결정하기 위해 가중치가 주어집니다. 예를 들어, 태국어 사전은 서로 가중치가 다른 문자들의 순서를 통해 정렬을 규정합니다.

문자 세트

문자 세트는 알파벳 문자와 특수 문자 수에 있어서 다를 수 있습니다. 영문자에는 26개 문자가 포함되지만 일부 언어에는 훨씬 많은 문자가 포함됩니다. 예를 들어, 일본어는 20,000자 이상이 포함될 수 있으며 중국어에는 이보다도 더 많은 문자가 포함될 수 있습니다.

서유럽 문자

서유럽 국가의 알파벳은 영어 사용 국가에서 사용되는 표준 26문자 알파벳과 유사합니다. 이러한 알파벳은 몇 가지 추가 기본 문자, 몇 가지 표시 또는 강세 표시되는 문자와 몇 가지 합자도 포함합니다.

일본어 텍스트

일본어 텍스트는 다음 세 가지 다른 스크립트가 혼합되어 구성됩니다

간지 는 한자에서 유래한 표의 문자입니다.
히라가나 및 가타카나, 두 가지 음성 스크립트(또는 음절표)

히라가나의 각 문자는 가타카나에도 상응하는 문자가 있지만 히라가나는 가장 공통된 문자이고 블록체보다는 초서체에 가깝습니다. 간지 문자는 핵심 단어를 쓰는데 사용됩니다. 가타카나는 대개 “외래어”, 다시 말해 일본어 이외의 언어에서 수입된 단어를 표현하는데 사용됩니다.

간지는 수 만개의 문자를 갖고 있지만 시간이 지날수록 자주 사용되는 문자 수는 줄어들고 있습니다. 평균적인 일본어 작가들은 대략 2000자의 간지 문자를 사용할 수 있는 어휘력을 갖고 있지만 지금은 약 3500자만이 자주 사용되고 있습니다. 하지만 컴퓨터 시스템은 일본 공업 표준(JIS)이 요구하는 7000자 이상을 지원해야 합니다. 아울러 약 170개의 히라가나와 가타카나 문자가 있습니다. 평균적으로 일본어 텍스트의 55%가 히라가나이며 35%는 간지 그리고 10%가 가타카나입니다. 아라비아 숫자와 로마 문자 역시 일본어 텍스트에 사용됩니다.

간지를 전혀 사용하지 않는 것도 가능하지만 대부분의 일본 독자들은 간지를 전혀 사용하지 않고 작성한 텍스트는 이해하기 힘들어 합니다.

한국어 텍스트

한국어 텍스트는 한글이라는 음성 쓰기 체계를 사용하여 작성할 수 있습니다. 한글은 자모로 알려져 있는 자음과 모음으로 구성된 11,000자 이상의 문자를 갖고 있습니다. 전체 한글 문자 사전 중에서 대략 3000자가 한국어 컴퓨터 시스템에서 일상적으로 사용됩니다. 한국인들은 중국에서 발명된 문자를 바탕으로 한 한자라는 표의 문자도 사용합니다. 한국어 텍스트에는 6,000자 이상의 한자 문자가 필요합니다. 한자는 대개 한글의 의미가 모호할 때 혼동을 방지하기 위해 사용됩니다. 한글 문자는 자음과 모음을 결합하여 형성됩니다. 이들 문자가 결합되어 하나의 한글 문자에 해당하는 하나의 음절을 합성할 수 있습니다. 한글 문자는 보통 사각형으로 배열되며 이 그룹은 한자 문자와 동일한 공간을 점유합니다. 아라비아 숫자, 로마 문자 및 특수 기호 문자도 한국어 텍스트에 사용됩니다.

태국어 텍스트

태국어 문자는 디스플레이 화면에 네 개의 디스플레이 셀로 구성되는 열 위치로 정의할 수 있습니다. 각 열 위치에 최대 세 개의 문자를 표현할 수 있습니다. 디스플레이 셀의 구성은 태국어 문자의 분류법에 따릅니다. 일부 태국어 문자는 다른 문자의 분류법과 함께 구성될 수 있습니다. 함께 구성할 수 있는 경우에는 두 문자가 동일한 셀에 표시됩니다. 그렇지 않으면 별개의 셀들에 표시됩니다.

중국어 텍스트

중국어는 보통 hanzi라는 표의 문자로만 구성됩니다.

중화인민공화국(PRC)에는 유니코드 3.0에 정의된 모든 CJK 확장 A 문자를 포함하여 GB2312(zh 로켈)의 공통적으로 사용되는 Hanzi 문자 7000개와 GBK 문자 세트(zh.GBK 로켈)의 20,000개 이상의 문자와 GB18030-2000 문자 세트(zh_CN.GB18030 로켈)의 약 30,000개 문자가 있습니다.
대만에서 가장 많이 사용되는 문자 세트는 CNS11643-1992 (zh_TW 로켈) 및 Big5(zh_TW.BIG5 로켈)입니다. 이들은 약 13,000자의 Hanzi 문자를 공유합니다.
홍콩에서는 4702개 문자가 Big5 문자 세트에 추가되어 Big5-HKSCS 문자 세트(zh_HK.BIG5HK)가 되었습니다.

특정 문자가 기본 문자가 아닌 경우에는 대개 두 개 이상의 부분으로 구성되며 이 중 두 자는 매우 자주 쓰이는 문자입니다. 두 부분으로 구성된 문자에서 한 부분은 보통 의미를, 다른 한 부분은 발음을 나타냅니다. 두 부분이 모두 의미를 나타내는 경우도 있습니다. 부수는 가장 중요한 요소이며 문자는 전통적으로 부수별로 정렬되며 수 백개의 부수 문자가 있습니다. 하나의 음은 서로 상호 교환해 사용할 수 없는 여러 개의 서로 다른 문자들로 표현될 수 있습니다. 하나의 문자는 여러 가지 음을 가질 수 있습니다.

어떤 문자가 주어진 컨텍스트에서 다른 것보다 더 적합합니다. 적합한 문자는 음조 사용으로 음성적으로 구분됩니다. 이와 대조적으로 일본어와 한국어는 성조가 많지 않습니다.

몇 가지 음성 체계가 중국어를 나타냅니다. 중국에서 가장 흔한 것은 pinyin으로서 로마 문자를 사용하며 Beijing과 같은 장소 이름을 표기하기 위해 서구에서 널리 사용되고 있습니다. Wade-Giles 체계는 이보다 오래된 음성학적 체계로서 과거에 Peking과 같이 장소 이름에 사용되었습니다. 대만에서는 대신 고유한 문자 형식의 음성 알파벳zhuyin (또는 bopomofo)이 사용됩니다.

히브리어 텍스트

히브리어 텍스트는 히브리어와 Yiddish 언어로 스크립트를 작성하는 데 사용됩니다. 히브리어는 양방향 스크립트를 사용합니다. 히브리어 문자는 오른쪽에서 왼쪽으로 쓰고 읽는 반면 숫자는 왼쪽에서 오른쪽으로 읽습니다. 히브리어 텍스트에 포함된 모든 영어 텍스트 역시 왼쪽에서 오른쪽으로 읽습니다.

히브리어는 27개 문자를 사용하며 표준 라틴(또는 영어) 문자의 구두점과 숫자를 사용합니다. 히브리어 텍스트에는 또한 모음과 발음 기호가 포함되어 있습니다. 이 기호들은 기본 문자 안의 점(dagesh), 문자 아래의 모음 기호 또는 문자 상단 왼쪽의 악센트 기호로 표시됩니다. 이 기호들은 보통 예배용 텍스트에서만 사용되며 일상적으로는 거의 사용되지 않습니다. 히브리어에는 대문자가 없습니다.

힌디어 텍스트

힌디어 텍스트는 "신의 기록"이라는 의미를 갖고 있는 Devanagari라 부르는 문자로 작성됩니다. 힌디어는 표음 언어로서 연속적인 음절로 쓰여집니다. 각각의 음절은 다음 세 가지 문자 조각(Devanagari 문자)으로 구성됩니다: 자음 문자, 독립 모음 및 종속 모음 기호. 음절 자체는 자음과 기본 모음으로 구성되며 별도의 전치 모음이 있을 수 있습니다. 기준선에서 시작되는 영어와 달리 Devanagari 문자는 문자의 상단에 쓰여 있는 가로선(head stroke)에 매달려 있습니다. 이 문자들은 문맥에 따라 결합하거나 모양을 변경할 수 있습니다. 히브리어와 마찬가지로 힌디어 텍스트는 대소문자 구분을 하지 않습니다.

키보드 차이점

미국 키보드의 모든 문자가 다른 키보드에 나타나는 것은 아닙니다. 마찬가지로 다른 키보드에는 미국 키보드에서 볼 수 없는 많은 문자들이 포함되곤 합니다.

입력은 Solaris Operating System에 의해 처리되기 때문에 어떤 로켈의 입력 문자든 임의의 키보드를 사용해 입력할 수 있습니다.

주 –

SPARC® 시스템에서는 Compose 키를 사용해 지원되는 ISO8859 문자 세트의 분음 부호를 갖고 있는 라틴 문자를 만들 수 있습니다. Compose 키는 라틴 기반 로켈과 사용할 수 있지만 UTF-8 로켈을 제외한 한국어, 중국어 또는 일본어 로켈과는 사용할 수 없습니다.

용지 크기의 차이

각 국가 내에서 적은 수의 용지 크기가 일반적으로 사용됩니다일반적으로 이 크기 중 한 가지가 다른 것들보다 훨씬 일반적입니다. 대부분의 국가들은 ISO 표준 216을 준수합니다: “Writing paper and certain classes of printed matter-Trimmed sizes-A and B series.”

국제화된 응용프로그램들은 이용 가능한 페이지 크기에 대해 가정해선 안 됩니다. Solaris 시스템은 출력 페이지 크기 추적을 지원하지 않습니다. 페이지 크기 추적은 응용프로그램의 책임입니다. 다음 표는 공통적인 국제 페이지 크기를 보여줍니다.

표 1–8 공통 국제 페이지 크기


용지 유형	규격	국가
ISO A4	21.0 cm X 29.7 cm	미국을 제외한 모든 국가
ISO A5	14.8 cm X 21.0 cm	미국을 제외한 모든 국가
JIS B4	25.9 cm X 36.65 cm	일본
JIS B5	18.36 cm X 25.9 cm	일본
U.S. Letter	8.5 인치 X 11 인치	미국 및 캐나다
U.S. Legal	8.5 인치 X 14 인치	미국 및 캐나다