국제 언어 환경 설명서

유니코드의 개요

유니코드는 컴퓨터 처리를 위한 텍스트 표현에 사용되는 문자 코드화 표준입니다. 유니코드는 국제 표준 ISO/IEC 10646-1:2000 및 ISO/IEC 10646–2:200을 완전 준수하고 ISO/IEC 10646와 동일한 모든 문자 및 코드화 포인트를 포함합니다. 유니코드 표준은 문자와 문자 사용에 대한 추가 정보를 제공합니다. 유니코드를 준수하는 모든 구현은 ISO/IEC 10646도 준수합니다.

유니코드는 다국어 일반 텍스트 인코딩의 일관성 있는 방식을 제공하고 국제 텍스트 파일 교환을 촉진합니다. 다국어 텍스트를 사용하는 컴퓨터 사용자, 비즈니스맨, 언어학자, 연구자, 과학자 등은 유니코드 표준이 업무를 대단히 간소화한다고 생각합니다. 정규적으로 수학 기호와 기타 기술 문자를 사용하는 수학자와 기술자도 유니코드 표준을 가치있다고 여깁니다 .

유니코드는, 17개의 16비트 플레인을 통해 최대 1,114,112개의 코드 포인트를 지원할 수 있습니다. 각 플레인은 65,536개의 다른 코드 포인트를 가집니다.

유니코드가 지원할 수 있는 백만 개 이상의 코드 포인트 가운데 버전 4.0은 현재 플레인 0, 1, 2 및 14에서 96,382개 문자를 정의합니다. 플레인 15와 16은 전용 사용 문자로 사용자 정의 문자라고도 합니다. 플레인 15와 16은 총 131,068개 까지의 사용자 정의 문자를 지원할 수 있습니다.

유니코드는 다음문자 코드화 체계 중 하나를 사용하여 코드화될 수 있습니다.

UTF-8은 ASCII 문자 코드 값을 그대로 보존하는, 유니코드 가변폭 인코딩 방식입니다. 이 형식은 Solaris 유니코드 로켈에서 파일을 저장하는 방식으로 쓰입니다.

UTF-16은 유니코드의 16비트 인코딩 형식입니다. UTF-16에서는, 65,536까지의 문자는 하나의 16비트 값으로 인코딩됩니다. 65,536 이상부터 1,114,111까지의 코드 포인트에 해당되는 문자들은 두 개의 16비트 값이 한 쌍이 되어 인코딩됩니다.(surrogates라고도 합니다.)

UTF-32는 유니코드의 고정폭, 21비트 인코딩 방식으로 대개 32비트 저장 또는 데이터 유형으로 표현됩니다. 이 형식은 Solaris 유니코드 로켈에서 프로세스 코드(와이드 캐릭터 코드)로 사용됩니다.

유니코드 표준 및 ISO/IEC 10646과 다양한 표현 형식에 대한 자세한 내용은 다음 소스를 참조하십시오.

유니코드 로켈: en_US.UTF-8 지원

유니코드/UTF-8 로켈은 유니코드 4.0을 지원합니다. en_US.UTF-8 로켈은 UTF-8을 코드 세트로 사용하여 다중 스크립트 처리 지원을 제공합니다. 이 로켈은 다중 스크립트의 텍스트 입출력을 지원하며, Solaris Operating System에서 이 기능을 가진 첫번째 로켈이었습니다. 다른 UTF-8 로켈의 기능은 en_us.UTF-8과 유사합니다. 다음 en_US.UTF-8의 논의는 이러한 로켈과 동일하게 적용됩니다.


주 –

UTF-8은 1992년 X/Open-Uniforum Joint Internationalization Working Group (XoJIG)이 체계화하고 1996년 ISO 및 IEC가 Amendment 2 to ISO/IEC 10646-1:1993로 승인한, 파일 시스템 안정적인 유니코드/ISO/IEC 10646-1의 Universal Character Set Transformation Format입니다. 이 표준은 유니코드 Consortium, International Standards Organization 및 International Electrotechnical Commission에 의해 유니코드 4.0 및 ISO/IEC 10646-1의 일부로 채택되었습니다.


Solaris 환경의 유니코드 로켈은 유니코드 4.0 및 ISO/IEC 10646-1 및 10646-2에 정의된 모든 코드 포인트 값의 처리를 지원합니다. 지원되는 스크립트는 범 유럽 및 아시아 스크립트와 아랍어, 히브리어, 인도어 및 태국어와 같은 복잡한 텍스트 레이아웃 스크립트도 포함합니다.


주 –

일부 유니코드 로켈, 특히 아시아 로켈은 보다 많은 Kanji 또는 Hanzi 모양을 포함합니다.


제한된 글꼴 자원으로 인해 현재 Solaris 유니코드 로켈은 다음 문자 세트의 문자 모양만 포함합니다.

만약 en_US.UTF-8 로켈에서, 해당 글리프가 없는 문자를 보려고 하면, 로켈은 아래와 같이 no-glyph라는 메시지를 표시합니다.

그래픽에 대한 설명은 이전 컨텍스트를 참조하십시오.

로켈은 설치시 선택 가능하며 시스템 기본 로켈로 지정될 수 있습니다.

64비트와 32비트의 Solaris 시스템에서, en_US.UTF-8과 동일한 수준의 로켈 지원이 제공됩니다.


주 –

Motif 및 CDE 데스크탑 응용프로그램과 라이브러리는 en_US.UTF-8 로켈을 지원합니다. 그러나, XView™ 및 OLIT 라이브러리는 en_US.UTF-8 로켈을 지원하지 않습니다.