국제 언어 환경 설명서

Unicode의 개요

Unicode 표준은 컴퓨터 처리를 위한 텍스트 표현에 사용되는 범용 문자 인코딩 표준입니다. 이것은 국제 표준 ISO/IEC 10646-1:2000 및 ISO/IEC 10646–2:2001과 완전 호환되고 ISO/IEC 10646과 동일한 모든 문자와 인코딩 포인트를 포함합니다. Unicode 표준은 문자와 문자 사용에 대한 추가 정보를 제공합니다. Unicode를 준수하는 모든 구현은 ISO/IEC 10646도 준수합니다.

Unicode 표준은 다국어 일반 텍스트 인코딩의 일관성 있는 방식을 제공하고 국제 텍스트 파일 교환을 촉진합니다. 다국어 텍스트를 사용하는 컴퓨터 사용자, 비즈니스맨, 언어학자, 연구자, 과학자 등은 Unicode 표준이 업무를 대단히 간소화한다고 생각합니다. 정규적으로 수학 기호와 기타 기술 문자를 사용하는 수학자와 기술자도 Unicode 표준을 가치있다고 여깁니다 .

Unicode는, 17개의 16비트 플레인을 통해 최대 1,114,112개의 코드 포인트를 지원할 수 있습니다. 각 플레인은 65,536개의 다른 코드 포인트를 가집니다.

Unicode를 지원하는 백만개 이상의 코드 포인트 중에서, Unicode 버전 3.1은 현재 94,140개의 문자를 플레인 0, 1, 2 및 14에 정의해 놓았습니다. 플레인 15와 16은 사용자 정의 문자라고도 하며, 사용자 전용 목적을 위해 존재합니다. 플레인 15와 16은 총 131,068개 까지의 사용자 정의 문자를 지원할 수 있습니다.

Unicode는 다음 문자 인코딩 체계를 사용하여 인코딩될 수 있습니다.

UTF-8
UTF-16
UTF-32

UTF-8은 ASCII 문자 코드 값을 그대로 보존하는, Unicode 가변폭 인코딩 방식입니다. 이 형식은 Solaris Unicode 로켈에서 파일을 저장하는 방식으로 쓰입니다.

UTF-16은 Unicode의 16비트 인코딩 형식입니다. UTF-16에서는, 65,536까지의 문자는 하나의 16비트 값으로 인코딩됩니다. 65,536 이상부터 1,114,111까지의 코드 포인트에 해당되는 문자들은 두 개의 16비트 값이 한 쌍이 되어 인코딩됩니다.(surrogates라고도 합니다.)

UTF-32는 Unicode의 고정폭, 21비트 인코딩 방식으로 대개 32비트 저장 또는 데이터 유형으로 표현됩니다. 이 형식은 Solaris Unicode 로켈에서 프로세스 코드(와이드 캐릭터 코드)로 사용됩니다.

Unicode 표준 및 ISO/IEC 10646과 다양한 표현 형식에 대한 자세한 내용은 다음을 참조하십시오.

The Unicode Standard, Version 3.0, The Unicode Standard Annex #19: UFT-32, The Unicode Standard Annex #27: Version 3.1 Unicode 컨소시엄
ISO/IEC 10646-1:2000, Information Technology-Universal Multiple-Octet Character Set (UCS) - Part 1: Architecture and Basic Multilingual Plane
ISO/IEC 10646-2: Information Technology-Universal Multiple-Octet Character Set (UCS) - Part 2: Secondary Multilingual Plane for Scripts and Symbols, Supplementary Plane for CJK Ideographs, Special Purpose Plane
Unicode 컨소시엄 웹 사이트는 http://www.unicode.org/입니다.