16.3 다중언어 문자 인코딩에 대한 지침

16.3.1 문자집합 용어

알파벳 글자, 숫자, 구두점, 기호 등 글쓰기의 최소 단위. 유니코드라고 불리는 국제 문자 세트 (Universal Character Set, UCS) 계획에 따라 세계 언어의 각 글자에 고유한 이름을 부여하기 위한 표준화된 이름 집합이 개발되어왔다.

하나의 글자를 표현하기 위한 획의 패턴이나 시각적 형태. 하나의 글자를 여러 방식으로 쓰는 것이 가능하다면 여러 개의 글리프를 가질 수 있다.

글자를 다룰 수 있도록 각 글자에 할당된 유일한 숫자

문자 코드값으로 사용하려고 계획해 둔 정수의 범위

각 글자에 '코드 공간'의 코드를 할당해주는 '코딩된 문자'들의 집합. 즉, 실제 글자들에 대해 숫자로된 문자 코드를 대응시킨 것

숫자로된 문자 코드들을 컨텐츠 비트의 연속으로 인코딩/디코딩하는 알고리즘

코딩된 문자 집합은 정수를 글자로 대응시킨다.

아스키는 0-127 코드값만 사용하는 코딩된 문자 집합이다. 따라서 코드 공간 전체를 표현하는데 7비트만 필요하다.

High Bit를 사용하여 US-ACSII의 8비트 확대 문자 집합이다. 모든 유럽 문자를 담기에는 충분하지 않으므로 iso-8859는 지역에 따라 커스터마이징된 문자 집합을 제공한다.