1장. 문자열 인코딩

문자열 인코딩

사람의 언어를 일정한 규칙에 따라 숫자 코드로 부호화하여 저장하는 방식

문자집합이라는 용어도 있다. 문자 집합은 사용할 수 있는 문자들의 집합을 말한다.
반면 문자열 인코딩은 문자를 코드로 표현하는 방식을 말한다.

아스키 코드

처음으로 표준을 정립한 문자열 인코딩 방식으로 아직까지 많이 사용된다.

사용할 수 있는 문자의 종류에는 대문자, 소문자, 아라비아 숫자, 공백 및 특수문자들이 있으며 0 ~ 127까지의 숫자포 코드화 된다.

EUC-KR

한글을 표현하는 문잡집합 중 하나로 한국 산업 표준(KS)로 지정된 한국어 문자 집합으로 문자 하나를 표현하기 위해 2바이트를 사용한다. 단, 아스키 코드 문자를 표현할 때는 1바이트를 사용하기 때문에 아스키 코드와 호환된다.

EUC-KR은 모든 글자가 완성된 형태로 존재하는 '완성형' 코드다. 따라서 한글의 초성, 중성, 종성을 조합해 문자를 만들 수 없기 때문에, 표현할 수 없는 한글이 일부 존재한다. 표현할 수 없는 문자는 보통 잘 사용되지 않는 글자기는 하나 표현이 불가능하기 때문에 EUC-KR은 잘 사용되지 않는다.

CP949는 EUC-KR을 확장한 문자 집합으로 EUC-KR과 같은 문자열 인코딩이나, 더 많은 문자를 표현할 수 있다. EUC-KR로 표현하더라도 일반적으로 CP949를 의미하는 경우가 많다.

유니코드

국가별로 독립적인 문자열 인코딩을 사용하는 문제를 해결하기 위해 국제 표준화 기구(ISO)에서 동일한 규칙으로 모든 언어를 표현할 수 있는 유니코드 문자집합을 정의하게 된다.

유니코드 문자집합은 UTF-8, UTF-16, UTF-32 의 문자열 인코딩이 존재한다.

UTF-8

UTF-8은 8비트(1바이트)로 인코딩을 한다. 아스키 코드와 호환되며, 표현하려는 문자에 따라 1바이트부터 최대 6바이트까지 사용한다.

UTF-16

UTF-16은 16비트(2바이트)로 인코딩을 한다. 2바이트 또는 4바이트만 사용하기 때문에 아스키 코드와 호환되지 않는다. 유니코드에는 문자 종류의 따라 기본 다국어 평면 (BMP), 보충 다국어 평면 (SMP), 상형 문자 보충 평면 (SIP), 특수 목적 보충 평면 (SSP) 등이 존재하고, 바이트 수는 표현하려는 문자가 어떤 평면에 속하는지에 따라 결정된다.

예를 들어 기본 다국어 평면(BMP)에는 U+0000 ~ U+FFFF 까지 범위에 속하는 문자가 있다. 이 범위에는 한글, 한자를 포함한 여러 다국어가 있고 2바이트로 인코딩 된다. 일반적인 문자 외 BMP 범위를 벗어나는 문자들은 4바이트로 인코딩된다.