낚시하는 프로그래머

한글 환경에서 많이 쓰이는 인코딩 정리(EUC-KR, UTF-8, CP949 등등)

 

 

안녕하세요. 오늘은 정말로 한글 환경에서 프로그램 개발 또는 웹사이트 등을 제작을 할 때 자주 만나게 되는 인코딩입니다. 인코딩이 맞지 않게 되면 다음과 같이 한글이 깨지게 됩니다.

 

 

그럼, 한글이 깨지지 않게 하려면 인코딩을 잘 맞춰줘야 하는데요. 한글과 관련된 인코딩은 무엇이 있고, 약간의 설명을 드리겠습니다. 

 

 

 

UTF-8 (웹페이지용 유니코드)

가장 많이 쓰이는 가변 길이 유니코드 인코딩 방식입니다. 코드 페이지는 650001 입니다. 

유닉스/윈도우 양쪽 계열 모두에서 사용되는 확장 완성형 코드 페이지입니다.

이것은 인터넷이나 리룩스/유닉스 등에서 사용하는 8비트 유니코드입니다. 웹페이지 관련 작업에서 유니코드라고 할 때에는 UTF-8 유니코드를 가리킵니다.

영문/숫자/기호는 1바이트로 한글과 한자 등 3바이트로 표현합니다. 

 

 

UTF-16 LE (MS OS, Office용 유니코드)

컴퓨터에서 그냥 "유니코드"라고 부를 때에는 이 UTF-16 LE를 가리키는 경우가 많습니다. MS 윈도우 2000이나 윈도우XP에서 내부적으로 사용되는 유니코드입니다. 

 

 

EUC-KR

완성형 코드 페이지

가변 길이 방식의 영어, 특수문자, 한글, 일부 한자만 표현이 가능합니다.

유닉스 계열의 코드 페이지

2,350자의 한글 표현 가능

영문/숫자/기호는 1바이트 한글과 한자는 2바이트로 표현이 됩니다. 

 

 

CP949 

확장 완성형 코드 페이지이며 EUC-KR과 호환이 됩니다. 

가변 길이 방식의 영어, 특수문자, 한글, 일부 한자만 표현이 가능합니다.

윈도우 계열의 코드 페이지이 입니다.

완성형 코드표에 없는 한글 글자를 조합형으로 처리를 하는 로직을 가지고 잇습니다.

 

반응형

공유하기

facebook twitter kakaoTalk kakaostory naver band