🔗 참고자료

  • NULI 문자 집합(Character Set)과 인코딩(Encoding) => 링크
  • 블로그 <데꾸벅> => 링크
  • 블로그 <평범함과 비범함의 차이> Character Set과 Encoding 이해하기 => 링크

 

캐릭터 셋이란?

문자 집합은 정보를 표현하기 위한 글자나 기호들의 집합을 정의한 것입니다.

이런 문자나 기호의 집합을 컴퓨터에서 저장하거나 통신에 사용할 목적으로 부호화 하는 것을 문자 인코딩(부호화)이라 하고, 인코딩 된 문자 부호(Character code)를 다시 디코딩(복호화)하여 문자나 기호로 표현할 수 있습니다.

  • 특수 문자도 문자셋에 포함된다.
  • 영어의 경우 알파벳 대소문자와 특수 문자 등으로 간단하게 문자셋을 구성할 수 있지만,
    한글의 경우 출판에서 가,나,다 등으로 출판함으로 훨씬 다양한 문자셋을 가지고있다.
    또한 한자를 병행해서 사용함으로 문자셋의 범위는 더욱 넓어진다.

 

 

❓ 문자 인코딩이란?

문자셋을 컴퓨터가 이해할 수 있는 바이트와 매핑하는 규칙이다.

예를 들면 ASCII Code에서 A,B,C 등은 문자셋이고 A는 코드 65, B는 코드 66 등 바이트 순서와 매핑한 것이 인코딩이다.

따라서 문자셋을 어떻게 매핑하느냐에 따라 하나의 문자셋이 다양한 인코딩을 가질 수 있다.

 

대부분의 인코딩에서는 대소문자를 구분하지 않는다.

대한민국 문자셋에서 가장 만힝 사용하는 인코딩은 "UTF-8", "KSC5601", "ISO-8859-1" 이다.

 

 

 

기본 인코딩

  • Windows : 시스템 언어와 관련되 코드 페이지를 따름
    • 영문 Windows : CP1252 인코딩 사용
    • 한글 Windows : MS949 인코딩 사용

  • Unix : LANG 환경 변수로 지정된 로케일에 해당하는 인코딩
    • Solaris는 LANG 환경 변수가 ko, ko_KR일 경우 EUC-KR 인코딩을 사용
    • HP는 LANG 환경 변수가 ko_KR, ko_KR.eucKR일 경우 EUC-KR 인코딩을 사용
    • Unix에서 locale -a 명령을 사용하여 LANG 환경 변수에 지정 가능한 문자셋을 확인할 수 있다.

  • HTML : ISO-8850-1와 ISO-10646
  • XML : UTF-8
  • 웹 브라우저 : 내부족으로 모두 유니코드(Unicode)로 처리를 한다.
  • HTTP/1.0 : ISO-8859-1
  • HTTP (URL, URI) : US-ASCII, %hexadecimal_code, JavaScript escape() 함수 사용
  • Java : 유니코드 2.0
  • 직렬화된 Java Class : UTF-8
  • J2EE : ISO-8859-1
  • Oracle : UTF-8(AL32UTF8), 한국에서는 KSC5601 (KO16KSC5601)

반응형

'IT' 카테고리의 다른 글

벨로그(velog)로 이전했습니다 😀  (0) 2023.05.14
롱런하는 개발자  (0) 2022.11.27
TSA(Time Stamping Authority)란?  (0) 2022.09.11
[항해99 4기] 14주 차 지원하기 - WIL  (0) 2022.02.07
엉덩이 무거운 개발자  (0) 2022.02.04

+ Recent posts