시프트 JIS

백괴사전, 내용 없는 백과사전
(Shift-JIS에서 넘어옴)
이동: 둘러보기, 찾기

시프트 JIS(Shift JIS)는 왜국에서 가장 널리 쓰이는 왜말 문자 집합이다. 마이크로소프트 윈도와 왜국 휴대 전화에서 쓰인다.

차례

[편집] 구성

일단 1바이트 문자는 JIS X 0201과 똑같이 배당돼 있는데, 이는 JIS X 0201과 호환성을 유지하려고 한 조치이다. 나머지 영역에는 다음과 같이 JIS X 0208을 크게 두 부분으로 쪼개서 담고 있다.

  • 0x8140 ~ 0x87FF: 한자가 아닌 문자
  • 0x8890 ~ 0x987F: 제1수준 한자 — 음독 순으로 2973자가 배당돼 있다.
  • 0x9890 ~ 0x9FFF, 0xE040 ~ 0xEEEF: 제2수준 한자 — 부수 순으로 3390자가 배당돼 있다.
  • 0xF040 ~ 0xFA3F: 사용자 영역
  • 0xFA40 ~ 0xFC4F: 기타 문자

0xA000부터 0xDFFF까지가 비어 있는 건 JIS X 0201의 반각 가타카나 때문이다.

[편집] 시프트 JIS 표

다 옮겨 적기 귀찮다. MSDN이나 여기, 여기, 여기, 여기를 참고하라. 역시나 한자가 대부분임을 알 수 있다.

[편집] 백괴스러운 점

[편집] 중복 배당된 한자

0xED40부터 0xEEEC 부분과 0xFA5C부터 0xFC4B 부분을 보면 똑같은 한자들이 두 번씩이나 중복돼 있는데, 왜 이런지는 며느리도 모른다 카더라. 다만 왜말 글꼴뿐이 아닌 한국어, 듕귁어 등의 글꼴에서도 해당 한자들을 표시할 수 있도록 만든 지침인 것은 분명하다.

[편집] 5C 문자 문제

위 표를 보면 알겠지만, 시프트 JIS에는 둘째 바이트가 0x5C인 문자가 있다. 0x5C는 백슬래시(\)로, 많은 프로그래밍 언어에서 이스케이프 문자에 해당된다. 역시 여기에 해당되는 문자들은 대부분이 한자들이다.

Ы
815C 835C 845C 875C 895C 8A5C 8B5C 8C5C 8D5C 8E5C 8F5C 905C 915C 925C 935C 945C 955C 965C 975C 985C
995C 9A5C 9B5C 9C5C 9D5C 9E5C 9F5C E05C E15C E25C E35C E45C E55C E65C E75C E85C E95C EA5C
ED5C EE5C FA5C FB5C

이런 문자들을 일부 웹사이트에 그대로 집어넣는 경우 다음과 같은 백괴스러운 문제가 자주 발생한다. 예를 들어 構わない(상관없다), 芸能界(연예계, 예능계)를 쓸 경우,

8D 5C 82 ED 82 C8 82 A2
백슬래시에 해당하는 5C가 빠지면,
8D   82 ED 82 C8 82 A2
8C 7C 94 5C 8A 45
백슬래시에 해당하는 5C가 빠지면,
8C 7C 94   8A 45
E

각각 高墲ネい, 芸矧E라는 아무 의미도 없는 문자열로 바뀌어 버린다. 이 문제는 의사소통에 심각한 장애를 가져오기도 한다.

, , , , 와 같은 자주 쓰이는 글자들도 재수 없게 둘째 바이트에 5C를 가지고 있어서 可能性(가능성), 表示(표시)와 같은 단어들도 위처럼 이상하게 깨져서 나오는 경우가 자주 있다.

[편집] 유일한 해결 방법

둘째 바이트로 0x5C를 가지고 있는 문자들을 다 외운 뒤, 해당 문자들을 쓸 때마다 뒤에 \를 붙여 주는 것이다.

예: \ース, \わない, \

시프트 JIS는 이런 심각한 문제가 있고 그 문제의 해결 방법도 진짜 같다. 의사소통에도 심각한 장애를 가져오는 이런 시프트 JIS가 어떻게 해서 왜국에서 가장 널리 쓰이는 문자 집합인지는 아직도 의문이다. 이런 이뭐병 같은 왜국의 시프트 JIS보다 대한게임국KS X 1001이 그나마 훨씬 낫다고 할 수 있다.

[편집] 그래도 못 쓰는 한자들을 보면

실제로 2008년에 발생했던 쓰촨 대지진 관련 기사를 보면 듕귁 촨 성 원촨 현(汶川县)이 등장하는데, 시프트 JIS에서는 원촨 현의 '원'(汶: 한국어 한자음은 '문')에 해당하는 한자가 존재하지 않는다. 그래서 시프트 JIS에서 표현할 수 있는 최선의 방법은 シ+文 뿐이다.

더불어 밴쿠버 동계 올림픽 관련 기사에서 대한게임국 선수 이름을 한자로 써야 할 때, 시프트 JIS에 없는 奭(석)이나 爀(혁)이 들어가는 경우가 있어서 어쩔 수 없이 기사에 주석이 들어가야 하는 불편함이 있다. 그래도 어차피 왜국에서는 쓰일 일이 없으니 당연한지도 모른다.

[편집] 도보시오

개인 도구
이름공간 목록 보기/편집
변수
행위
차림표
아랫방
자매 프로젝트
유지보수
커뮤니티
도구 모음