시프트 JIS
시프트 JIS(Shift JIS)는 왜국에서 가장 널리 쓰이는 왜말 문자 집합이다. 마이크로소프트 윈도와 왜국 휴대 전화에서 쓰인다.
차례 |
[편집] 구성
일단 1바이트 문자는 JIS X 0201과 똑같이 배당돼 있는데, 이는 JIS X 0201과 호환성을 유지하려고 한 조치이다. 나머지 영역에는 다음과 같이 JIS X 0208을 크게 두 부분으로 쪼개서 담고 있다.
- 0x8140 ~ 0x87FF: 한자가 아닌 문자
- 0x8890 ~ 0x987F: 제1수준 한자 — 음독 순으로 2973자가 배당돼 있다.
- 0x9890 ~ 0x9FFF, 0xE040 ~ 0xEEEF: 제2수준 한자 — 부수 순으로 3390자가 배당돼 있다.
- 0xF040 ~ 0xFA3F: 사용자 영역
- 0xFA40 ~ 0xFC4F: 기타 문자
0xA000부터 0xDFFF까지가 비어 있는 건 JIS X 0201의 반각 가타카나 때문이다.
[편집] 시프트 JIS 표
다 옮겨 적기 귀찮다. MSDN이나 여기, 여기, 여기, 여기를 참고하라. 역시나 한자가 대부분임을 알 수 있다.
[편집] 백괴스러운 점
[편집] 중복 배당된 한자
0xED40부터 0xEEEC 부분과 0xFA5C부터 0xFC4B 부분을 보면 똑같은 한자들이 두 번씩이나 중복돼 있는데, 왜 이런지는 며느리도 모른다 카더라. 다만 왜말 글꼴뿐이 아닌 한국어, 듕귁어 등의 글꼴에서도 해당 한자들을 표시할 수 있도록 만든 지침인 것은 분명하다.
[편집] 5C 문자 문제
위 표를 보면 알겠지만, 시프트 JIS에는 둘째 바이트가 0x5C인 문자가 있다. 0x5C는 백슬래시(\)로, 많은 프로그래밍 언어에서 이스케이프 문자에 해당된다. 역시 여기에 해당되는 문자들은 대부분이 한자들이다.
| ― | ソ | Ы | Ⅸ | 噂 | 浬 | 欺 | 圭 | 構 | 蚕 | 十 | 申 | 曾 | 箪 | 貼 | 能 | 表 | 暴 | 予 | 禄 |
| 815C | 835C | 845C | 875C | 895C | 8A5C | 8B5C | 8C5C | 8D5C | 8E5C | 8F5C | 905C | 915C | 925C | 935C | 945C | 955C | 965C | 975C | 985C |
| 兔 | 喀 | 媾 | 彌 | 拿 | 杤 | 歃 | 濬 | 畚 | 秉 | 綵 | 臀 | 藹 | 觸 | 軆 | 鐔 | 饅 | 鷭 | ||
| 995C | 9A5C | 9B5C | 9C5C | 9D5C | 9E5C | 9F5C | E05C | E15C | E25C | E35C | E45C | E55C | E65C | E75C | E85C | E95C | EA5C | ||
| 偆 | 砡 | 纊 | 犾 | ||||||||||||||||
| ED5C | EE5C | FA5C | FB5C | ||||||||||||||||
이런 문자들을 일부 웹사이트에 그대로 집어넣는 경우 다음과 같은 백괴스러운 문제가 자주 발생한다. 예를 들어 構わない(상관없다), 芸能界(연예계, 예능계)를 쓸 경우,
|
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
각각 高墲ネい, 芸矧E라는 아무 의미도 없는 문자열로 바뀌어 버린다. 이 문제는 의사소통에 심각한 장애를 가져오기도 한다.
ソ, 十, 申, 能, 表와 같은 자주 쓰이는 글자들도 재수 없게 둘째 바이트에 5C를 가지고 있어서 可能性(가능성), 表示(표시)와 같은 단어들도 위처럼 이상하게 깨져서 나오는 경우가 자주 있다.
[편집] 유일한 해결 방법
둘째 바이트로 0x5C를 가지고 있는 문자들을 다 외운 뒤, 해당 문자들을 쓸 때마다 뒤에 \를 붙여 주는 것이다.
- 예: ソ\ース, 構\わない, 表\示
시프트 JIS는 이런 심각한 문제가 있고 그 문제의 해결 방법도 진짜 삐 같다. 의사소통에도 심각한 장애를 가져오는 이런 시프트 JIS가 어떻게 해서 왜국에서 가장 널리 쓰이는 문자 집합인지는 아직도 의문이다. 이런 이뭐병 같은 왜국의 시프트 JIS보다 대한게임국의 KS X 1001이 그나마 훨씬 낫다고 할 수 있다.
[편집] 그래도 못 쓰는 한자들을 보면
실제로 2008년에 발생했던 쓰촨 대지진 관련 기사를 보면 듕귁 쓰촨 성 원촨 현(汶川县)이 등장하는데, 시프트 JIS에서는 원촨 현의 '원'(汶: 한국어 한자음은 '문')에 해당하는 한자가 존재하지 않는다. 그래서 시프트 JIS에서 표현할 수 있는 최선의 방법은 シ+文 뿐이다.
더불어 밴쿠버 동계 올림픽 관련 기사에서 대한게임국 선수 이름을 한자로 써야 할 때, 시프트 JIS에 없는 奭(석)이나 爀(혁)이 들어가는 경우가 있어서 어쩔 수 없이 기사에 주석이 들어가야 하는 불편함이 있다. 그래도 어차피 왜국에서는 쓰일 일이 없으니 당연한지도 모른다.
[편집] 도보시오
문자 집합과 문자 인코딩 | |
|---|---|
| 대한게임국 | 상용 조합형 · KS X 1001 · KS X 1002 · KS X 1003 |
| 왜국 | JIS X 0201 · JIS X 0208 · JIS X 0212 · JIS X 0213 · 시프트 JIS · EUC-JP |
| 듕귁 | GB 2312 · GB 18030 |
| 대만 | Big5 · CNS 11643 |
| 쌀국 및 유럽 | 아스키 · ¡¢£¤¥¦§¨©ª«¬®¯°±²³´µ¶·¸¹º»¼½¾¿ÀÁÂÃÄÅÆÇÈÉÊËÌÍÎÏÐÑÒÓÔÕÖרÙÚÛÜÝÞßàáâãäåæçèéêëìíîïðñòóôõö÷øùúûüýþÿ |
| 북조선 | 국규 9566 |
| 안드로메다 및 전 세계 | 윤희코드 |