利用者:Omotecho/sandbox/CJK文字
CJKは国際化における総称で、中国語と日本語および韓国語など、表記に中国語の文字とその派生系を用いる言語のこと(総称してCJK文字)で、場合により他の文字体系と組み合わせる。時としてベトナム語を含め、略語CJKVをあてる。 ベトナム語は歴史的に漢字も使用したからである。CJKV文字にしばしば含まれる文字とは中国は漢字、日本語で漢字とカナ、朝鮮語で漢字、ハングル、ベトナム語ではチュノムである。
文字の種類
[編集]標準中国語と標準広東語では、ほぼ中国語の漢字のみで表記しローマ字を使わない。一般的な識字レベルは3,000文字以上とされ、十分に網羅するには最大4万文字を必要とする。日本語の文字数は少なく、日本語の標準的な読み書き能力は2,136文字とされる。朝鮮語の表記は漢字の使用をますます減らしているものの、漢字で表す固有名詞という特例においては引き続き多くの文字を知る(したがって読み書きできる)必要がある。そうは言っても現在の韓国国内の学校教育で身につく漢字は1,800文字にとどまる[要出典]。
これら3言語では他に文字体系として中国語のbopomofoとラテン語に基づくピンイン、日本語のひらがなとカタカナ、朝鮮語のハングルなど)は厳密には「CJK文字」ではない。しかしほぼすべてのCJK文字セットは対象言語の実需に応じるため、これらの文字を載せている。
ベトナム政府および学術研究の現場は20世紀初頭まで 古典中国語を記述言語として用いた。 ベトナム語人気文学を記したチュノムでは、借用した漢字と地元で作成された多くの文字を混ぜ書きにした。1920年代の終わりにはベトナム語の表記は、両方の文字体系からラテン語に基づくベトナム語アルファベットに置き換えられている [1] [2]。
CJKエンコーディング方式の初期の調査はサイノロジストのカール・レバン(1971年)が手がけた。
コード化
[編集]これらすべての言語の需要を完全に満たそうとすると、文字数は8ビット文字エンコーディングの256文字のコード空間にはとても収まりきらない。少なくとも16ビットの固定幅エンコーディングまたはマルチバイトの可変長エンコーディングが必要であり、Unicodeからバージョン2.0まで16ビット固定幅エンコーディングが採用された。その後、さらに対応する文字数が増えて16ビットエンコーディングでは足りなくなり非推奨にされる。Unicode5.0は漢字およそ7万字、政府の定めた要件により中国語ソフトウェアにはGB 18030文字セットの適用が定められた。
CJKエンコーディングの文字セットは共通でも、表示するエンコーディングはし東アジアのさまざまな政府およびソフトウェア会社が個別に開発、相互互換性に欠ける傾向がある。 Unicodeはいくつかの論争を巻き起こしつつ漢字統一と呼ばれるプロセスで文字セットの統合を試みた[要出典]
CJK文字エンコードは以下を含む。
CJK文字セットは、割り当てられたUnicodeコード空間の大きな部分を占める。日本人の漢字専門家には漢字統一プロセスの適用に関してその望ましさと技術的メリットをめぐり、中国の複数の漢字体系と日本語の文字セットを単一の統一文字セットにマッピングするべきかどうか論がいくつにも分かれている [要出典] 。
[ 引用が必要 ] 3つの言語はすべて横書き右書きと縦書きの両方向に筆記され(古代文書では横書き左書きと縦書き)、通常、エンコーディングの問題について説明するときは、左から右書き文字体系と見なして扱う。
法的地位
[編集]エンコードの申し合わせをするライブラリは、1980年代初頭にJACKPHY文字のエンコーディングを共同で標準化した。ケン・ランディの説では略語「CJK」はResearch Libraries Group [3]が商標登録したという〈2006年にOCLCと合併)。1987年から2009年にかけてOCLCが所有する商標は切れている [4]。
関連項目
[編集]- 漢字記述言語
- 中国語の文字エンコーディング(Chinese character encoding)
- コンピュータ用の中国語入力方法
- CJK互換表意文字
- CJKストローク
- CJK統一表意文字
- 複雑なテキストレイアウト言語 (CTL)
- 入力方式エディター
- 日本語とコンピューター(Japanese language and computers)
- 韓国語とコンピューター(Korean language and computers)
- CJKフォントのリスト(List of CJK fonts)
- シノキセニック
- 可変幅エンコーディング
出典
[編集]この記事は2008年11月1日以前にFree On-line Dictionary of Computingから取得した項目の資料を元に、GFDL バージョン1.3以降の「RELICENSING」(再ライセンス) 条件に基づいて組み込まれている。
- DeFrancis, John. The Chinese Language: Fact and Fantasy. Honolulu: University of Hawaii Press, 1990. ISBN 0-8248-1068-6.
- Hannas, William C. Asia's Orthographic Dilemma. Honolulu: University of Hawaii Press, 1997. ISBN 0-8248-1892-XISBN 0-8248-1892-X (paperback); ISBN 0-8248-1842-3 (hardcover).
- Lemberg, Werner: The CJK package for LATEX2ε—Multilingual support beyond babel. TUGboat, Volume 18 (1997), No. 3—Proceedings of the 1997 Annual Meeting.
- Leban, Carl. Automated Orthographic Systems for East Asian Languages (Chinese, Japanese, Korean), State-of-the-art Report, Prepared for the Board of Directors, Association for Asian Studies. 1971.
- Lunde, Ken. CJKV Information Processing. Sebastopol, Calif.: O'Reilly & Associates, 1998. ISBN 1-56592-224-7ISBN 1-56592-224-7.
外部リンク
[編集]- CJKV:簡単な紹介
- 上からのLemberg CJKの記事、TUGboat18-3
- Wenlin.comの「CJK Unified Ideograph」について
- FGA:Unicode CJKV文字セットの合理化
[[Category:コンピュータと自然言語]]