利用者:Hatukanezumi/JIS X 4051の字間空き量
この文書は私論です。一部のウィキペディアンが助言や意見を記したものです。広く共有されている考え方もあれば、少数意見の見解もあります。内容の是非については慎重に検討してください。 |
JIS X 4051:2004『日本語文書の組版方法』では、日本語文書の組版を実現するための行の構成アルゴリズムが示されている。このうち、文字と文字の間に必要となる空き量 (以下「字間アキ」) について調べて、ウィキテキストを含む日本語のプレインテキストで字間アキを補う際の規範を導出する。
なお、ここでの「日本語文書」には、日本語の仮名、漢字、約物だけが現れるわけではない。欧文、数式、化学式などをも含みうる。
ここで使う用語は、JISやその他の規格の用語とは必ずしも一致しない。
文字クラス
[編集]JIS X 4051:2004で規定する文字クラスの割り当ての一部を以下に示す。なお、JIS X 4051:2004ではJIS X 0213の面区点番号で文字を同定しているが、ここではUnicodeへのマッピングを行っている。また「和字」、「欧文中の文字」、「両方」の区分は、作表にあたって便宜的に設けた。
文字クラス | 和字 | 両方 | 欧文用文字 |
---|---|---|---|
(1) 始め括弧類 | ⦅ 〈 《 「 『 【 〔 〖 〘 〝 |
( [ { « ‘ “ |
|
(2) 終わり括弧類 | ⦆ 、 〉 》 」 』 】 〕 〗 〙 〟 |
) , ] } » ’ ” |
|
(4) ハイフン類 | ‐ 〜 ゠ |
– | |
(5) 区切り約物 | ‼ ⁇ ⁈ ⁉ | ! ? | |
(6) 中点類 | ・ | : ; | |
(7) 句点類 | 。 | . | |
(8) 分離禁止文字 | 〳 〴 〵 | — ‥ … | |
(9) 前置省略記号 | № | # $ £ ¥ € |
|
(10) 後置省略記号 | ℃ ℓ ㏋ |
% ¢ ° ‰ ′ ″ |
|
(11) 和字間隔 | (U+3000 和字間隔) | - | - |
その他[1] | ※ ℡ Ⅰ-Ⅻ ⅰ-ⅻ ◉ ☖ ☗ ♨ ⦿ ⧺ ⧻ 〃 々 〆 〇 〒 〓 〠 〻 〼 〽 ぁ-ん ゔ ゕ ゖ ゝ ゞ ゟ ァ-ン ヴ ヵ ヶ ヷ-ヺ ー ヽ ヾ ヿ ㇰ-ㇿ ㈱ ㈲ ㈹ ㊤-㊨ ㋐-㋣ ㋥ ㋩ ㋬ ㋭ ㋺ ㌃ ㌍ ㌔ ㌘ ㌢ ㌣ ㌦ ㌧ ㌫ ㌶ ㌻ ㍉ ㍊ ㍍ ㍑ ㍗ ㍻ ㍼ ㍽ ㍾ ㎎ ㎏ ㎜ ㎝ ㎞ ㎡ ㏄ ㏍ (CJK統合漢字拡張A[2]) (CJK統合漢字[2]) (CJK互換漢字[2]) ﹅ ﹆ (CJK統合漢字拡張B[2]) |
& * + / < = > @ \ | § © ¬ ® ± ¶ ¼ ½ ¾ × ÷ ‖ † ‡ • ⁂ ⁑ ⅓ ⅔ ⅕ ← ↑ → ↓ ↔ ↖ ↗ ↘ ↙ ⇄ ⇒ ⇔ ⇦ ⇧ ⇨ ⇩ ∀ ∃ ∅ ∈ ∉ ∋ − ∓ √ ∝ ∞ ∟ ∠ ∥-∬ ∮ ∴ ∵ ∽ ≃ ≅ ≈ ≒ ≠ ≡ ≢ ≦ ≧ ≪ ≫ ≶ ≷ ⊂-⊇ ⊊ ⊋ ⊕ ⊖ ⊗ ⊥ ⊿ ⋚ ⋛ ⌅ ⌆ ⌒ ⌘ ⏎ ␣ ①-⑳ ⓐ-ⓩ ⓫-⓴ ⓵-⓾ ■ □ ▱ ▲ △ ▶ ▷ ▼ ▽ ◀ ◁ ◆ ◇ ○ ◎ ● ◐ ◑ ◒ ◓ ◦ ◯ ☀ ☁ ☂ ☃ ★ ☆ ☎ ☞ ♀ ♂ ♠-♧ ♩-♯ ✓ ❖ ❶-❿ ⤴ ⤵ ㉑-㉟ ㊱-㊿ |
- " ' 0-9 A-Z ^ _ ` a-z ~ (U+00A0 ノンブレークスペース) ¡ ¤ ¦ ¨ ª ¯ ² ³ ´ · ¸ ¹ º ¿ À-Ö Ø-ö ø-ÿ Ā-ĉ Č-ď đ Ē ē Ę-ĝ Ĥ ĥ ħ Ī ī Ĵ ĵ Ĺ ĺ Ľ ľ Ł-ń Ň ň ŋ Ō ō Ő-ŕ Ř-ť Ū-ű Ź-ž Ɠ ǂ Ǎ ǎ ǐ Ǒ ǒ ǔ ǖ ǘ ǚ ǜ Ǹ ǹ ǽ ɐ-ɚ ɜ ɞ-ɡ ɤ-ɨ ɬ-ɳ ɵ ɹ ɺ ɻ ɽ ɾ ʁ ʂ ʃ ʄ ʈ-ʎ ʐ ʑ ʒ ʔ ʕ ʘ ʝ ʡ ʢ ˇ ˈ ˌ ː ˑ ˘ ˙ ˛ ˝ ˞ ˥-˩ ̀ ́ ̂ ̃ ̄ ̆ ̈ ̋ ̌ ̏ ̘ ̙ ̚ ̜ ̝ ̞ ̟ ̠ ̤ ̥ ̩ ̪ ̬ ̯ ̰ ̴ ̹ ̺ ̻ ̼ ̽ ͡ Α-Ρ Σ-Ω α-ω Ё А-Я а-я ё Ḿ ḿ ὰ ά ὲ έ ‾ ‿ ℏ ℧ Å ℵ ∂ ∇ |
(20) 欧文間隔 | (U+0020 欧文間隔) |
- [1]和字の場合は、(3) 行頭禁則和字、(12) 平仮名、(13) (1)〜(12) 以外の和字のいずれか。欧文中の文字の場合は、(21) 欧文間隔以外の欧文用文字。
- [2]漢字はJIS X 0213に収録されているもののみ。
JIS X 4051:2004附属書1「(規定) 7ビット及び8ビットの2バイト情報交換用符号化拡張漢字集合 (JIS X 0213) との対応」を元に作成した。なお、
- ルビかけ、割注、禁則、詰め・延ばしの処理はここでは考えないので、それに関する文字クラスは省略した。
- またそれに伴い、行頭禁則和字、平仮名、それらや約物以外の和字はまとめて示してある。
- 連数字とJIS Z 8202の単位記号などの処理に関わる文字クラスは省略した。
次の文字はJIS X 0213に見えるが、JIS X 4051で文字クラスを割り当てられていない。
文字の種類 | 文字 |
---|---|
歯科用罫線素片 | ⎾⎿⏀⏁⏂⏃⏄⏅⏆⏇⏈⏉⏊⏋⏌ |
罫線素片 | ─━│┃┌┏┐┓└┗┘┛├┝┠┣┤┥┨┫┬┯┰┳┴┷┸┻┼┿╂╋ |
濁点、半濁点 | ゛゜ |
Unicodeの範囲への拡張
[編集]UAX #14との比較
[編集]UAX #14 “Unicode Line Breaking Algorithm”では、行分割処理のための文字クラス (Line Breaking Classes ) を定義している。これは字間アキ処理を目的としたものではない。が、クラス分けの際にJIS X 4051を参考にしているため、字間アキ処理の対象をUnicodeへ拡張する上で参考にはなる。
表Xに、表1の各欄の文字が割り当てられているLine Breaking Classesを示す。
文字クラス | 和字 | 両方 | 欧文用文字 | 備考 |
---|---|---|---|---|
(1) 開き括弧類 | OP Opening Punctuation | OP Opening Punctuation QU Ambiguous Quotation |
||
(2) 閉じ括弧類 | CL Closing Punctuation | CL Closing Punctuation* QU Ambiguous Quotation |
, はIS | |
(4) ハイフン類 | BA Break Opportunity After NS Nonstarter |
BA Break Opportunity After | ||
(5) 区切り約物 | NS Nonstarter | EX Exclamation/Interrogation | ||
(6) 中点類 | NS Nonstarter | * | : ; はIS | |
(7) 句点類 | CL Closing Punctuation | * | . はIS | |
(8) 分離禁止文字 | ID Ideographic | IN Inseparable* | — はB2 | |
(9) 前置省略記号 | PR Prefix (Numeric) | PR Prefix (Numeric)* | # はAL | |
(10) 後置省略記号 | PO Postfix (Numeric)* | PO Postfix (Numeric) | ℓ はAL、㏋ はID | |
(11) 和字間隔 | ID Ideographic | - | - | |
その他 | Others | Others* | Alphabetics* | | はBA + \ ± − ∓ はPR / はSY " ' はQU |
Othersの欄は次のクラスを含む:
- AI Ambiguous (Alphabetic or Ideographic)
- AL Ordinary Alphabetic and Symbol Characters
- ID Ideographic
- NS Nonstarterの仮名
Alphabeticsは次のクラスを含む:
- AI Ambiguous (Alphabetic or Ideographic)
- AL Ordinary Alphabetic and Symbol Characters
- NU 数字
- HY HYPHEN-MINUS
- その他
(5)-和字がNS Nonstarterとなっている点、(8)-和字がID Ideographicとなっている点は、UAX #14のバグのように見える (それぞれ EX、INとなるべきではないだろうか)。
(6)-和字については、UAX #14に対応するクラスがないように見える。一方、(6)-両方はIS (JIS X 4051の「(18) 連数字中の文字」にあたるものを独立したクラスに分離したもの) とされる。また、(2) 閉じ括弧類 (読点類も含んでいる) と (7) 句点類の区別がない。結局、(2) (6) (7) は区別されない。この点については後でも検討する。
QUの扱いについては、今後検討する。
それ以外については、JIS X 4051の文字クラスとUAX #14のクラスは、表中でおおむね対応付けられるように見える。
UAX #11との比較
[編集]UAX #11: “East Asian Width” での文字幅との関係も見てみる。表Yに、表1の各欄の文字が割り当てられているEast Asian Widthを示す。
文字クラス | 和字 | 両方 | 欧文用文字 | 備考 |
---|---|---|---|---|
(1) 開き括弧類 | W Wide* | A Ambiguous Na Narrow |
⦅ はF | |
(2) 閉じ括弧類 | W Wide* | A Ambiguous Na Narrow |
⦆ はF | |
(4) ハイフン類 | W Wide A Ambiguous |
A Ambiguous | ||
(5) 区切り約物 | N Neutral | Na Narrow | ||
(6) 中点類 | W Wide | Na Narrow | ||
(7) 句点類 | W Wide | Na Narrow | ||
(8) 分離禁止文字 | W Wide | A Ambiguous | ||
(9) 前置省略記号 | A Ambiguous | Na Narrow A Ambiguous |
||
(10) 後置省略記号 | W Wide A Ambiguous |
Na Narrow A Ambiguous |
||
(11) 和字間隔 | F Fullwidth | - | - | |
その他 | W Wide A Ambiguous |
Na Narrow A Ambiguous W Wide |
Na Narrow A Ambiguous |
- N Neutralは省いた。これらは単に、JIS X 0213に収録されているがJIS X 0208などのUAX #11の調査対象になった文字集合には収録されていない文字だから、比較の意味がない。
目安程度だが、和字は “wide” (広い) 文字に、欧文用文字は “narrow” (狭い) 文字に分類される。両方のものはたいてい “ambiguous” となるため、文脈によって文字幅が変わると考えられる。このことは、次節での「和字は全角取りになるようにアキを作り出す」という考えかたにも合致する (Na は全角形の互換文字を持つものなので、これらが「和字」の欄に現れないことも納得がいく)。
字間アキ
[編集]JIS X 4051:2004で規定する文字と文字の間の空き量の一部を以下に示す。
後
\
前
|
(1) | (2) | (5) | (6) | (7) | 約 | (11) | 和 | (20) | (21) |
---|---|---|---|---|---|---|---|---|---|---|
(1) 始め括弧類 | 四分 | |||||||||
(2) 終わり括弧類 | 二分 | 二分 | 四分 | 二分 | 二分 | 二分 | 二分 | |||
(5) 区切り約物 | 二分 | 四分 | 四分 | |||||||
(6) 中点類 | 四分 | 四分 | 四分 | 二分 | 四分 | 四分 | 四分 | 四分 | 四分 | 四分 |
(7) 句点類 | 二分 | 二分 | 二分四分 | 二分 | 二分 | 二分 | 二分 | 二分 | ||
その他の約物[1] | 二分 | 四分 | ||||||||
(11) 和字間隔 | 四分 | |||||||||
その他の和字 | 二分 | 四分 | 四分 | |||||||
(20) 欧文間隔 | 二分 | 四分 | ||||||||
(21) 欧文間隔以外の欧文用文字 | 二分 | 四分 | 四分 |
- [1](4) ハイフン類、(8) 分離禁止文字、(9) 前置省略記号、(10) 後置省略記号。
文字クラスについては前節の説明を参照。次の省略を行っている:
- 前節で省略した文字クラスに関する項目は省略した。
- 禁則の処理はここでは考えないので、行頭の直後と行末の直前については省略した。
- 異サイズ混植はここでは考えないので、字間アキのうち前の文字に対するものと後の文字に対するものを合算して示した。なお、「二分四分」は全角の3/4を意味する。
- この結果、(4) ハイフン類、(8) 分離禁止文字、(9) 前置省略記号、(10) 後置省略記号に関しては違いがなくなるので、「その他の約物」としてまとめた。
アキの解釈
[編集]JIS X 4051では、一部の和字は全角より小さい字幅を持つとしている (#表4の「字幅」欄に示す)。そこで、ひとつの解釈として、このような和字には升組みの際に自身が前後にアキを作り出すことができるものがある、と考えることにする。すると多くの場合、ベタ打ちのテキストでも組版の際には字間に適切なアキが挿入されることになる。
文字クラス | 字幅 | 前アキ | 後アキ |
---|---|---|---|
(1) 始め括弧類 | 二分 | 二分 | なし |
(2) 終わり括弧類 | 二分 | なし | 二分 |
(4) ハイフン類 | 文字により異なる | なし | なし |
(5) 区切り約物 | 定義なし | なし | 欧文用文字の前で四分 |
(6) 中点類 | 二分 | 四分 | 四分 |
(7) 句点類 | 二分 | なし | 二分 |
(8) 分離禁止文字 | 定義なし | なし | なし |
(9) 前置省略記号 | 定義なし | なし | なし |
(10) 後置省略記号 | 二分 | なし | なし |
その他の和字 | 定義なし | 欧文用文字の後で四分 | 欧文用文字の前で四分 |
表4のとおりに文字がアキを作り出すとすると、どの文字と文字の間でも、表3で必要とするアキと同じか、それ以上になるため、執筆者がわざわざ字間アキを挿入する必要はない (実際、たとえば、読点「、」のあとにSPACEを挿入するような編集がされれば、jaWPでは即座に修正されるだろう)。
一方で、欧文用文字はこのような字間アキを作り出せないことになる。そのため、SPACEを挿入することによって字間アキを表現する必要がある。実際jaWPでは、引用符「“……”」が和字を囲み和文中にあるとき (使うことは推奨されていない) は前後にSPACEを挿入しない編集が普通に見られるが、欧文中ではSPACEを挿入しなければならないとされている (WP:JPE#括弧類参照)。
ウィキペディア日本語版への適用
[編集]ウィキペディア日本語版では、以下のように、字間アキの解釈に例外が生じる場合もある。
- 文字幅が異なる括弧
- jaWPでは、「(……)」、「[……]」、「{……}」については、和字を囲むときは全角形を用い、そうでないときは全角形を用いないようにするべきだという見解が一定存在する (WP:JPE#使用できる文字参照)。このためこれらの文字では、字間アキを作り出せるのは全角形の文字だけであると解釈せざるをえない。すると、全角形を用いないときは和字を囲むか欧文を囲むかにかかわらず、前や後にSPACEを挿入して字間アキを表現しなければならない[1]。
- JISの中点類の扱い
- コロン「:」、セミコロン「;」は、欧文で句読点として用いられる場合には後アキとなる (WP:JPE#コンマ・ピリオド・セミコロン・コロン参照) (これは欧文の組版規則によるので、JIS X 4051の規定の範囲外である)。この影響を受けてか、「:」や「;」で和字を区切る際にも、後アキとすることが多い。ただしその場合も、時刻などの区切りに用いる場合は前後ベタとしている。前節と併せて考えると、これらはJISの「(6) 中点類」ではなく、UAX #14のIS Infix separator (連数字中以外ではCL closing punctuationsと同じもの。JISの「連数字中の文字」に相当) として扱われていると言える。
- またコロンについては、和文の文脈で全角形を用いる例がある (WP:JPE#使用可能な文字参照。いっぽうで記事名では技術的な理由で全角形でないものを使えない場合のみ全角形を使えるとしている。WP:NC#全角と半角の使い分け参照)。この場合は前後ベタとする。セミコロンについてはこのような用例は見られない。
- 結局、JISの「中点類」の扱いを受けるものは、jaWPでは中黒「・」および全角形のコロン「:」だけとなる。
- 区切り約物の扱い
- 疑問符と感嘆符は、和文組版ではしばしば全角取りで後全角アキとして組まれる (JISではこのルールを定めていない)。要するに、字幅が全角で、後に全角の空き量が必要な文字として扱われる。これは字幅や空き量の違いを除けば、JISの「(7) 句点類」と同じものといえる[2]。ただし、jaWPでは和字間隔の使用が避けられるため、文字の後のアキはSPACEで表現せざるを得ない (ただし、このアキは上で述べたほかの字とは異なり、全角形かそうでないかにかかわらず適用される)。
- つまり、JISの「(6) 区切り約物」は、jaWPでは「(7) 句点類」に属するが文字がアキを作り出さないものと言える。
- 和字間隔の不使用
- jaWPでは、字間を空けたり段落頭を落としたりするための和字間隔の使用は推奨されていない。和文中で書き手が意図的に字間アキを取る場合でも、欧文間隔が使われる。
- 和字と欧文用文字の間のアキ
- JISは和字と欧文用文字との間を四分アキとしているが、jaWPではガイドライン等に明示されておらず、空けるか空けないかは執筆者によって異なる。前者のほうが多いようではある。
- その他の例外
-
- 書誌情報の記載では、括弧類 (『……』、「……」) の前後に全角アキを取るという慣習が一部にある (WP:CITE#書誌情報の書き方(和書)参照)。全角アキを表現するために和字間隔を用いることも試みられているが、SPACEを使うべきだという主張も見られる。いずれにせよ、このようなアキの挿入は、これまで述べてきたルールと整合しない。和書の書誌情報に限って見られる慣習である。
- 文脈の無視
- JISでは和文の文脈と欧文の文脈で異なる組版を想定しており、もっぱら和文だけについて組版規則を定めている。しかし、上の例外を見ると、jaWPでは欧文由来の約物については欧文組版 (より正確に言うと英文タイプライタ体) に近い規則を採用する傾向がある。このため、字間アキの規則を和文と欧文の文脈を無視して適用しても、大きな問題にならないだろう (問題になりうる場合については最後に述べる)。
以上から、jaWPでのウィキテキストの字間アキによる文字の分類と、字間アキを表現するSPACEを挿入すべきかすべきでないかは、表5と表6のようにまとめられる。
文字の分類
[編集]分類 | 文字 |
---|---|
(1w) 始め括弧 (広) | 〈 《 「 『 【 〔 〖 〘 〚 〝 ( [ { ⦅ |
(1x) 始め括弧 (両方) | ‘ “ |
(1n) 始め括弧 (狭) | ( [ { « ‚ ‛ „ ‟ ‹ ⁅ |
(2w) 終わり括弧・読点 (広) | 、 〉 》 」 』 】 〕 〗 〙 〛 〞 〟 ) ] } ⦆ |
(2x) 終わり括弧 (両方) | ’ ” |
(2n) 終わり括弧・読点類 (狭) | ) , : ; ] } » › ⁆ |
(6w) 中点類 | ・ : |
(7w) 句点 (広) | 。 |
(7n) ピリオド・疑問符・感嘆符 | ! . ? ‼ ⁇ ⁈ ⁉ ! ? |
(X) その他の約物 | # $ % ¢ £ ¥ ° ‐ – — ‗ ‣ ‥ … ‰-‷ U+20A0-U+20FF ℃ ℉ ℓ № 〜 〳 〴 〵 ゠ ㏋ = |
(Y) その他 | 表5a /その他の文字の分類を参照 |
上の例外に基づいて分類を見直すとともに、Unicodeの範囲への拡張を行っている。Unicodeへの拡張はUnicode 5.1に基づいている。JISからの変更点は以下のとおり。
- 分類を以下のように見直した。
- 約物については和字と欧文用文字の区別に代えて、文字幅での区別とした。(1) 始め括弧類、(2) 終わり括弧類、(7) 句点類は「広」と「狭」に区別した。
- : ; は (6) 中点類から (2) 終わり括弧類に移した。その結果、(6) 中点類は中黒だけとなった。これに全角形コロン:を加えた。
- (5) 区切り約物は (7) 句点類と統合した。
- 以上の変更に合わせて、分類名を調整した。
- (1w) 始め括弧類 (広)。以下のものを追加した。
- 全角形の ( [ {。
- 〚 始め白抜き角括弧。これはJIS X 0213に見えないが、和字であろう。
- (1n) 始め括弧類 (狭)。以下のものを追加した。
- ‚ SINGLE LOW-9 QUOTATION MARK (OP)
- ‛ SINGLE HIGH-REVERSED-9 QUOTATION MARK (QU)
- „ DOUBLE LOW-9 QUOTATION MARK (OP)
- ‟ DOUBLE HIGH-REVERSED-9 QUOTATION MARK (QU)
- ‹ SINGLE LEFT-POINTING ANGLE QUOTATION MARK (QU)
- ⁅ LEFT SQUARE BRACKET WITH QUILL (OP)
- (2w) 終わり括弧類 (広)。以下のものを追加した。
- 全角形の ) ] }。
- 〛 終わり白抜き角括弧。これはJIS X 0213に見えないが、和字であろう。
- 〞 上付き終わりダブルミニュート。誤用である[3]。
- (2n) 終わり括弧類 (狭)。次のものを追加した。
- › SINGLE RIGHT-POINTING ANGLE QUOTATION MARK (QU)
- ⁆ RIGHT SQUARE BRACKET WITH QUILL (CL)
- (X) その他の約物。以下のものを追加した。
- ‗ ‣ ‱ ‴ ‵ ‶ ‷。欧文の約物であろう。
- ‸ ⁀ ⁁ はALであるため約物として扱わない。‽ は欧文の約物だが、組版規則が明確でないので約物としない (表5a参照)。
- U+20A0-U+20CF Currency Symbols。POまたはPRである。
- U+20D0-U+20FF Combining Diacritical Marks for Symbols。
- U+2109 ℉ ただしJIS X 0208に見えないためjaWPで使うべきではない (JIS X 0213にも見えない)。
- 全角形の等号 =。これはjaWPでは、ダブルハイフン ゠ の代用として用いられる (WP:NC#全角と半角の使い分け参照)。
- ‗ ‣ ‱ ‴ ‵ ‶ ‷。欧文の約物であろう。
- 以下のものはMediaWikiの仕様上、テキスト中に現れることがないため、上表および表5aには含まれていない。
- U+D800-U+DFFF サロゲート。UTF-16環境では常にサロゲートペアとして現れる。
- 以下のものはjaWPでは使うべきでないと考えられるので、上表および表5aには含まれていない。
- U+2000-U+200F, U+2027-U+202F, U+205F U+2060。種々のスペース (クワタ) とFormat characters。スペースはU+0020 SPACEで代用すべき。
- U+2061-U+206F。
- U+2070-U+207F Superscripts and Subscripts。<sup>または<sub>で表現すべき。
- 似通ったグリフの約物。
- ‑ ‒ ― - ハイフンマイナスもしくはダッシュで代用すべき。
- ․ ONE DOT LEADER。リーダーは3点リーダーのみを使うべき。中点としては中黒または欧文中点 (ビュレット) を使うべき。
- U+E000-U+F8FF 私用領域
- U+FE10-U+FE1F 縦書き形
- U+FE20-U+FE2F Combining Half Marks
- U+FE30-U+FE4F CJK Compatibility Forms。ただし U+FE45 ﹅ 黒胡麻、U+FE46 ﹆ 白胡麻、をそれぞれ除く。
- U+FE50-U+FE6F Small form variants
- U+FF00-U+FFEF Halfwidth and Fullwidth Forms。ただし一部は表中に現れる。
- U+FFF9-U+FFFB Interlinear annotation。
- U+E0000-U+10FFFF 第14面以降すべて。
- U+xFFFE, U+xFFFF 非字
アキの挿入規則
[編集]分類 | 後
/
前
|
(1w) | (1n) | (2w) | (2n) | (6w) | (7w) | (7n) | (X) | (Yw) | (Yn) |
---|---|---|---|---|---|---|---|---|---|---|---|
前
/
後
|
アキ | 二分 | なし | 四分 | なし | なし | 和欧 | ||||
(1w) 始め括弧 (広) | なし | 四分 | |||||||||
(1n) 始め括弧 (狭) | 四分 | ||||||||||
(2w) 終わり括弧・読点 (広) | 二分 | 二分 | 二分 | 四分 | 二分 | 二分 | 二分 | ||||
(2n) 終わり括弧・読点類 (狭) | 二分 | 二分 | 四分 | 二分 | 二分 | 二分 | |||||
(6w) 中点類 | 四分 | 四分 | 四分 | 四分 | 四分 | 二分 | 四分 | 四分 | 四分 | 四分 | 四分 |
(7w) 句点 (広) | 二分 | 二分 | 二分 | 二分四分 | 二分 | 二分 | 二分 | ||||
(7n) ピリオド・疑問符・感嘆符 | 二分 | 二分 | 二分四分 | 二分 | 二分 | 二分 | |||||
(X) その他の約物 | なし | 二分 | 二分 | 四分 | |||||||
(Yw) その他 (和字) | 二分 | 二分 | 四分 | 四分 | |||||||
(Yn) その他 (欧文用) | 和欧 | 二分 | 二分 | 四分 | 四分 |
(a) | 詰める。字間に空白があれば詰める。 | |
(b) | 空ける。アキを表現するために字間にSPACEを挿入する。 | |
(c) | 維持。字間にSPACEがあっても詰めない。なくても挿入しない。 | |
(d) | 和文と欧文の間にアキをとるのならSPACEを挿入する。アキをとらないのなら詰める。 |
表の見かたを説明する。たとえば、前の文字が (2w)、後の文字が (1n) である場合、(2w) の文字は後に二分のアキを作りだし、(1n) の文字は前にアキを作り出さない。JISではこの場合字間の空き量を二分としているが、これは文字が作り出すアキで満たされるから、アキの挿入は必要ない。したがって空きがあれば詰める。
- (7n)-(1w) に対して機械的に導かれる規則は「(a) 詰める」だが、不自然である。「(b) 空ける」とするか、「(c) 維持」として執筆者の判断に任せるべきだろう。
さらに、以下のようにして規則をより単純化することができる。
- 「(7w) 句点 (広)」は、結局「(2w) 終わり括弧・読点 (広)」と同じ規則にしたがう。
- 表5aによれば、現状のjaWPのガイドライン等だけでは、「(Y) その他」の文字が和字と欧文用文字とのどちらなのかは厳密に決められない。いっぽう、和欧間のアキのためにSPACEを挿入するかどうかの判断を執筆者に任せる ((d) を (c) とみなす) と、「(Yw) その他 (和字)」と「(Yn) その他 (欧文用)」は同じ規則にしたがうことになるので、和字と欧文用文字を区別する必要がなくなる。
その他の処理
[編集]JIS X 4051に規定されているその他の字間空き量に関わる処理は、以下のようにする。
- 漢文処理
- 処理の対象としない。
- 連数字
- JISでは (18) 連数字中の文字として欧数字と「,」「.」のみを挙げるが、UAX #14ではNU Numericとしていくつかの用字系固有の数字を、IS Numeric Separator (Infix) としてその他いくつかの約物を挙げる。このうち用字系に依存するものと表示形を除いた: ; ⁄を連数字中の文字として扱う。
- 単位記号
- 未稿
- ルビかけ
- jaWPでは対象となる処理はない[4]。
- 合印
- 脚注への参照などの番号 (JISでは合印〔あいじるし〕と呼ばれている) は、単に無視することでJISの規定とほぼ同様の処理ができる。
- 添字
- JISでの添字 (上付きまたは下付きで表現される) では、添字の親文字も添字自身も欧字や欧数字を想定しているようである。添字を無視して処理してもJISの規定と同様の処理ができるように思われる。
このほか、JIS X 4051に規定されない処理についても、以下のようにする。
- ファイル名
- ファイル名は字間アキ処理の対象としない。ただし、どのようなものをファイル名とみなすかには検討が必要。
- URLその他の識別子
- URLその他の識別子にはJISの処理の対象となる約物が含まれることがあるが、字間アキ処理の対象としない。
実装によるテスト
[編集]以下の実装で、規則の有効性をテストしている。
- アナンシ。
解決できていない問題
[編集]未稿
向きに曖昧さのある括弧類
[編集]執筆中
文字 | 文字名称 | JIS X 4051の文字クラス | 当ページでの分類 |
---|---|---|---|
U+0022 " | QUOTATION MARK | (21) | (Yn) |
U+0027 ' | APOSTROPHE | (21) | (Yn) |
U+00AB « | LEFT-POINTING DOUBLE ANGLE QUOTATION MARK | (1) | (1n) |
U+00BB » | RIGHT-POINTING DOUBLE ANGLE QUOTATION MARK | (2) | (2n) |
U+2018 ‘ | LEFT SINGLE QUOTATION MARK | (1) | (1x) |
U+2019 ’ | RIGHT SINGLE QUOTATION MARK | (2) | (2x) |
U+201B ‛ | SINGLE HIGH-REVERSED-9 QUOTATION MARK | - | (1n) |
U+201C “ | LEFT DOUBLE QUOTATION MARK | (1) | (1x) |
U+201D ” | RIGHT DOUBLE QUOTATION MARK | (2) | (2x) |
U+201F ‟ | DOUBLE HIGH-REVERSED-9 QUOTATION MARK | - | (1n) |
U+2039 ‹ | SINGLE LEFT-POINTING ANGLE QUOTATION MARK | - | (1n) |
U+203A › | SINGLE RIGHT-POINTING ANGLE QUOTATION MARK | - | (2n) |
両側にアキを取る欧文約物
[編集]脚注
[編集]- ^ ⦅ ⦆ は全角形なので ⦅ ⦆ が対応することになるが、JIS X 0208に規定されていないため両者ともjaWPのガイドラインでは考慮されていない。なお、⦅ ⦆ はUnicodeの文字名称ではFULLWIDTH LEFT (RIGHT) WHITE PARENTHESIS〔左 (右) 白抜き括弧〕だが、JIS X 0213では「始め (終わり) 二重パーレン」であり、包摂される書体差と考えてよいのかどうかは疑問である。ちなみに尾崎紅葉は、自著で二重パーレンを登場人物の台詞の括弧に用いた。
- ^ たとえば山田美妙は、自著で句点「。」を2倍取り (つまり、字幅が二分で後アキが全角二分) とする組版を試みている。読点は漢文と同様に字間に添えるか、二分取りとしていた。
- ^ Unicode Book 5.1, p.284. ‘this is a mistaken analogue to ”’. いずれにせよダブルミュートは縦書き文脈でしか用いないので、jaWPでは非推奨。
- ^ MediaWikiの仕様としては<ruby>を用いることができるが、MediaWikiの生成するXHTML文書がXHTML 1.0の文書型定義を持っていることを理由としてjaWPでは使用が推奨されない。
参考文献
[編集]- 『JIS X 4051:2004 日本語文書の組版方法』日本規格協会、2004年。
- Asmus Freytag and Andy Heninger (Mar. 2008). Unicode Standard Annex #14: Unicode Line Breaking Algorithm (Revision 22 (Unicode 5.1.0) ed.)