コンテンツにスキップ

英文维基 | 中文维基 | 日文维基 | 草榴社区

利用者:Skytomo221/sandbox

空白文字: whitespace)は、タイポグラフィプログラミングにおいて水平方向または垂直方向の空白を表す文字である。文字が描画されるとき、多くの空白文字はページ上の領域の一部を占めるが、ほとんどの図形文字と違い通常は目に見えない。空白文字として最も代表的なU+0020   spaceは、語と語の区切りを表し、ラテン文字ギリシア文字キリル文字などの西洋文字で使用される。

Unicodeにおけるさまざまな空白文字の幅の相対比

Unicode

[編集]

The table below lists the twenty-five characters defined as whitespace ("WSpace=Y", "WS") characters in the Unicode Character Database.[1] Seventeen use a definition of whitespace consistent with the algorithm for bidirectional writing ("Bidirectional Character Type=WS") and are known as "Bidi-WS" characters. The remaining characters may also be used, but are not of this "Bidi" type.

Note: Depending on the browser and fonts used to view the following table, not all spaces may be displayed properly.

名前 符号点 NBSP IDN 用字 ブロック 一般カテゴリ 注釈
character tabulation U+0009 9 Yes 非対応 共通 基本ラテン文字 Other,
control
水平タブ(Horizontal Tab; HT)。HTML文字実体参照及びXML実体参照では	LaTeXでは\tab、C言語の文字列リテラル中におけるエスケープシーケンスでは\tと表記する。
line feed U+000A 10 行が変わる 共通 基本ラテン文字 Other,
control
改行(Line feed; LF)。HTMLの文字実体参照及びXMLの実体参照では
、C言語の文字列リテラル中におけるエスケープシーケンスでは\nと表記する。
line tabulation U+000B 11 行が変わる 共通 基本ラテン文字 Other,
control
垂直タブ(Vertical Tab; VT)。C言語の文字列リテラル中におけるエスケープシーケンスでは\vと表記する。
form feed U+000C 12 行が変わる 共通 基本ラテン文字 Other,
control
書式送り英語版(Form feed; FF)。 C言語の文字列リテラル中におけるエスケープシーケンスでは\fと表記する。
carriage return U+000D 13 行が変わる 共通 基本ラテン文字 Other,
control
復帰(Carriage return; CR)。C言語の文字列リテラル中におけるエスケープシーケンスでは\rと表記する。
space U+0020 32 Yes 非対応 共通 基本ラテン文字 Separator,
space
最も代表的な空白文字。LaTeXではと表記する。
next line U+0085 133 行が変わる 共通 ラテン1補助 Other,
control
改行(New Line; NEL)。LaTeXでは\\と表記する。
no-break space U+00A0 160   No 非対応 共通 ラテン1補助 Separator,
space
ノーブレークスペースU+0020   en spaceと同等だが、その空白文字の箇所での自動的な改行を防ぐ。HTMLの文字実体参照及びXMLの実体参照では ,   LaTeXでは~と表記する。
ogham space mark U+1680 5760 Yes 非対応 オガム文字 オガム文字 Separator,
space
オガム文字で書かれた文章のわかち書きに使用される。通常、縦書きでは縦線、横書きでは横線だが、横線のない(stemless)フォントでは空白の場合もある。
en quad U+2000 8192   Yes 非対応 共通 一般句読点 Separator,
space
1 enと等しい文字幅を有する空白文字。和文組版では二分アキに相当する。U+2002 en spaceは標準的にこの文字と同等であり、使用にはU+2002 en spaceが推奨される。
em quad U+2001 8193 Yes 非対応 共通 一般句読点 Separator,
space
1 emと等しい文字幅を有する空白文字。英語圏では“mutton quad”としても知られる。和文組版では全角アキに相当する。U+2003 em spaceは標準的にこの文字と同等であり、使用にはU+2003 em spaceが推奨される。
en space U+2002 8194 Yes 非対応 共通 一般句読点 Separator,
space
1 enと等しい文字幅を有する空白文字。英語圏では“nut”としても知られる。和文組版では二分アキに相当する。U+2000   en quadは標準的にこの文字と同等であり、使用にはU+2002 en spaceが推奨される。HTMLの文字実体参照及びXMLの実体参照では 、LaTeXでは\enspace(ただしLaTeXのenスペースはノーブレークスペース)と表記する。
em space U+2003 8195 Yes 非対応 共通 一般句読点 Separator,
space
1 emと等しい文字幅を有する空白文字。英語圏では“mutton”としても知られる。和文組版では全角アキに相当する。U+2001 em quadは標準的にこの文字と同等であり、使用にはU+2003 em spaceが推奨される。HTMLの文字実体参照及びXMLの実体参照では 、LaTeXでは\quadと表記する。
three-per-em space U+2004 8196 Yes 非対応 共通 一般句読点 Separator,
space
⅓ emと等しい文字幅を有する空白文字。英語圏では“thick space”としても知られる。和文組版では三分アキに相当する。HTMLの文字実体参照及びXMLの実体参照では , LaTeXでは\;(ただしLaTeXのemスペースはノーブレークスペース)と表記する。
four-per-em space U+2005 8197 Yes 非対応 共通 一般句読点 Separator,
space
¼ emと等しい文字幅を有する空白文字。英語圏では“mid space”としても知られる。和文組版では四分アキに相当する。HTMLの文字実体参照及びXMLの実体参照では と表記する。
six-per-em space U+2006 8198 Yes 非対応 共通 一般句読点 Separator,
space
⅙ emと等しい文字幅を有する空白文字。和文組版では六分アキに相当する。U+2009 thin spaceと同等とされることもある。
figure space U+2007 8199 No 非対応 共通 一般句読点 Separator,
space
図形間隔。単一の数字と同一の印字間隔を占める植字単位英語版である。HTMLの文字実体参照及びXMLの実体参照では と表記する。
punctuation space U+2008 8200 Yes 非対応 共通 一般句読点 Separator,
space
フォント内の狭い句読点と同じ幅、つまりピリオドまたはカンマの送り幅と同じ幅を占める[2]。HTMLの文字実体参照及びXMLの実体参照では と表記する。
thin space U+2009 8201 Yes 非対応 共通 一般句読点 Separator,
space
⅕ em(場合によっては⅙ em)と等しい文字幅を有する空白文字。国際単位系の桁区切りとして使用を推奨する。U+2002 en spaceからU+2008 punctuation spaceとは異なり、その幅は植字時に調整される可能性がある[3]。HTMLの文字実体参照及びXMLの実体参照では  、LaTeXでは\, (the LaTeX thin space is a no-break space)と表記する。
hair space U+200A 8202 Yes 非対応 共通 一般句読点 Separator,
space
U+2009 thin spaceよりも狭い空白文字。HTMLの文字実体参照及びXMLの実体参照では   (ただしすべてのブラウザに対応していない)と表記する。
line separator U+2028 8232 行が変わる 共通 一般句読点 Separator,
line
paragraph separator U+2029 8233 行が変わる 共通 一般句読点 Separator,
paragraph
narrow no-break space U+202F 8239 No 非対応 共通 一般句読点 Separator,
space
ノーブレークスペース。機能的にはU+00A0   no-break spaceと同様。モンゴル語で使用する場合、その幅は通常のスペースの3分の1になる。他の文脈では、その幅はU+2009 thin spaceの幅に近い場合がある。LaTeXでは\,と表記する。
medium mathematical space U+205F 8287 Yes 非対応 共通 一般句読点 Separator,
space
MMSP。数式で使用される。418 emの幅を占める[4]。数学的なタイポグラフィでは、スペースの幅は通常、118 emの整数倍で指定され、418 emは、たとえば、式a + bにおいてa+ の間、および +b の間など、さまざまな状況で使用されることがある[5]。HTMLの文字実体参照及びXMLの実体参照では 、LaTeXでは\:(ただしLaTexではノーブレークスペース)と表記する。
ideographic space U+3000 12288   Yes 非対応 共通 CJKの記号及び句読点 Separator,
space
単一のCJK文字と同一の印字間隔を占める。和字間隔、文組版の全角アキと同等。字下げ擡頭で使用される。
 名前  符号点 NBSP IDN 用字 ブロック 一般カテゴリ 注釈
mongolian vowel separator U+180E 6158 Yes 非対応 モンゴル文字 モンゴル文字 Other,
Format
MVS。モンゴル語で単語の最後の2文字を異なる形にするために使用される狭いスペース文字[6]。以前のバージョンではスペース文字として分類されていたが、Unicode 6.3.0ではスペース文字(つまりZsカテゴリ)として分類されなくなった。
zero width space U+200B 8203 Yes 非対応 ? 一般句読点 Other,
Format
ゼロ幅スペース(zero width space; ZWSP)。明示的なスペースを使用しないときに、文書処理システムに対して語の切れ目を示すのに用いる。これはソフトハイフンに似ているが、音節の境界を示すために使用され、改行時に目に見えるハイフンを表示する必要があるという点が異なる。HTML文字実体参照及びXML実体参照では​と表記する[7][c]
zero width non-joiner U+200C 8204 Yes Context-dependent[12] ? 一般句読点 Other,
Format
ゼロ幅非接合子(zero-width non-joiner; ZWNJ)。本来ならば合字として連結される2つの文字の間にゼロ幅非接合子が置かれると、その2つの文字はそれぞれ末尾形および頭字形で表示される。HTMLの文字実体参照及びXMLの実体参照では‌と表記する。
zero width joiner U+200D 8205 Yes Context-dependent[13] ? 一般句読点 Other,
Format
ゼロ幅接合子(zero-width joiner; ZWJ)。本来ならば接合しない形で表示される文字の後ろにゼロ幅接合子が置かれると、接合する形で表示される。接合形を独立形で表示するためにも使用する。デフォルトで合字または接合が予期されるかどうかに応じて、(絵文字およびシンハラ文字のように)1つのグリフで置換させるか、(デーヴァナーガリーのように)抑制することができる。(ゼロ幅非接合子とは異なり)個々の接合形の使用を許可しながら、単一のグリフで置換する。HTMLの文字実体参照及びXMLの実体参照では‍と表記する。
word joiner U+2060 8288 No 非対応 ? 一般句読点 Other,
Format
単語結合子(word joiner; WJ)。U+200B zero width spaceに似ているが、その空白文字の箇所での自動的な改行を防ぐ。HTMLの文字実体参照及びXMLの実体参照では⁠と表記する。
zero width non-breaking space U+FEFF 65279  No 非対応 ? Arabic
Presentation
Forms-B
Other,
Format
ゼロ幅ノーブレークスペース(zero width non-breaking space; ZWNBSP)。主にバイト順マーク(byte order mark; BOM)として使用される。Unicode 3.2では、壊れていないことを示すものとして使用することは推奨されず、代わりにU+2060 word joinerを使用する。
  1. ^ White_Space is a binary Unicode property.[14]
  2. ^ Unicode 15.0 UCD: PropList.txt” (2022年8月5日). 2022年9月16日閲覧。
  3. ^ Although ​ is one HTML5 named entity for U+200B, the additional names NegativeMediumSpaceNegativeThickSpaceNegativeThinSpace and NegativeVeryThinSpace (which are names used in the Wolfram Language for negative-advance spaces, which it maps to the Private Use Area)[8][9][10][11] are also defined by HTML5 as aliases for U+200B (e.g. ​).[7]

Visible space

Substitute images

[編集]

Unicode also provides some visible characters that can be used to represent various whitespace characters, in contexts where a visible symbol must be displayed:

Unicode space-illustrating characters (visible)
Code Decimal Name Block Display 説明
U+00B7 183 Middle dot Latin-1 Supplement · Interpunct
Named entity: ·
U+21A1 8609 Downwards two headed arrow Arrows ECMA-17 / ISO 2047 symbol for form feed (page break)[15]
U+2261 8810 Identical to Mathematical
Operators
Amongst other uses, is the ECMA-17 / ISO 2047 symbol for line feed[15]
U+237D 9085 Shouldered open box Miscellaneous Technical Used to indicate a NBSP
U+23CE 9166 Return symbol Miscellaneous Technical Symbol for a return key, which enters a line break
U+2409 9225 Symbol for horizontal tabulation 制御機能用記号 水平タブを表す記号
U+240A 9226 Symbol for line feed 制御機能用記号 改行を表す記号
U+240B 9227 Symbol for vertical tabulation 制御機能用記号 垂直タブを表す記号
U+240C 9228 Symbol for form feed 制御機能用記号 Substitutes for a form feed (page break)
U+240D 9229 Symbol for carriage return 制御機能用記号 Substitutes for a carriage return
U+2420 9248 Symbol for space 制御機能用記号 Substitutes for an ASCII space
U+2422 9250 Blank symbol 制御機能用記号 aka "substitute blank",[16] used in BCDIC,[16] EBCDIC,[16] ASCII-1963[16][17] etc. as a symbol for the word separator
U+2423 9251 Open box 制御機能用記号 Used in block letter handwriting at least since the 1980s when it is necessary to explicitly indicate the number of space characters (e.g. when programming with pen and paper). Used in a textbook (published 1982, 1984, 1985, 1988 by Springer-Verlag) on Modula-2,[18] a programming language where space codes require explicit indication. Also used in the keypad[n 1] of the Texas Instruments' TI-8x series of graphing calculators.
Named entity: ␣
U+2424 9252 Symbol for newline 制御機能用記号 Substitutes for a line break
U+25B3 9651 White up-pointing triangle Geometric Shapes Amongst other uses, is the ECMA-17 / ISO 2047 symbol for the ASCII space[15]
U+2A5B 10843 Logical Or with middle stem Supplemental
Mathematical
Operators
Amongst other uses, is the ECMA-17 / ISO 2047 symbol for vertical tab (line tab)[15]
U+2AAA 10922 Smaller than Supplemental
Mathematical
Operators
Amongst other uses, is the ECMA-17 / ISO 2047 symbol for carriage return[15]
U+2AAB 10923 Larger than Supplemental
Mathematical
Operators
Amongst other uses, is the ECMA-17 / ISO 2047 symbol for the tab character[15]
U+3037 12343 Ideographic Telegraph Line Feed
Separator Symbol
CJK Symbols
and Punctuation
Graphic used for code 9999 in Chinese telegraph code, representing a line feed
  1. ^ Above the zero "0" or negative "(‒)" key.
Dot spaceExact space
  • The Cambridge Z88 provided a special "exact space" (code point 160 aka 0xA0) (invokable by key shortcut +SPACE[19]), displayed as "…" by the operating system's display driver.[20][21] It was therefore also known as "dot space" in conjunction with BBC BASIC.[20][21]
  • Under code point 224 (0xE0) the computer also provided a special three-character-cells-wide SPACE symbol "SPC" (analogous to Unicode's single-cell-wide U+2420).[20][21]

Non-space blanks

[編集]
  • The Braille Patterns Unicode block contains U+2800 braille pattern blank (HTML: ⠀), a Braille pattern with no dots raised. Some fonts display the character as a fixed-width blank, however the Unicode standard explicitly states that it does not act as a space.[22]
  • Unicode's coverage of the Korean alphabet includes several code points which represent the absence of a written letter, and thus do not display a glyph:
    • Unicode includes a Hangul Filler character in the Hangul Compatibility Jamo block (U+3164 hangul filler (HTML: ㅤ)). This is classified as a letter, but displayed as an empty space, like a Hangul block containing no jamo. It is used in KS X 1001 Hangul combining sequences to introduce them or denote the absence of a letter in a position, but not in Unicode's combining jamo system.[23]
    • Unicode's combining jamo system uses similar Hangul Choseong Filler and Hangul Jungseong Filler characters to denote the absence of a letter in initial or medial position within a syllable block, which are included in the Hangul Jamo block (U+115F hangul choseong filler (HTML: ᅟ), U+1160 hangul jungseong filler (HTML: ᅠ)).[24]
    • Additionally, a Halfwidth Hangul Filler is included in the Halfwidth and Fullwidth Forms (U+FFA0 halfwidth hangul filler (HTML: ᅠ)), which is used when mapping from encodings which include characters from both Johab (or Wansung) and N-byte Hangul (or its EBCDIC counterpart), such as IBM-933, which includes both Johab and EBCDIC fillers.[25][26]

スペース: space)は、ラテン文字ギリシア文字キリル文字などにおいて、語と語の区切りを表すために空ける空白、またその他の字間の空白のことである。

  1. ^ The Unicode Standard”. Unicode Consortium. Template:Cite webの呼び出しエラー:引数 accessdate は必須です。
  2. ^ Character design standards – space characters”. Character design standards. Microsoft (1998–1999). August 23, 2000時点のオリジナルよりアーカイブ。2009年5月18日閲覧。
  3. ^ The Unicode Standard 5.0, printed edition, p. 205; also available at “Chapter 6 — Writing Systems and Punctuation”. The Unicode Standard 5.0, electronic edition. Unicode Consortium. (2006-07-14). p. 11 (205). https://www.unicode.org/versions/Unicode5.0.0/ch06.pdf 2022年12月22日閲覧。 
  4. ^ General Punctuation”. The Unicode Standard 5.1. Unicode Inc (1991–2008). 2009年5月13日閲覧。
  5. ^ Sargent, Murray III (2006年8月29日). “Unicode Nearly Plain Text Encoding of Mathematics (Version 2)”. Unicode Technical Note #28. Unicode Inc. pp. 19–20. 2009年5月19日閲覧。
  6. ^ Gillam, Richard (2002). Unicode Demystified: A Practical Programmer's Guide to the Encoding Standard. Addison-Wesley. ISBN 0-201-70052-2 
  7. ^ a b Hickson, Ian. “12.5 Named character references”. HTML Standard. WHATWG. Template:Cite webの呼び出しエラー:引数 accessdate は必須です。
  8. ^ Wolfram. “\[NegativeThickSpace]”. Wolfram Language Documentation. Template:Cite webの呼び出しエラー:引数 accessdate は必須です。
  9. ^ Wolfram. “\[NegativeMediumSpace]”. Wolfram Language Documentation. Template:Cite webの呼び出しエラー:引数 accessdate は必須です。
  10. ^ Wolfram. “\[NegativeThinSpace]”. Wolfram Language Documentation. Template:Cite webの呼び出しエラー:引数 accessdate は必須です。
  11. ^ Wolfram. “\[NegativeVeryThinSpace]”. Wolfram Language Documentation. Template:Cite webの呼び出しエラー:引数 accessdate は必須です。
  12. ^ Faltstrom, P., ed. (August 2010). "Zero Width Non-Joiner". The Unicode Code Points and Internationalized Domain Names for Applications (IDNA) (英語). IETF. sec. A.1. doi:10.17487/RFC5892. RFC 5892. 2019年9月4日閲覧
  13. ^ Faltstrom, P., ed. (August 2010). "Zero Width Joiner". The Unicode Code Points and Internationalized Domain Names for Applications (IDNA) (英語). IETF. sec. A.2. doi:10.17487/RFC5892. RFC 5892. 2019年9月4日閲覧
  14. ^ Unicode Standard Annex #44, Unicode Character Database”. Template:Cite webの呼び出しエラー:引数 accessdate は必須です。
  15. ^ a b c d e f European Computer Manufacturers Association (1968-11-28), Graphic Representation of the Control Characters of the ECMA 7-Bit Coded Character Set for Information Interchange, ECMA-17, http://www.ecma-international.org/publications/files/ECMA-ST-WITHDRAWN/ECMA-17,%201st%20Edition,%20November%201968.pdf 
  16. ^ a b c d Coded Character Sets, History and Development (1 ed.). Addison-Wesley Publishing Company, Inc.. (1980). pp. 41, 47, 52, 102–103, 117, 119, 130, 132, 141, 148, 150–151, 212, 424. ISBN 978-0-201-14460-4. LCCN 77--90165. https://books.google.com/books?id=6-tQAAAAMAAJ 2016年5月22日閲覧。  [1]
  17. ^ American Standard Code for Information Interchange, ASA X3.4-1963”. American Standards Association (ASA) (1963年6月17日). Template:Cite webの呼び出しエラー:引数 accessdate は必須です。
  18. ^ Niklaus Wirth, Programming in Modula-2
  19. ^ Cambridge Z88 User Guide”. Cambridge Computer Limited (2016年). 2016年12月12日時点のオリジナルよりアーカイブ2016年12月12日閲覧。
  20. ^ a b c Cambridge Z88 User Guide”. Cambridge Computer Limited (1987年). 2016年12月12日時点のオリジナルよりアーカイブ2016年12月12日閲覧。
  21. ^ a b c Cambridge Z88 User Guide”. Cambridge Computer Limited (2015年). 2016年12月12日時点のオリジナルよりアーカイブ2016年12月12日閲覧。
  22. ^ Unicode chart U+2800, braille patterns
  23. ^ Chung, Jaemin (2017-03-30), Proposal to add an informative note to U+3164 HANGUL FILLER, Unicode Consortium, UTC L2/17-081, https://unicode.org/L2/L2017/17081-hangul-filler.pdf 
  24. ^ Hangul Jamo, Unicode Consortium, (2020-10-25), http://www.unicode.org/charts/PDF/U1100.pdf 
  25. ^ ibm-933_P110-1995”. ICU Demonstration - Converter Explorer. International Components for Unicode. Template:Cite webの呼び出しエラー:引数 accessdate は必須です。
  26. ^ ibm-933_P110-1995 (lead bytes 0E84)”. ICU Demonstration - Converter Explorer. International Components for Unicode. Template:Cite webの呼び出しエラー:引数 accessdate は必須です。