利用者:Skytomo221/sandbox
空白文字(英: whitespace)は、タイポグラフィやプログラミングにおいて水平方向または垂直方向の空白を表す文字である。文字が描画されるとき、多くの空白文字はページ上の領域の一部を占めるが、ほとんどの図形文字と違い通常は目に見えない。空白文字として最も代表的なU+0020 spaceは、語と語の区切りを表し、ラテン文字、ギリシア文字、キリル文字などの西洋文字で使用される。
Unicode
[編集]The table below lists the twenty-five characters defined as whitespace ("WSpace=Y", "WS") characters in the Unicode Character Database.[1] Seventeen use a definition of whitespace consistent with the algorithm for bidirectional writing ("Bidirectional Character Type=WS") and are known as "Bidi-WS" characters. The remaining characters may also be used, but are not of this "Bidi" type.
Note: Depending on the browser and fonts used to view the following table, not all spaces may be displayed properly.
名前 | 符号点 | 幅 | NBSP | IDN | 用字 | ブロック | 一般カテゴリ | 注釈 | |
---|---|---|---|---|---|---|---|---|---|
character tabulation | U+0009 | 9 | Yes | 非対応 | 共通 | 基本ラテン文字 | Other, control |
水平タブ(Horizontal Tab; HT)。HTMLの文字実体参照及びXMLの実体参照では	 、LaTeXでは\tab 、C言語の文字列リテラル中におけるエスケープシーケンスでは\t と表記する。
| |
line feed | U+000A | 10 | 行が変わる | 共通 | 基本ラテン文字 | Other, control |
改行(Line feed; LF)。HTMLの文字実体参照及びXMLの実体参照では
 、C言語の文字列リテラル中におけるエスケープシーケンスでは\n と表記する。
| ||
line tabulation | U+000B | 11 | 行が変わる | 共通 | 基本ラテン文字 | Other, control |
垂直タブ(Vertical Tab; VT)。C言語の文字列リテラル中におけるエスケープシーケンスでは\v と表記する。
| ||
form feed | U+000C | 12 | 行が変わる | 共通 | 基本ラテン文字 | Other, control |
書式送り(Form feed; FF)。 C言語の文字列リテラル中におけるエスケープシーケンスでは\f と表記する。
| ||
carriage return | U+000D | 13 | 行が変わる | 共通 | 基本ラテン文字 | Other, control |
復帰(Carriage return; CR)。C言語の文字列リテラル中におけるエスケープシーケンスでは\r と表記する。
| ||
space | U+0020 | 32 | Yes | 非対応 | 共通 | 基本ラテン文字 | Separator, space |
最も代表的な空白文字。LaTeXでは\ と表記する。
| |
next line | U+0085 | 133 | 行が変わる | 共通 | ラテン1補助 | Other, control |
改行(New Line; NEL)。LaTeXでは\\ と表記する。
| ||
no-break space | U+00A0 | 160 | No | 非対応 | 共通 | ラテン1補助 | Separator, space |
ノーブレークスペース。U+0020 en spaceと同等だが、その空白文字の箇所での自動的な改行を防ぐ。HTMLの文字実体参照及びXMLの実体参照では ,   LaTeXでは~ と表記する。
| |
ogham space mark | U+1680 | 5760 | Yes | 非対応 | オガム文字 | オガム文字 | Separator, space |
オガム文字で書かれた文章のわかち書きに使用される。通常、縦書きでは縦線、横書きでは横線だが、横線のない(stemless)フォントでは空白の場合もある。 | |
en quad | U+2000 | 8192 | Yes | 非対応 | 共通 | 一般句読点 | Separator, space |
1 enと等しい文字幅を有する空白文字。和文組版では二分アキに相当する。U+2002 en spaceは標準的にこの文字と同等であり、使用にはU+2002 en spaceが推奨される。 | |
em quad | U+2001 | 8193 | Yes | 非対応 | 共通 | 一般句読点 | Separator, space |
1 emと等しい文字幅を有する空白文字。英語圏では“mutton quad”としても知られる。和文組版では全角アキに相当する。U+2003 em spaceは標準的にこの文字と同等であり、使用にはU+2003 em spaceが推奨される。 | |
en space | U+2002 | 8194 | Yes | 非対応 | 共通 | 一般句読点 | Separator, space |
1 enと等しい文字幅を有する空白文字。英語圏では“nut”としても知られる。和文組版では二分アキに相当する。U+2000 en quadは標準的にこの文字と同等であり、使用にはU+2002 en spaceが推奨される。HTMLの文字実体参照及びXMLの実体参照では  、LaTeXでは\enspace (ただしLaTeXのenスペースはノーブレークスペース)と表記する。
| |
em space | U+2003 | 8195 | Yes | 非対応 | 共通 | 一般句読点 | Separator, space |
1 emと等しい文字幅を有する空白文字。英語圏では“mutton”としても知られる。和文組版では全角アキに相当する。U+2001 em quadは標準的にこの文字と同等であり、使用にはU+2003 em spaceが推奨される。HTMLの文字実体参照及びXMLの実体参照では  、LaTeXでは\quad と表記する。
| |
three-per-em space | U+2004 | 8196 | Yes | 非対応 | 共通 | 一般句読点 | Separator, space |
⅓ emと等しい文字幅を有する空白文字。英語圏では“thick space”としても知られる。和文組版では三分アキに相当する。HTMLの文字実体参照及びXMLの実体参照では  , LaTeXでは\; (ただしLaTeXのemスペースはノーブレークスペース)と表記する。
| |
four-per-em space | U+2005 | 8197 | Yes | 非対応 | 共通 | 一般句読点 | Separator, space |
¼ emと等しい文字幅を有する空白文字。英語圏では“mid space”としても知られる。和文組版では四分アキに相当する。HTMLの文字実体参照及びXMLの実体参照では  と表記する。
| |
six-per-em space | U+2006 | 8198 | Yes | 非対応 | 共通 | 一般句読点 | Separator, space |
⅙ emと等しい文字幅を有する空白文字。和文組版では六分アキに相当する。U+2009 thin spaceと同等とされることもある。 | |
figure space | U+2007 | 8199 | No | 非対応 | 共通 | 一般句読点 | Separator, space |
図形間隔。単一の数字と同一の印字間隔を占める植字単位である。HTMLの文字実体参照及びXMLの実体参照では  と表記する。
| |
punctuation space | U+2008 | 8200 | Yes | 非対応 | 共通 | 一般句読点 | Separator, space |
フォント内の狭い句読点と同じ幅、つまりピリオドまたはカンマの送り幅と同じ幅を占める[2]。HTMLの文字実体参照及びXMLの実体参照では  と表記する。
| |
thin space | U+2009 | 8201 | Yes | 非対応 | 共通 | 一般句読点 | Separator, space |
⅕ em(場合によっては⅙ em)と等しい文字幅を有する空白文字。国際単位系の桁区切りとして使用を推奨する。U+2002 en spaceからU+2008 punctuation spaceとは異なり、その幅は植字時に調整される可能性がある[3]。HTMLの文字実体参照及びXMLの実体参照では  、  、LaTeXでは\, (the LaTeX thin space is a no-break space)と表記する。
| |
hair space | U+200A | 8202 | Yes | 非対応 | 共通 | 一般句読点 | Separator, space |
U+2009 thin spaceよりも狭い空白文字。HTMLの文字実体参照及びXMLの実体参照では    (ただしすべてのブラウザに対応していない)と表記する。
| |
line separator | U+2028 | 8232 | 行が変わる | 共通 | 一般句読点 | Separator, line |
|||
paragraph separator | U+2029 | 8233 | 行が変わる | 共通 | 一般句読点 | Separator, paragraph |
|||
narrow no-break space | U+202F | 8239 | No | 非対応 | 共通 | 一般句読点 | Separator, space |
ノーブレークスペース。機能的にはU+00A0 no-break spaceと同様。モンゴル語で使用する場合、その幅は通常のスペースの3分の1になる。他の文脈では、その幅はU+2009 thin spaceの幅に近い場合がある。LaTeXでは\, と表記する。
| |
medium mathematical space | U+205F | 8287 | Yes | 非対応 | 共通 | 一般句読点 | Separator, space |
MMSP。数式で使用される。4⁄18 emの幅を占める[4]。数学的なタイポグラフィでは、スペースの幅は通常、1⁄18 emの整数倍で指定され、4⁄18 emは、たとえば、式a + bにおいてa と + の間、および + と b の間など、さまざまな状況で使用されることがある[5]。HTMLの文字実体参照及びXMLの実体参照では  、LaTeXでは\: (ただしLaTexではノーブレークスペース)と表記する。
| |
ideographic space | U+3000 | 12288 | Yes | 非対応 | 共通 | CJKの記号及び句読点 | Separator, space |
単一のCJK文字と同一の印字間隔を占める。和字間隔、文組版の全角アキと同等。字下げや擡頭で使用される。 |
名前 | 符号点 | 幅 | NBSP | IDN | 用字 | ブロック | 一般カテゴリ | 注釈 | |
---|---|---|---|---|---|---|---|---|---|
mongolian vowel separator | U+180E | 6158 | | Yes | 非対応 | モンゴル文字 | モンゴル文字 | Other, Format |
MVS。モンゴル語で単語の最後の2文字を異なる形にするために使用される狭いスペース文字[6]。以前のバージョンではスペース文字として分類されていたが、Unicode 6.3.0ではスペース文字(つまりZsカテゴリ)として分類されなくなった。 |
zero width space | U+200B | 8203 | | Yes | 非対応 | ? | 一般句読点 | Other, Format |
ゼロ幅スペース(zero width space; ZWSP)。明示的なスペースを使用しないときに、文書処理システムに対して語の切れ目を示すのに用いる。これはソフトハイフンに似ているが、音節の境界を示すために使用され、改行時に目に見えるハイフンを表示する必要があるという点が異なる。HTMLの文字実体参照及びXMLの実体参照では​ と表記する[7][c]。
|
zero width non-joiner | U+200C | 8204 | | Yes | Context-dependent[12] | ? | 一般句読点 | Other, Format |
ゼロ幅非接合子(zero-width non-joiner; ZWNJ)。本来ならば合字として連結される2つの文字の間にゼロ幅非接合子が置かれると、その2つの文字はそれぞれ末尾形および頭字形で表示される。HTMLの文字実体参照及びXMLの実体参照では‌ と表記する。
|
zero width joiner | U+200D | 8205 | | Yes | Context-dependent[13] | ? | 一般句読点 | Other, Format |
ゼロ幅接合子(zero-width joiner; ZWJ)。本来ならば接合しない形で表示される文字の後ろにゼロ幅接合子が置かれると、接合する形で表示される。接合形を独立形で表示するためにも使用する。デフォルトで合字または接合が予期されるかどうかに応じて、(絵文字およびシンハラ文字のように)1つのグリフで置換させるか、(デーヴァナーガリーのように)抑制することができる。(ゼロ幅非接合子とは異なり)個々の接合形の使用を許可しながら、単一のグリフで置換する。HTMLの文字実体参照及びXMLの実体参照では‍ と表記する。
|
word joiner | U+2060 | 8288 | | No | 非対応 | ? | 一般句読点 | Other, Format |
単語結合子(word joiner; WJ)。U+200B zero width spaceに似ているが、その空白文字の箇所での自動的な改行を防ぐ。HTMLの文字実体参照及びXMLの実体参照では⁠ と表記する。
|
zero width non-breaking space | U+FEFF | 65279 | | No | 非対応 | ? | Arabic Presentation Forms-B |
Other, Format |
ゼロ幅ノーブレークスペース(zero width non-breaking space; ZWNBSP)。主にバイト順マーク(byte order mark; BOM)として使用される。Unicode 3.2では、壊れていないことを示すものとして使用することは推奨されず、代わりにU+2060 word joinerを使用する。 |
|
Visible space
Substitute images
[編集]Unicode also provides some visible characters that can be used to represent various whitespace characters, in contexts where a visible symbol must be displayed:
Code | Decimal | Name | Block | Display | 説明 |
---|---|---|---|---|---|
U+00B7 | 183 | Middle dot | Latin-1 Supplement | · | Interpunct Named entity: ·
|
U+21A1 | 8609 | Downwards two headed arrow | Arrows | ↡ | ECMA-17 / ISO 2047 symbol for form feed (page break)[15] |
U+2261 | 8810 | Identical to | Mathematical Operators |
≡ | Amongst other uses, is the ECMA-17 / ISO 2047 symbol for line feed[15] |
U+237D | 9085 | Shouldered open box | Miscellaneous Technical | ⍽ | Used to indicate a NBSP |
U+23CE | 9166 | Return symbol | Miscellaneous Technical | ⏎ | Symbol for a return key, which enters a line break |
U+2409 | 9225 | Symbol for horizontal tabulation | 制御機能用記号 | ␉ | 水平タブを表す記号 |
U+240A | 9226 | Symbol for line feed | 制御機能用記号 | ␊ | 改行を表す記号 |
U+240B | 9227 | Symbol for vertical tabulation | 制御機能用記号 | ␋ | 垂直タブを表す記号 |
U+240C | 9228 | Symbol for form feed | 制御機能用記号 | ␌ | Substitutes for a form feed (page break) |
U+240D | 9229 | Symbol for carriage return | 制御機能用記号 | ␍ | Substitutes for a carriage return |
U+2420 | 9248 | Symbol for space | 制御機能用記号 | ␠ | Substitutes for an ASCII space |
U+2422 | 9250 | Blank symbol | 制御機能用記号 | ␢ | aka "substitute blank",[16] used in BCDIC,[16] EBCDIC,[16] ASCII-1963[16][17] etc. as a symbol for the word separator |
U+2423 | 9251 | Open box | 制御機能用記号 | ␣ | Used in block letter handwriting at least since the 1980s when it is necessary to explicitly indicate the number of space characters (e.g. when programming with pen and paper). Used in a textbook (published 1982, 1984, 1985, 1988 by Springer-Verlag) on Modula-2,[18] a programming language where space codes require explicit indication. Also used in the keypad[n 1] of the Texas Instruments' TI-8x series of graphing calculators. Named entity: ␣
|
U+2424 | 9252 | Symbol for newline | 制御機能用記号 |  | Substitutes for a line break |
U+25B3 | 9651 | White up-pointing triangle | Geometric Shapes | △ | Amongst other uses, is the ECMA-17 / ISO 2047 symbol for the ASCII space[15] |
U+2A5B | 10843 | Logical Or with middle stem | Supplemental Mathematical Operators |
⩛ | Amongst other uses, is the ECMA-17 / ISO 2047 symbol for vertical tab (line tab)[15] |
U+2AAA | 10922 | Smaller than | Supplemental Mathematical Operators |
⪪ | Amongst other uses, is the ECMA-17 / ISO 2047 symbol for carriage return[15] |
U+2AAB | 10923 | Larger than | Supplemental Mathematical Operators |
⪫ | Amongst other uses, is the ECMA-17 / ISO 2047 symbol for the tab character[15] |
U+3037 | 12343 | Ideographic Telegraph Line Feed Separator Symbol |
CJK Symbols and Punctuation |
〷 | Graphic used for code 9999 in Chinese telegraph code, representing a line feed |
- ^ Above the zero "0" or negative "(‒)" key.
- Dot spaceExact space
- The Cambridge Z88 provided a special "exact space" (code point 160 aka 0xA0) (invokable by key shortcut ⌑+SPACE[19]), displayed as "…" by the operating system's display driver.[20][21] It was therefore also known as "dot space" in conjunction with BBC BASIC.[20][21]
- Under code point 224 (0xE0) the computer also provided a special three-character-cells-wide SPACE symbol
"SPC"
(analogous to Unicode's single-cell-wide U+2420).[20][21]
Non-space blanks
[編集]- The Braille Patterns Unicode block contains U+2800 ⠀ braille pattern blank (HTML:
⠀
), a Braille pattern with no dots raised. Some fonts display the character as a fixed-width blank, however the Unicode standard explicitly states that it does not act as a space.[22] - Unicode's coverage of the Korean alphabet includes several code points which represent the absence of a written letter, and thus do not display a glyph:
- Unicode includes a Hangul Filler character in the Hangul Compatibility Jamo block (U+3164 ㅤ hangul filler (HTML:
ㅤ
)). This is classified as a letter, but displayed as an empty space, like a Hangul block containing no jamo. It is used in KS X 1001 Hangul combining sequences to introduce them or denote the absence of a letter in a position, but not in Unicode's combining jamo system.[23] - Unicode's combining jamo system uses similar Hangul Choseong Filler and Hangul Jungseong Filler characters to denote the absence of a letter in initial or medial position within a syllable block, which are included in the Hangul Jamo block (U+115F ᅟ hangul choseong filler (HTML:
ᅟ
), U+1160 ᅠ hangul jungseong filler (HTML:ᅠ
)).[24] - Additionally, a Halfwidth Hangul Filler is included in the Halfwidth and Fullwidth Forms (U+FFA0 ᅠ halfwidth hangul filler (HTML:
ᅠ
)), which is used when mapping from encodings which include characters from both Johab (or Wansung) and N-byte Hangul (or its EBCDIC counterpart), such as IBM-933, which includes both Johab and EBCDIC fillers.[25][26]
- Unicode includes a Hangul Filler character in the Hangul Compatibility Jamo block (U+3164 ㅤ hangul filler (HTML:
スペース(英: space)は、ラテン文字、ギリシア文字、キリル文字などにおいて、語と語の区切りを表すために空ける空白、またその他の字間の空白のことである。
- ^ “The Unicode Standard”. Unicode Consortium. Template:Cite webの呼び出しエラー:引数 accessdate は必須です。
- ^ “Character design standards – space characters”. Character design standards. Microsoft (1998–1999). August 23, 2000時点のオリジナルよりアーカイブ。2009年5月18日閲覧。
- ^ The Unicode Standard 5.0, printed edition, p. 205; also available at “Chapter 6 — Writing Systems and Punctuation”. The Unicode Standard 5.0, electronic edition. Unicode Consortium. (2006-07-14). p. 11 (205) 2022年12月22日閲覧。
- ^ “General Punctuation”. The Unicode Standard 5.1. Unicode Inc (1991–2008). 2009年5月13日閲覧。
- ^ Sargent, Murray III (2006年8月29日). “Unicode Nearly Plain Text Encoding of Mathematics (Version 2)”. Unicode Technical Note #28. Unicode Inc. pp. 19–20. 2009年5月19日閲覧。
- ^ Gillam, Richard (2002). Unicode Demystified: A Practical Programmer's Guide to the Encoding Standard. Addison-Wesley. ISBN 0-201-70052-2
- ^ a b Hickson, Ian. “12.5 Named character references”. HTML Standard. WHATWG. Template:Cite webの呼び出しエラー:引数 accessdate は必須です。
- ^ Wolfram. “\[NegativeThickSpace]”. Wolfram Language Documentation. Template:Cite webの呼び出しエラー:引数 accessdate は必須です。
- ^ Wolfram. “\[NegativeMediumSpace]”. Wolfram Language Documentation. Template:Cite webの呼び出しエラー:引数 accessdate は必須です。
- ^ Wolfram. “\[NegativeThinSpace]”. Wolfram Language Documentation. Template:Cite webの呼び出しエラー:引数 accessdate は必須です。
- ^ Wolfram. “\[NegativeVeryThinSpace]”. Wolfram Language Documentation. Template:Cite webの呼び出しエラー:引数 accessdate は必須です。
- ^ Faltstrom, P., ed. (August 2010). "Zero Width Non-Joiner". The Unicode Code Points and Internationalized Domain Names for Applications (IDNA) (英語). IETF. sec. A.1. doi:10.17487/RFC5892. RFC 5892. 2019年9月4日閲覧。
- ^ Faltstrom, P., ed. (August 2010). "Zero Width Joiner". The Unicode Code Points and Internationalized Domain Names for Applications (IDNA) (英語). IETF. sec. A.2. doi:10.17487/RFC5892. RFC 5892. 2019年9月4日閲覧。
- ^ “Unicode Standard Annex #44, Unicode Character Database”. Template:Cite webの呼び出しエラー:引数 accessdate は必須です。
- ^ a b c d e f European Computer Manufacturers Association (1968-11-28), Graphic Representation of the Control Characters of the ECMA 7-Bit Coded Character Set for Information Interchange, ECMA-17
- ^ a b c d Coded Character Sets, History and Development (1 ed.). Addison-Wesley Publishing Company, Inc.. (1980). pp. 41, 47, 52, 102–103, 117, 119, 130, 132, 141, 148, 150–151, 212, 424. ISBN 978-0-201-14460-4. LCCN 77--90165 2016年5月22日閲覧。 [1]
- ^ “American Standard Code for Information Interchange, ASA X3.4-1963”. American Standards Association (ASA) (1963年6月17日). Template:Cite webの呼び出しエラー:引数 accessdate は必須です。
- ^ Niklaus Wirth, Programming in Modula-2
- ^ “Cambridge Z88 User Guide”. Cambridge Computer Limited (2016年). 2016年12月12日時点のオリジナルよりアーカイブ。2016年12月12日閲覧。
- ^ a b c “Cambridge Z88 User Guide”. Cambridge Computer Limited (1987年). 2016年12月12日時点のオリジナルよりアーカイブ。2016年12月12日閲覧。
- ^ a b c “Cambridge Z88 User Guide”. Cambridge Computer Limited (2015年). 2016年12月12日時点のオリジナルよりアーカイブ。2016年12月12日閲覧。
- ^ Unicode chart U+2800, braille patterns
- ^ Chung, Jaemin (2017-03-30), Proposal to add an informative note to U+3164 HANGUL FILLER, Unicode Consortium, UTC L2/17-081
- ^ Hangul Jamo, Unicode Consortium, (2020-10-25)
- ^ “ibm-933_P110-1995”. ICU Demonstration - Converter Explorer. International Components for Unicode. Template:Cite webの呼び出しエラー:引数 accessdate は必須です。
- ^ “ibm-933_P110-1995 (lead bytes 0E84)”. ICU Demonstration - Converter Explorer. International Components for Unicode. Template:Cite webの呼び出しエラー:引数 accessdate は必須です。