Category‐ノート:Unicodeに存在しない文字

合字でしか表せないものについて

このカテゴリは検索が困難な文字に関する記事を集めて利用者の便宜を図ることが目的ですが、「合字でしか表せないもの」について検索で困ることはないはずなので、カテゴリに含める記事の対象から外すことを提案します。--emk 2007年6月12日 (火) 11:34 (UTC)[返信]

Unicodeでは、合字で表現される「文字」は普通にあるので、そういうものを「Unicodeに存在しない文字」と言ってしまうのはおかしいですね。そういう言いかたができるのなら、くの字点は「JIS X 0213に存在しない文字」であることになってしまいます。「合字でしか表せないもの」を外すことに賛成です。 --Hatukanezumi 2007年6月14日 (木) 23:13 (UTC)[返信]

合字の中には入れたほうが良い文字と、入れるべきではない文字がありますね。

Cateoryでの表記では長くなるので省略したのですが、もう少し詳しく分けたほうが良いでしょうか？

入れるほうが適切である文字の例

仮名の合字（「トキ」を組み合わせて１文字で表した文字など）
漢字の合字（部首などの組み合わせで表記できるもの）
仮名と漢字を組み合わせた合字（「ト云」を組み合わせて１文字で表した文字など）
Unicodeに含まれないハングル
JIS X 0213にあるUnicodeにない声調記号
アイヌ語小書き「プ」（小書き「フ」とは関係のない文字である）

入れることが適切でない文字の例

アラビア語、ヘブライ語などの中東で使用される文字
デーヴァナーガリーなどの南アジアで使用される文字
カーニングの意味しか持っていない場合（「fj」など）
音譜の組み合わせ

判断が分かれる文字の例

濁音、半濁音付きかな
商号などにある文字（ヤマサのマークなど）
アクセント付きラテン文字
ローマ数字
アクセント付き発音記号
全角幅での表記の為に複数文字の仮名や漢字をを１文字で表した文字（Macintoshの有限会社など）
囲み文字（○のなかに「適」など）

203.212.189.202 2007年6月15日 (金) 13:29 (UTC)[返信]

Unicodeでは小書きの「プ」は小書きの「フ」+合成用半濁点の符号位置で表すことになっています。これは言語学的な当否とは独立した問題です。

JIS X 0213の声調記号もUnicodeでの表現方法は定められていて、曖昧さはありません(少なくとも検索で困ることはないはず)。

ハングルも合成規則はUnicodeの仕様で定められており、すべての古ハングルは曖昧さなしに表現可能です。デーヴァナーガリーなどと同様、入れることが適切でない部類だと思います。

IDSでしか表せない漢字は「1文字」ではないと規格で明言されているので(あまり正確な表現ではありませんが)、カテゴリに入れることに反対しません。

MacJapaneseの有限会社などの組文字は合成列にPUAの文字が含まれているのでカテゴリに入れれても構わないと思います。囲み文字もMacJapaneseと同様のことをしないと(JIS X 0208:1997の解説で指摘されているように)合成不可能なので、Unicodeで単独の符号位置を与えられていないものは入れて構わないでしょう。

濁音、半濁音付きかな、アクセント付き文字は少なくともJIS X 0213に含まれるものは入れるべきでないと思います。JIS X 0213に含まれないものも技術的に合成可能ですし、とくにアクセント付き文字は実際に合成されているので、入れる必要はないと思います。

ヤマサのマークは画像検索してみたのですが何と何の合成を意図しているのかよく分かりませんでした。というか企業のロゴマークは「文字というカテゴリ分けには不適切なもの」になりませんか。--emk 2007年6月15日 (金) 23:21 (UTC)[返信]

「あ゛」のようなものは、結合用濁音マークをつかって「あ゙」とすればいちおう合成可能ということになります。これを正確にレンダリングできる環境は存在しないかもしれませんが、検索は問題ないでしょう (デーヴァーナーガリーでも、क्ल のような「文字」は環境によってはうまくレンダリングできません [正しくは、 क と ल の下部が上下に積み重なった形になります])。

「トキ」「ト云」なんかは、文字としての独立性が高いのなら入れてもいいかもしれません。「より」(ゟ) や「コト」(ヿ) はUnicodeにありますね。いっぽう、欧字の特殊なカーニング規則による合字を表す「文字」として ﬁ や ﬄ のようなものもUnicodeにはありますが、これらは見た目の字形の変化を表現するためのもので、独立した文字として解説されることはないでしょうから、「入れることが適切でない文字」でよいとおもいます。 --Hatukanezumi 2007年6月16日 (土) 00:55 (UTC)[返信]

ご意見を参考に更新しました。

合字に付いては分配しました。

発音記号の合字はUnicodeでは1-11-64+1-11-69と1-11-70+1-11-64がわかりませんので残しています。

下のご意見の点字を消しました。

CJK統合漢字拡張C候補に含まれる文字を追加しました。

220.146.163.45 2007年6月20日 (水) 16:28 (UTC)[返信]

(インデント戻し)「株式会社」や丸付き数字や「より」「コト」の合字がカテゴリに含まれないことを明確化するため、「Unicodeに存在しない」と追加しました。拡張C候補だけを取り上げるのは汎用性がないので、一般化しました。

1-11-64+1-11-69はUnicodeで表せない「文字列」だと思いますが、検索で困る可能性は確かにありそうなので(たとえばZWNJを挟んで区別するという私案があります[1])便宜上カテゴリに含めておくことには反対しません。--emk 2007年6月21日 (木) 14:12 (UTC)[返信]

自分の意見を書こうとおもうと、それをemkさんが先に書いているのですが、IPさん (お一人ですよね?) にコメント。

Unicode の意味でのcharacterは、UCSの序数で区別されるもののことですが、実社会で書記上の単位としての文字とみなされるものが、すべて単独のUCS序数で表されるわけではないですよね。あるグリフ (プリコンポーズされたものも含む) を書記素とみなすか、逆に書記素の集合によってできた文字とみなすかの判断は、言語、文化、そのグリフが現れる文脈、などによって異なり、Unicodeの定義とはかならずしも一致しません。JIS X 0213の声調記号上昇調と声調記号下降調のように、結合によって大きく異なるグリフが生成され、それが単独の文字とみなせる例は、Unicodeではさほど珍しくはないです (まあたしかにこの 2 つは、「なぜこんなマッピングに同意したんだ」とJCS委員会を問い詰めたくなるが)。 --Hatukanezumi 2007年6月21日 (木) 15:11 (UTC)[返信]

だいぶ時間が経ってしまいましたが、「JIS X 0213にあるUnicodeにない声調記号（／|の形をした声調記号上昇調など）」を削除してみました。 --Hatukanezumi 2007年9月24日 (月) 07:41 (UTC)[返信]

合字以外の点

合字以外にも以下の点で現在の分類に疑問があります。

6点点字はBraille Patternの先頭64個へunifyされることになっています。
UnicodeとJIS X 0213:2004の包摂規準を両方参照している理由がよく分かりません。UnicodeではunifyされるけどJIS X 0213:2004では包摂されないもの(たとえば「骨」の中国新字形)はこのカテゴリに含まれるのでしょうか。Unicodeに存在するかどうかの判断ですから、素直にUnicodeの統合規則だけで判断すればいいと思います。

とくに意見が付かなければ、まとめて修正する予定です。--emk 2007年6月20日 (水) 11:14 (UTC)[返信]