Wikipedia:井戸端/subj/アラビア文字の入力の仕方
|
アラビア文字の入力のしかたについて
[編集]現在、アラビア語の単語を含む記事を書いているのですが、こういった単語を入力する場合、Unicode での presentation form と正規形のどちらの文字を使って入力すべきでしょうか。
具体的には、「サラーム」と読む単語なのですが、
- U+FEB3 U+FEFC U+FEE1 (頭字、合字の尾字、単独形) では
- ﺳﻼﻡ
- U+0633 U+0644 U+0627 U+0645 (正規形のみ) では
- سلام
となり、少なくともわたしの環境では、どちらもまったく同じに表示されるように見えます。
検索や表示のためにはどちらがよいのでしょうか。現在はとりあえず、正規形のみで入力しています。--HatukaNezumi 2007年1月5日 (金) 14:08 (UTC)
- 百科事典として基本的には現地での表現であるべきなので、右から左に書いていく文字はそのように記述した方がいいと思います(たぶん)。 --Mzm5zbC3 2007年1月5日 (金) 16:08 (UTC)
お答えします。一般には下の記述が「良い」です。ただし、特に合字や字形変化を表現したいときは上の方法でも良いかもしれません。問題はクライアント側にあり、上の方法ですと、ブラウザなどの閲覧環境によっては正しくレンダリングされない現象が確認されています。また、コピー&ペーストにおいても理想通りに文字が拾えないなどの現象も見られます。結論として、下の記述で行うのがよろしいと思われます。--٢١٩.١٧٤.١٥٨.٢٢٥ 2007年1月5日 (金) 16:14 (UTC)
追記。アラビア文字はHatukaNezumiさんの仰る通り、06xxhの正規形領域とFB50h以降の合字領域、更にFE70h以降の字形領域に分かれています。アラビア文字における7ビット及び8ビット「ASCII」はASMOですが、これには元来、正規形領域の文字しか揃っていませんでした。また、国ごとにフスハーにはない文字を必要とすることもあって、余った領域にはそれぞれの国ごとに使う個別の文字が割り当てられました。Unicode時代に入り、合字領域と字形領域が割り当てられ、リアルタイムにIMEを使い、正規形で綴った文書状況から合字・字形領域の文字を呼び出すという方法が採用されました。この呼び出す仕組みはソフトウェア依存になり、ラーム・アリフ合字などの一部の例を除くと、環境やフォント、ソフトウェアなどによって異なる結果となります。ちなみに大抵のフォントではFDFxhの領域にはFDF2hにﷲ合字があるだけですが、Unicode1.1の仕様ではFDFxh領域の合字を連続させて並べるとクルアーンの詠唱になります。あらしごとはさておき、合字領域にはこのように「定義されていてもほとんどのフォントには収録されていない」という文字も多く、直接使用することは避けるべきです。また字形領域も、環境によっては文字のストロークが逆転するという現象が見られます。恐らくMzm5zbC3さんの環境ではそうだったのでしょう。こうした理由から、基本的に正規形領域を使うのが推奨されます。--٢١٩.١٧٤.١٥٨.٢٢٥ 2007年1月5日 (金) 20:53 (UTC)
- コードの配列順にはいろいろこだわりがあるものですね。それはともかく、フォントやBiDiへの対応状況から、表示のためにも正規形を使ったほうがよいのだと理解しました。そのようにします (検索についてどうなるかは後日試してみます)。 --Hatukanezumi 2007年1月6日 (土) 02:09 (UTC)