Wikipedia‐ノート:括弧付き記事名の一覧
以前から気になっていましたがこのページがもとにしているダンプは相当古いです。現在の物を用いると1MB近くになってしまいますが新しい物に差し替える予定です。--こいつぅ 2006年9月5日 (火) 18:14 (UTC)差し替えました。
このページの作り方
[編集]SQL
[編集]select page_title, substring_index(page_title,'_(', -1) as sk from page where page_namespace = 0 and page_is_redirect = 0 and page_title like '%\_(%)' order by sk into outfile 'paren_sorted.txt';
でテキストファイルを生成します。
整形
[編集]生成したファイルを標準入力から以下のPerlスクリプトに食わせ、標準出力をファイルに保存します。
#!/usr/bin/perl my $THRESHOLD = 4; use strict; use warnings; my $group; while(<>){ my ($title, $key) = split /\t/; $key =~ s/\)$//o; chop $key; $group->{$key} = [] if (not exists $group->{$key}); push @{$group->{$key}}, $title; } foreach (sort keys %$group){ printf "; %s :[[", $_; local $" = "]] [["; if ($#{$group->{$_}} > $THRESHOLD){ print "@{$group->{$_}}[0..$THRESHOLD]"; print "]] 他 ", $#{$group->{$_}}-$THRESHOLD, "件\n"; } else { print "@{$group->{$_}}"; print "]]\n"; } }
見出しの調整を行ってアップロードすれば終わりです。
大きすぎるようです
[編集]2008年4月8日のダンプを元にWikipedia:括弧付き記事名の一覧を作成しましたが、大きすぎるため、きちんとアップロードできません。なので、もう少し分割する必要がありそうです。種別ごとに「記号」「数字」「ラテン文字」「ひらがな」「カタカナ」と、漢字を2分割ということで良いでしょうか。また、今月は漢字以外は終わっていますので、漢字のページだけ先行して分割ということにしたいのですが。--Tatsujin28 2008年4月11日 (金) 23:12 (UTC)
- 分割には賛成です。Wikipedia:括弧付き記事名の一覧の内容は半分以上がカタカナなので、「記号」「数字」「ラテン文字」は一まとめでも良いのではないでしょうか。漢字に関しては明確に区切るのが難しいところですが、頭文字の部首順に並んでいるようなので、ページの中心あたりで部首が変わっているところで分ければいいと思います。あと、両方を分割する際にはサブページの数字がずれることになるので移動や一部転記が必要になってくるかも知れません。--ウース 2008年4月12日 (土) 00:48 (UTC)
- 「記号」「数字」「ラテン文字」/2)「ひらがな」「カタカナ」/3)「漢字1」/4)「漢字2」ですか。それぞれがほどほどのサイズになりそうなので、それでいいかな。今月は「漢字」を3に移動して、3と4を作成。来月の更新時に1と2を分けて作成(また3と4を更新して完成)、という按配でどうでしょうか。サイズが大きいページですから、無理に今月分割する必要はないかなと。--Tatsujin28 2008年4月12日 (土) 01:29 (UTC)
- 分量的には「ひらがな」も1でいいかもしれません(分け方としてはTatsujin28さんの案の方が分かりやすいかもしれませんが)。また、上記の分割方法ですと2が一ヶ月間3へのリダイレクトページ状態になってしまうと思うので、1と2の分割も同時に行ってしまって構わないのではないでしょうか。手順としては、
- とすればいいと思います。(漢字の)内容の更新は分割したあとで構わないのではないでしょうか。--ウース 2008年4月12日 (土) 04:33 (UTC)
- 確かに「ひらがな」は小さい (15KB) ですなあ。じゃあ、1)「記号」「数字」「ラテン文字」「ひらがな」(104KB)/2)「カタカナ」(255KB)/3)「漢字1」(180KB)/4)「漢字2」(180KB)。ありゃ、よくよく見たら今度はカタカナが突出しますな。
- わざと1ヶ月置こうとしたのは、サイズがやたらと大きいので、一応今月うまくいっているものを、何度も上げ直すのは資源の無駄かなあと思った次第で。ただ、いつもコンテンツを完全にしておくとか、都度タスクを終わらせておくことに意味はあるので、まあいいか。--Tatsujin28 2008年4月12日 (土) 11:49 (UTC)
- 「記号」「数字」「ラテン文字」/2)「ひらがな」「カタカナ」/3)「漢字1」/4)「漢字2」ですか。それぞれがほどほどのサイズになりそうなので、それでいいかな。今月は「漢字」を3に移動して、3と4を作成。来月の更新時に1と2を分けて作成(また3と4を更新して完成)、という按配でどうでしょうか。サイズが大きいページですから、無理に今月分割する必要はないかなと。--Tatsujin28 2008年4月12日 (土) 01:29 (UTC)
遅くなりました。2008-06-07のダンプデータで更新しようとしたら、そもそもブラウザでページが表示されない(または、内部サーバーエラー…)ときます。時間帯と環境を変えてもう一度試してきます。--Tatsujin28 2008年6月22日 (日) 02:39 (UTC)
- とりあえず作業終了。でもまた大きくなったら問題が出そう…。--Tatsujin28 2008年6月22日 (日) 14:53 (UTC)
- ご苦労様です。--ウース 2008年6月23日 (月) 05:11 (UTC)
更新について
[編集]しばらくtoolserver上のツールを使って手作業で更新していましたが、そちらのツールが現在アカウントの消滅で使えなくなっています。可能であればやはりBotで定期的に更新されるようにしたほうがよいかと思いますが…。--ウース 2011年6月8日 (水) 03:17 (UTC)
廃止提案
[編集]本文書は「利用者:Lupinoid/To_Do#曖昧さ回避分類名の標準化」あたりを参照すると、曖昧さ回避のための括弧内文字列の標準化のための資料的な位置づけなのだとは考えられます。 しかしながら、長らく更新されていません。また、標準化は各プロジェクトで概ね実施されているとも考えられます。もう廃止してよいのではないでしょうか。--iwaim(会話) 2018年10月27日 (土) 16:46 (UTC)
- Wikipedia:利用案内/過去ログ/2018年上半期#更新頻度に関してを見ると、ページの需要があるのかはわかりませんが、intitleを使った検索でも対応できそうなので、廃止(歴史文書扱い)としてもいいように思います。--Camillu87(会話) 2018年11月13日 (火) 11:57 (UTC)
- 廃止で合意が成立した場合は、リスト部分は編集除去しておこうと考えております。記事の「リンク元」にでてきてしまいますし、そのリンク修正が必要か否かという(ある意味無駄な)検討をしてしまうケースもあり得るからです。当時(≒現時点)のリストを参照なさりたい方もいらっしゃるかもしれませんが、それは「履歴」から参照していただけばよいと考えております。--iwaim(会話) 2018年11月15日 (木) 18:41 (UTC)