Template‐ノート:新聞記事文庫
テンプレートを使用していないリンクの修正について
[編集]標準名前空間の記事から新聞記事文庫へのリンクは1000弱1200ほど約900記事に1300ほどあり、その大多数はテンプレートを使わずに直接リンクしています。そのうちの約9割ほぼ全てについて、新旧対応表(TSV,UTF-8)新旧対応表(TSV,UTF-8)改訂版新旧対応表(TSV,UTF-8)二訂版を作りました(OpenRefineを使い、半分はほぼ自動、のこり半分は何らかの手作業を要しました)。対応を取れていないのが十数件あります100弱ありますが、記事タイトルを抽出できず記事内容を読み込んで元々のリンク先を探す必要がありさすがに手に負えませんでした。ファイルの内容は以下のようになっています。
wikipedia | METAID | metapid | title |
---|---|---|---|
Wikipedia記事タイトル | 旧METAID | 新メタデータID | リンク先記事タイトル |
なおMETAIDとmetapidは対応表全体を通して1対1対応にはなっていません。以前単一だったファイルが現在分割されているケースがあるのと、METAIDを誤記していたと思われるケース(METAID末尾にXXXと付記)があるためです。
このファイルを用いたリンク修正作業をボットに依頼したいと思います。単にURLからURLに書き換えるのでもいいのですが、せっかくテンプレートもあるので、以下のような書き換えを依頼したいと考えました。
- wikipedia列で示される記事について
- http://www.lib.kobe-u.ac.jp/das/およびhttp://133.30.51.93/das/で始まるリンクURLを探し
METAID=(\w+)
のパターンでMETAIDを抽出し- 対応するmetapidとtitleを用いて、URL全体を
に書き換える{{新聞記事文庫|url|metapid|title=title|oldmeta=METAID}}
titleパラメータはurlモードでは使用されませんが、今回対応表を作るに際してリンク先記事タイトルの情報がないと作業量がぐっと増えた経験から、今後ふたたびID変更が起きたときのためテンプレートのパラメータとして保存しておく意味があると考えています。また旧METAIDを残しておくのも、考えにくいとは思うのですがあとあと必要になる可能性を考えてのことです。ご意見いただけたらと思います。--Mzaki(会話) 2022年10月20日 (木) 16:34 (UTC) (見落としがかなりあったためファイルを改訂し表記を修正)--Mzaki(会話) 2022年10月21日 (金) 16:40 (UTC)(ファイル改訂はこれでおしまいにします)--Mzaki(会話) 2022年10月22日 (土) 18:27 (UTC)
- 賛成 新聞記事文庫のURLを直接リンクしている記事を編集している際に、新聞記事文庫が参照できなくなっており、それが切っ掛けで本テンプレートの存在を知り、仕様変更前よりも参照方法が簡単になったので自分でも修正出来るのでは? という事で本テンプレートの修正を行いました。今回のように仕様変更で参照方法が変わる場合、直接リンクよりもテンプレートを使用した方がメンテナンスが楽になるので、ボットによるリンク修正作業に賛成です。ちなみに新旧のメタデータIDが完全に別物のような気がするのですが、新旧対応表のデータはどの様に作成されたのでしょうか?--SRIA(会話) 2022年10月26日 (水) 01:35 (UTC)
- ご賛同ありがとうございます。データの作成法ですが、非常に苦心したところで、試行錯誤の末以下のようにやりました。
- 特別:外部リンク検索を使って新聞記事文庫へのリンクを含むページをリスト化し、そのうち標準名前空間の記事に限定する
- 20行たらずのRubyスクリプト(Infoboxerモジュール利用)を使い、リスト化された記事の中から、METAIDという文字列を含むURLとそのリンクテキスト(templateの場合はtitleパラメータ)を取得する
- OpenRefineに読み込み、リンクテキストからリンク先記事タイトル以外の要素(紙名、日付、「新聞記事文庫」など)を除去する
- OpenRefineから新聞記事文庫に対し記事タイトルで検索し、結果のHTML中に埋もれている検索結果のIDリストを取得
- IDが1つだけの場合は、IDを使って記事データを取得し、検索に使った記事タイトルと比較して、ほぼ一致していれば対応OK。(ここまでは、いちおうほぼ自動的にできます)
- タイトルが一致してない場合は個別に確認(ほとんどが対応OKになる)
- IDが複数でてきた場合には個別に検索条件を見直してIDが1つになるように調整してやりなおし(最初は検索エンジンの癖がわからず大変だったが、そのうちパターンが見えて半自動化できた)
- リンク先記事タイトルが取得できていない場合は、Wikipedia記事を参照して記事タイトルを探し、なければ記事内容と紙名・日付などから本来のリンク先記事を探す(完全に手作業で100件以上)
- ここまでやってもどうにもならない、そもそもWikipedia記事の記載が情報不足のものが十数件ありました。--Mzaki(会話) 2022年10月26日 (水) 02:24 (UTC)
- ご回答ありがとうございます。神戸大学附属図書館のホームページには、新旧URLの変更は記載されていてもメタデータ規格がどう変わったのかの記載がなかったのですが、手間が掛かっているのですね。
- あと、画像の直接参照が出来なくなったので、引数「3 pos」を廃止としましたが、こちらについても「何コマ目」のような形で復活させた方が良いかもしれませんね。今回、幾つかの記事でメタデータID変更に伴う修正を行ったのですが、引数「3 pos」を使用している記事が幾つかあったので、活用する方は活用していたようです。--SRIA(会話) 2022年10月26日 (水) 03:10 (UTC)
- posの件、たしかにそうなのですが、ファイルの分割がされていると従来のposの情報はもう無意味になっているはずなのですよね。--Mzaki(会話) 2022年10月26日 (水) 14:31 (UTC)
- ご賛同ありがとうございます。データの作成法ですが、非常に苦心したところで、試行錯誤の末以下のようにやりました。
1週間6日間経過して特に異論をいただいていないので、Wikipedia:Bot作業依頼を提出いたしました。--Mzaki(会話) 2022年10月26日 (水) 14:32 (UTC)しまった。1日数え間違えました。--Mzaki(会話) 2022年10月26日 (水) 14:34 (UTC)
- 済 Bot作業が完了し、その後の確認で最終的に「庄川水力電気庄水3号形電気機関車」のうち1件のみを残して解決できました。--Mzaki(会話) 2022年11月6日 (日) 07:34 (UTC)
報告 テンプレートの修正を拝見し、bot修正の対象とならなかった元リンクの形(例:http://www.lib.kobe-u.ac.jp/infolib/meta_pub/G0000003ncc_J0008635)である記事について、見よう見まねでテンプレートの形に修正しました(帰農、関東学院中学校高等学校、東京東海商業学校)。ところで、神戸大学附属図書館デジタルアーカイブへのリンクは、Template:住田文庫というものもあるのですね。使用例は少ないようですが。--Latenscurtis(会話) 2022年11月12日 (土) 01:23 (UTC)