プロジェクト‐ノート:Bot/データベースダンプ
表示
データベースダンプ
[編集]この節の加筆が望まれています。 |
ここには、データベースダンプを活用するための資源や情報を書き連ねていきます。見つけたら片っ端から追加していって、まとまったら技術文書にしちゃいましょう。
- Wikipedia:データベースダウンロード
- Wikipedia:短いページ/SQL - Wikipedia:短いページの生成方法
- Image:Mediawiki-database-schema.png - MediaWikiのデータベーススキーマ(ER図)
- 利用者:Tatsujin28/ShortPages - Wikipedia:短いページを作成し、アップロードするためのスクリプト一式。
- pywikipedia の xmlreader モジュールで、XMLダンプデータを利用することができる。例:
import xmlreader
for entry in xmlreader.XmlDump("jawiki-latest-stub-articles.xml").parse():
print entry.title
標準名前空間すべてを対象に文字列置換を実施
[編集]pywikipediaのreplace.pyの「-xml」オプションでXMLダンプデータファイルを指定することで、標準名前空間すべてを対象に文字列置換を実施することもできる。
python replace.py -xml:jawiki-20100317-pages-articles.xml -namespace:0 "[[ドラえもんの道具 (" "[[ドラえもんのひみつ道具 ("
データベースダンプ活用例
[編集]- Wikipedia:短いページ、Wikipedia:括弧付き記事名の一覧などの生成
- Wikipedia:Bot作業依頼/過去ログ/2008年3月#曖昧さ回避ページへの被リンク数順リストの作成 - 曖昧さ回避ページの被リンク数を作るためのSQL。
この節の加筆が望まれています。 |