Wikipedia:OABOT
2021年4月現在、OAbotはウィキペディア英語版にしか対応していません。他言語版への対応要望は2017年4月にphab:T164153として提出されたが、以降も実装されていません。 |
OAbot(おーえーぼっと)は記事の編集に使い、専門書の出典をオープンアクセスな出版物にリンクする作業を軽減するツールです(英語版の実績を参照)。
ウィキペディアは何十万もの有償の情報源にリンクしています。ウィキペディアのコミュニティは有償の情報源を禁止も抑制もしないかわりに、それらの出典のオープンアクセス (OA) 版を探し出すことも、リンク先が著作権を遵守する限りにおいてまったく抑止していない。すぐれた出典とは読者がいちばん楽に検索 (して活用) できるように、可能な限り多くの情報を提供するものと言えます。
ボット
[編集]作業の流れ
[編集]ボットは出典表記形式1テンプレートを検出し、次の作業を行います。
- wikiciteparserを用いて出典を表示
- 抽出したメタデータを用いDissemin APIとUnpaywallにクエリをかける
- 戻り値の
pdf_url
から出典パラメータに書き換える (|arxiv=
、|pmc=
、|doi=
を使用できる場合はそれらを使い、できない場合は|url=
を使用する) - テンプレートからパラメータを検出せず、また無料で利用できるリンクがなかった場合、有償のリンク先をテンプレートに記述。
使用例
[編集]- 閲覧が無料のウェブサイトを見つけた場合(
|url=
を追加):- ボット処理前: Groussard, M.; Rauchs, G.; Landeau, B.; Viader, F.; Desgranges, B.; Eustache, F.; Platel, H. (2010). "The neural substrates of musical memory revealed by fMRI and two semantic tasks". NeuroImage. 53: 1301–1309. doi:10.1016/j.neuroimage.2010.07.013。
- 処理後: Groussard, M.; Rauchs, G.; Landeau, B.; Viader, F.; Desgranges, B.; Eustache, F.; Platel, H. (2010). "The neural substrates of musical memory revealed by fMRI and two semantic tasks" (PDF). NeuroImage. 53: 1301–1309. doi:10.1016/j.neuroimage.2010.07.013。
- CiteSeerXで閲覧できる文献の場合(
|citeseerx=
を追加):- ボット処理前: Selinger, Peter (2011). "A survey of graphical languages for monoidal categories". New Structures for Physics. Lecture Notes in Physics. Vol. 813. Springer. pp. 289–233.
- 処理後: Selinger, Peter (2011). "A survey of graphical languages for monoidal categories". New Structures for Physics. Lecture Notes in Physics. Vol. 813. Springer. pp. 289–233. CiteSeerX 10.1.1.216.4918。
- Doi経由で無料閲覧できる場合(
|doi-access=free
を追加):- ボット処理前: Lambek, Joachim [in 英語] (1972), "Bicommutators of nice injectives", Journal of Algebra, 21: 60–73, doi:10.1016/0021-8693(72)90034-8, ISSN 0021-8693, MR 0301052。
- 処理後: Lambek, Joachim [in 英語] (1972), "Bicommutators of nice injectives", Journal of Algebra, 21: 60–73, doi:10.1016/0021-8693(72)90034-8, ISSN 0021-8693, MR 0301052。
コード
[編集]どなたでもGitHubのプルリクエスト経由でOAbotのコードに貢献できます。wmflabsで開発チームに参加できる人は是非ご参加ください。このツールのプロジェクト参加希望はこちら。
バグ報告や改善点の指摘はPhabricatorプロジェクトで投稿を受付中。
よくある質問
[編集]このボットの挙動は?
[編集]OABOTは記事内から出典を検出し、抽出したデータから無料で利用できないリンクの情報を元に、無料で使える版を求めてさまざまな索引、API、リポジトリを検索する。OABOTはDisseminを使ってCrossRef、BASE、DOAIやSHERPA/RoMEOといった情報源にクエリをかける。無料版がヒットし、かつ出典テンプレートに未記載の場合、そのリンクを出典テンプレートに追加する。このようにして、読者が出典全文を利用できるようにする。
ボットが追加できるのはどんなリンクか?
[編集]ボットは次にあげるパラメータに適合するリンクを検索する。
|arxiv=
|hdl=
|doi=
|pmc=
|citeseerx=
|url=
特定の識別子引数がないリンク先の場合、|url=
が指定されます。また、出典テンプレートですでに指定されている引数を書き換えることはありません。
ボットが追加しないリンクはあるか?
[編集]- リンクするバージョンはCrossRef、BASE、DOAI、SHERPA/RoMEOに限定される(無制限にウェブ検索を行うのではなく、キュレーションが適切に行われている情報源のみを検索する)
- 出典テンプレートですでに無料閲覧できるリンク先が記載されている場合(テンプレートにがある場合)、さらなる引数の追加は行いません。
|url=
の書き換えはせず、引数が重複するよう記述することもありません。- 出典テンプレートを使用していない情報源は書き換えません。
ボットの検索とデータ抽出を行うのは、どんなリポジトリが対象か?
[編集]現状でボットがクエリをかけるリポジトリは下記のとおり。
- Dissemin。Disseminが基づく情報源にはZenodo、ORCIDとBASEを含む。詳細はリンク先を参照。 https://dev.dissem.in/datasources.html
- Unpaywall。OAdoiは次のリンク先にある情報源をクロールします。 https://api.unpaywall.org/data/sources.csv
将来的にはCORE(https://core.ac.uk/)の追加を検討中です(SHARE Notify、Handle.net、MLA CORE、CHORUSも追加される可能性があります)。いずれも検索から有益な情報が得られて、なおかつAPIが整備されるという条件付きです。
出版社の代表者です。OAbotが当社の全文掲載に検索をかけるようにするにはどうすればいいでしょうか?
[編集]以下の諸条件を満たしているかどうか、確認してください。
- 全文掲載の条件がGoogle Scholar guidelines を遵守している。特に、記事のランディングページにメタタグ
citation_pdf_url
を置き、PDFファイルへの直接のリンクを置くとよい。 - Zoteroが論文のランディングページからメタデータと全文をインポートできる。Google Scholarのガイドラインを守っている場合、簡単に達成できると考えられますが、Zotero側での修正が必要の場合はZotero宛てにプルリクエストをして、自力でZoteroの読み込み変換機能を修正することもできます。
そのほか、次の各点にも留意をするとよい。
- 完全にオープンアクセスな紀要をDOAJに登録。
- CrossRefメタデータに記事ごとの正しいライセンス情報を付ける。記事の閲覧が無料か、この情報を見ただけで判断できる。
これらガイドラインを遵守すると、ボットのアイコンが緑色になり、貴社のDOI番号はウィキペディアで無料で閲覧できると提示する。
- Lambek, Joachim [in 英語] (1972), "Bicommutators of nice injectives", Journal of Algebra, 21: 60–73, doi:10.1016/0021-8693(72)90034-8, ISSN 0021-8693, MR 0301052。
リポジトリを運営していますが、OAbotにリンクを貼ってもらう方法は?
[編集]以下の諸条件を満たしているかどうか、確認してください。
- 有効なOAI-PMHインタフェースを取得してください。これにより、あなたのリポジトリはBASEに収載されるようになります。
- Google Scholar guidelines を遵守して全文を表示すること。特に無料で閲覧できる記事のランディングページはメタタグ
citation_pdf_url
を記入し PDF ファイルへの直接のリンクを提供することが推奨される。 - Zoteroが論文のランディングページからメタデータと全文をインポートできる。Google Scholarのガイドラインを守っている場合、簡単に達成できると考えられますが、Zotero側での修正が必要の場合はZotero宛てにプルリクエストをして、自力でZoteroの読み込み変換機能を修正することもできます。
一研究者として自分の論文の全文を載せている場所を、OAbotが探しだせるようにしてほしい
[編集]まず論文をすべてZenodoなど評価の確立したリポジトリに (上記のガイドラインに沿って) 掲載してください。それには http://dissem.in/ を使うとよい。他の大規模なリポジトリでは医学系のPMCやarXiv、HALでも適格であると判断されます。どれにしてもリポジトリが無料で全文の閲覧を許可する必要があり (抄約部分限定は対象外)、閲覧制限中の記録は考慮されない。
また個人のウェブサイトに掲載された論文の全文も通常は対象外である。
ボットが追加するリンクは最低、何件と決めてあるか?
[編集]たとえ複数件見つけても、ボットはリンクを1件のみ追加する。たとえばOABOTがArXivで校正稿 (プレプリント) を、大学のリポジトリで査読済み版 (ポストプリント) を、さらに執筆者のウェブサイトでPDF版を見つけた場合、記事中に追加するのは、Disseminの順位付けアルゴリズムに照らした結果の1件のみである。
出典の示し方は?
[編集]OAbotは単にリンクを追加するだけです。
出版物の版(校正版、査読済み版、発売版など)を明示することはできるか?
[編集]リポジトリの大半でメタデータに版情報を含めていないか、あっても整備が徹底されていない状態にあるため、現状ではできません。
OAbotはウィキペディア日本語版に対応していますか?
[編集]2021年4月現在、OAbotはウィキペディア英語版にしか対応していません。他言語版への対応要望は2017年4月にphab:T164153として提出されたが、以降も実装されていません。
今後の開発上、エッジな事例
[編集]OABotボットが出合うと想定される状況は、記事内にオープンではない url が掲載されており、それに対応する無料版のサイトを検出する。場合によって2番目のリンクを識別子として追加することが可能だが、エッジな事例としてボットの挙動が覆されないように同意形成が必要となる。
- パラメータ
|url=
に既存の識別子がマッチした場合:- 例として
|doi=10.1004/1543
と|url=https://doi.org/10.1004/1543
があるとする。この場合、パラメータ|url=
を上書きして、無料で読めるリポジトリに変更してよいかどうか?
- 例として
- 第二に、パラメータ
|url=
について既存の識別子がマッチしなかった場合で、OABot がリポジトリ版を見つけた場合:- 例として見つけたリポジトリが
|url=https://www.sciencedirect.com/science/article/pii/S1535610816303981
だった場合、パラメータ|url=
は上書きしない代わりに、無料のリポジトリのURL情報もどこかに記載したい。もしその無料のウェブサイトが、実は複数のリポジトリから編まれている場合は、そのような特定のリポジトリ専用にテンプレート{{para|id|{{tpl|my repository|12345}}}}
を作成することは妥当かどうか?
- 例として見つけたリポジトリが
次のステップ
[編集]- translatewiki.netでボットを地域化・グローバル化
- ウィキデータと統合
- 出典パーサを使い、テンプレートを使わずに出典情報の書式を整える
担当者
[編集]- Ocaasi (WMF) - ウィキペディア図書館の創設者 Jake Orlowitz
- Pintoch (talk) - Dissemin projectの中心開発者
- symac - フランス語話者のグループ TWL 調整役、pywikibotのオーナー
- Andrew Su
- James Webber
- a3nm
- Sckott
- Christian Pietsch - 検索エンジンBASEのAPI開発責任者
関連文献
[編集]- Pywikibot framework documentation - Pywikibotのフレームワークについて説明
- wikiciteparser - 出典テンプレート用の Python のパーサで mwparserfromhell に基づく
- Wikicite – 関連項目のクラスタを記録し追跡する仕組みのひとつ