Wikipedia:検索エンジンによる調査

この文書は手引き書です。ウィキペディア日本語版での活動の参考にされていますが、方針やガイドラインではありません。

この文書の要旨:

調べることは簡単です。「何について調べているか」「調べた結果何がわかるのか」のほうが難しい問題です。
検索エンジンはすぐれた調査ツールですが、検索結果には解釈の余地や偏向を含むことが多いです。検索エンジンを使って作業することはできますが、検索エンジンの使用とはどういうことかを理解しておく必要があります。
ウィキペディアにおいては、通俗性よりも中立性が優先されます。

注：これは英語版の手引き「en:Wikipedia:Search engine test」の仮訳です。日本語版で運用されているものではありません。また、この日本語訳が正しいかどうか十分な検証はまだなされていません。

検索エンジンによって、ユーザーはインターネットのウェブページを検索することができますが、また同様にある文字表現がいつどのように使われているか確かめることもでき、記事などさまざまな事柄について信頼できる情報源を見つけ出したり、特筆性を確立させたり、検証を行ったり、記事名について話し合ったりするのに役立ちます。

このページでは、検索ツールについて、最大活用する方法、有用な検索ツール、活用例およびチュートリアル、避けるべき落とし穴、一般的な偏見と限界についてそれぞれ解説します。

一般的な検索エンジンには、Google (リンク) (newsgroups、 scholar、ニュース、ブックなども含む)、アレクサ・インターネット(リンク)、インターネットアーカイブ(The Wayback Machine, リンク)、Yahoo!(リンク)などがあります。

このページでは例としてGoogleを挙げていますが、同様の方針は他のほとんどの検索エンジンに対して適用できます。

検索エンジンによる調査

検索エンジンによる調査の使い方

検索エンジンを使用した確認は、以下のような疑問解決のためのものです。

通俗性 - 対象が、どれだけの人々に流行しているか(していないか)を調べます。
用法 - 対象となる用語が、通常どこでどのように誰が用いるものか調べます。
真偽 - 対象が本当のことかデマ(もしくは誤報・百科辞典的ではない記述)か調べます。
特筆性 - 対象が独立した情報源によって発表されているか、もしくは内輪だけの情報かを調べます。
信頼できる情報源 - 対象の情報源(ウェブサイト)があるか、あるとすれば何かを調べます。
追加情報 - 記事に用いることができる、特筆性のある事実や出典を発掘します。
用語 - 別名や用語法など、対象の名前を調べます。
著作権状態の確認 - 文章がウェブページからの直接的もしくはほとんど直接的なコピーかどうかを調べます。著作権保有者やライセンスの状態を調べることもあります。

検索エンジンによる調査はきわめて有用なこともあれば、誤解や役に立たない結果を生み出してしまうこともあります。これはどういった対象に、どのくらい注意深く用いたかに依存します。大抵の場合、検索エンジンによる調査は最初に用いられるヒューリスティクスあるいは経験則となります。

一般的な検索エンジン

Type	Examples
一般のサーチエンジン	Google検索、Yahoo! JAPAN, Bing, etc
ウェブサイトの通俗性の指標	アレクサ・インターネット、en:Hitwise
一般情報	All About
プロフェッショナルによる研究の指標	MEDLINE (医学)、科学、法律、Google Scholar
ニュースとメディア	Google News アーカイブ検索
ウェブページの過去のアーカイブ	インターネットアーカイブ、en:Web cache (ウェブページのさまざまな時点での様子や内容、削除されたかどうか)
書籍・過去の記述	プロジェクト・グーテンベルク、Google ブック検索, Amazon.com
大学などの高等教育機関	4icu.org (大学ウェブサイト検索エンジン)

Googleグループ(usenet)などの情報源は日付管理されており、20年以上にわたってアーカイブされているため、歴史的記録として有用です。

検索エンジンにできること、できないこと

検索エンジンは、他人がインターネット上に掲載したウェブページや文章を、本の裏表紙にある目次のように一覧表示することができます。

検索エンジンにできること

上記の目的を助ける情報を提供したり、上記の目的を助けるページへ誘導してくれます。
情報源によりますが、「誰々の報告によれば何々」の部分の確認ができます(中立的な引用のために有用です)。
引用元となった情報源の完全版を見られることもしばしばあります。
ある表現がどのくらい通俗的に使用されているか、大まかに確かめることができます。
特定のウェブサイトを対象としたり、検索語を変えたり組み合わせたり(検索結果を混乱させる語を除外したり)といった、さらに詳しい検索も可能です。

検索エンジンにできないこと

検索結果が信頼できる、もしくは「事実」であることを保証できません(検索エンジンは、その真偽にかかわらず、任意でインターネット上に掲載されたあらゆる文章を集成しています)
対象について多くが述べられている「理由」を確認することはできません。インターネットマーケティングや、インターネット上の流行、スパム、宣伝ではなく、その重要性によって多くが述べられているかどうかの保証はできません。
意図していた利用法に沿った結果が返ってくることを保証できません(例：ある特定の個人であるジョン・スミスを検索語として検索した場合、検索者が意図していない同姓同名の他人や、「ジョン」と「スミス」が別々に登場する多くのページが検索結果に選ばれることがあります。また、「ジョン・M・スミス」や「ジョン・マイケル・スミス」名義でまとめられた有用な出典がすべて除外されてしまうこともあります)。
検索語選択の段階で、言及すべき必須項目の見落としがないことを保証できません。
対象についての記述が少ないからといって、対象が重要ではないとは保証できません。
検索結果が転載・抜粋・引用・誤引用・著作権侵害にあたらない「オリジナル」の記述であるかは保証できません。

通常、検索エンジンがしないこと

急速に進行中の事象について、雑誌や書籍並みの詳しい調査は行いません。
中立性を保ちません。

検索エンジンによる調査によって、検索結果の解釈や、検索結果が実際は何を示しているかを判断する作業を避けることはできません。結果の一覧表示だけでは、通常は何の証明にもなりません。

検索エンジンによる調査と、ウィキペディアの方針

検証可能性

検索エンジンによる調査結果は、架空のものであったり、偏見があったり、うわさ話であったりすることがあります。情報に頼る前に、それが信頼できる情報源からくるものか考慮することが重要です。信頼できない情報源は、記述について読者がどれだけ信頼を置くことができるかについて、情報に基づく中立的な理解を得るためには、役に立たなかったり、基礎や状態の明確化が必要になる場合があります。

中立性

Googleその他の検索エンジンは、中立性を目標としていませんが、Wikipediaはこれを目標にしています。Google自身が生成する一覧ページやメディアページには、中立性の方針はありません。ウィキペディアは必須項目として中立性の方針をとっており、これはすべての記事および記事に関係する編集活動に適用されます。

よって、Googleは中立的なタイトルの情報源とはならず、通俗性のあるタイトルの情報源にとどまります。他がどうあろうと、Wikipediaにおいては中立性は必須項目であり、対象の名前を決定する際にも同様です。中立性は、通俗性に優先します。

特筆性

検索結果のヒット数をそのまま用いるのは、重要性の評価方法としてはきわめて粗雑です。理由は以下で述べますが、重要ではないけれど多くのヒット数をもつ項目もあれば、特筆性があるのにほとんどあるいは全くヒットしない項目もあります。

ヒット数の種類、検索の目的、検索の方法、検索結果にどのような解釈をすべきかといったさらに進んだ議論がなければ、ヒット数単独では、特筆性に関する何かをまれに証明することがあるにすぎません。一方、ヒット数の「種類」を調べることによって特筆性に関する有用な情報が得られることはしばしばあります。

さらに、検索エンジンは曖昧さの回避を行わず、また部分的な検索にマッチすることが多くあります。岩窟の聖母(Madonna of the Rocks)は百科辞典的で特筆性のある題材ですが、ポップカルチャーの象徴ではありません。しかし歌手のマドンナ(Madonna)など、岩窟の聖母に関係しないMadonnaへの言及も部分的な検索にマッチしますので、GoogleやYahoo検索のヒット数を、岩窟の聖母と同様に特筆性のあるルネサンス絵画と比較するのは不適切です。

検索エンジンの使用

検索エンジンの表現(例とチュートリアル)

この節ではGoogleのweb検索における検索表現について記述しています。Googleの他の検索サービスや、他の検索エンジンの多くに同様の方法が使えますが、検索エンジンの機能や操作はそれぞれ異なることも多いので、より詳しい情報は検索エンジンのヘルプをご覧ください。

Googleなどの検索エンジンは、簡単な検索と高度な検索の、両方の検索機能を備えています。高度な検索を使えば、高度なオプションを入力しやすくなり、調べものの助けになる可能性があります。以下の折りたたみセクションには、Wikipediaに関して検索エンジンを使う際の、基本的な例とヘルプがあります。

医学論文アーカイブなど、特殊な検索方法を備えている専門的な検索エンジンについては、ここでは触れていません。

Wikipediaでの具体的な検索エンジン使用法

Google グループなどのタイムスタンプのあるメディアは、検索語が言及され始めたタイミングや文脈を調べるのに使うことができます。

Google ニュースは、対象がニュースとしての価値があるかを調べる役に立ちます。Google ニュースは、自己宣伝による情報の操作の影響をあまり受けませんが、広告収入集めや、特定の議論を煽るなどの目的で作られた疑似ニュースサイトの出現により、一般大衆の興味という点では、この調査の信頼性は他と比較してあまり高くありません。Googleニュースが集成する「ニュース」情報源の多くは、特定の価値観を反映しています。ニュースアーカイブは数年前までさかのぼることができますが、特定の期間を過ぎると有料となることがあります。ニュース検索結果の結果には、中立的で独立した情報源とはいえないプレスリリースが含まれることがよくあります。

Google ブック検索は、全体的に見て、Webよりも旧来の百科事典に沿った情報収集を行う傾向があります。システム上の偏りがあったとしても、Google ウェブ検索とは異なったものです。そのままの語句がGoogle ブック検索に複数ヒットした場合、語句や概念の使用実績についての説得力のある証拠となるでしょう。Google ブック検索は、人・出来事・概念に関する、紙媒体で出版された証言を拾うことができます。また情報源が挙げられていない「常識的」な事実を、出版された情報源を持つ事実と入れ替えるのにも使えます。

一般大衆によって通俗的に言及されているため特筆性があるとされている事柄に関しては、検索エンジンによってその通俗性や言及の種類を確認することができます。特筆性があるとされる事柄に対し、インターネット上で数百件の言及しかなければ、その事柄にはあまり特筆性がないと考えられます。本当に有名なインターネット上の流行ならば、数百万や数千万の言及がある[1]こともあり得るのですから。しかし、特筆性のある対象であっても言及がきわめて少ないこともあります。例えば、考古学上の事柄には、それに関する言及が数十件程度しか期待できないものもありますし、インターネット上にまったく反映されないと思われる事柄もあります。

事実だとされている話題も、信頼できる対象と無関係な情報源から言及されているかどうか調査することができます。デマなどの判別に有効です。

上記のように、ウェブサイトからの著作権侵害を発見できることもよくあります。

別の表記や用法についても、ヒット数のチェックにかけることができます(例：同じくらいの中立性・妥当性をもつ二つの表記のうち、どちらが一般的かの議論に使用)

Google グループ (USENET ニュースグループ)は、ウェブサイトからの様々なサンプルをとっており、その大部分は、さまざまな話題について英語でかわされた話題から成っています。情報源は様々なので、ヒット数を比較することはできませんが、グループ検索は議論の的になっている可能性がある事柄や、宣伝によりその存在感が意図的に誇張されている可能性のある事柄を調べるのに役立ちます。例えばある語句がWeb検索で10万件ヒットし、グループでは10件しかヒットしなかった場合、宣伝効果が疑われます。

特殊な検索エンジン

Google Scholar は、(1)論文指向で、(2)(ほぼ)全ての主立った意見がインターネット上に揃っている分野に関して有効です。計算機科学者による論文のほとんどはインターネット上に掲載されますが、技術的に今日性の低い分野になるほど、Google Scholarにおける掲載の信頼性は少なくなります。「サイエンス」誌でさえ、オンラインの論文は1996年までです。よって、Google Scholarが特筆性の欠如の証明に使われることはほとんどありません。

現在PubMedの一部となったMEDLINEは、様々な分野をカバーする独自の検索エンジンです。MEDLINEのサービス開始は1964年ですが、さらに古い論文をも集成しています。よって、オンラインで掲載されていない古い論文、特に医学・生物学論文については、PubMedの"associated articles"(関連する記事) をGoogle Scholarの代理で使うことができます。例：「Stroke」誌は1970年代までの論文をオンラインで掲載しています。1978年のこの論文に関し、Google Scholarはこれを引用している記事を[100件リストアップしています。一方PubMedは関連する記事を89件リストアップしています。

Library of Congress、アメリカ議会図書館、 Indiana Supreme Court インディアナ州最高裁判所、 FindLaw (アメリカ)、ケント大学法律ライブラリ・資料集 (UK)(イギリス)など数多くのオンラインの法律ライブラリが、さまざまな国に存在します。

結果の解釈

概説

ヒット数そのものを特筆性の証明として用いるべきではありません。検索結果として何が見つかったか(書籍・ニュース記事・学術論文・ウェブページ)や、特筆性あるいは特筆性の無さについて、それらの検索結果が実際に触れているかどうかに着目すべきです。ヒット数は、以前から特筆性を測るにはきわめて誤りが多い手段であったし、これからもそうだと考えられます。ヒット数を決定的・最終的な判定方法と考えるべきではありません。

検索結果の解釈にあたっては、他にも以下のようなことを考慮しましょう。

記事の範囲: 必要とされているのはより範囲を絞った言及ではないか考えましょう。検索結果のページが中立的な観点に基づいているかの判断を試みてください。
記事の主題: もしも記事の主題が歴史上の人物であった場合、信頼できる情報源からの言及が数件あれば特筆性の判定には十分であるといえるかもしれません。しかしインターネット上の新語やポップ・ミュージックのたぐいであれば、700件以上言及があってもウィキペディアの目的にかなう特筆性を証明するだけの「存在感」があるとはみなされない可能性があります。

見つけるべき偏向

たいていの場合、検索結果を信用する前に、配慮と注意深い懐疑をもって再確認するべきです。検索結果には、以下のような偏向がしばしば見られます。

一般的な偏向

一般 (インターネットや人々全体における偏向)

個人的な偏向 - 馴染みがあったり、信じていたり、日常的な文化において一般的な信条のほうがわずかに受け入れやすくなり、好みの視点と矛盾する信条に関しては疑わしく思う傾向があります。
文化・コンピュータ使用における偏向 - インターネットを使用する、先進国や富裕層からの情報が優先される傾向があります。同じくらいの特筆性をもつ点に対しても、コンピュータの使用があまり広まっていない国からの言及は少なくなり、特筆性がないと(事実に反して)みなされることもしばしばあります。
過度の注目 - ある事柄に対し、公平な評価よりもずっと大きな分量が語られ、他の項目がずっと少なくなる、など、ある種の事柄、特に大衆文化に関連した事柄が不公平な扱いを受けることがあります。
容易にアクセスできない情報源 すべての人がアクセスできる情報源もありますが、使用料を払わなければならなかったり、もともとオンラインで掲載されていない情報源もあります。

Web検索エンジン一般(Google、Yahoo!など)

深層Web 検索エンジンは数多くのページを検索対象から除外しており、このためシステム上の偏向が生じ、ある種の事柄が不公平に除外されることがあります(例えば、大抵のサイトがサイト単位で表示されるのはGoogleの索引化を非許可にしているためです。またFlashや画像が中心のウェブサイトは、技術的な理由により索引化されません)。
宣伝ツールとしての検索エンジン - ウェブサイトの検索順位・人気・評価への介入や、検索結果に関係する広告スペースの販売を試みるビジネスが存在します(検索エンジン最適化を参照)。ポルノ俳優などについては、このような業者にしっかりと管理されているため、検索では通俗性を確認することができません。
校正 - 校正のシステムはサイトごとに異なっており、いかなる情報も受け入れるものもあれば、何らかの校正・レビューのシステムを導入しているものもあります。
再帰的ミラー - 時に、外部のサイトがウィキペディアの内容を扱い、その内容がインターネットをたらい回しになり、これに基づいた(引用はされないことが多い)多くのページが作られることがあります。そうなると、サーチエンジンの検索によって見付かった情報源の大半が、実際はウィキペディア自身にかつて掲載されていた文章のコピーということになってしまうのです。
慣用表現 - 慣用表現や都市伝説が、正確性を問われずに伝わることはしばしばあります。例:1) イギリス王太子の正しい名前は「Charles Mountbatten-Windsor」ですが、これよりも本来誤った慣用表現である「Charles Windsor」で検索したほうが、十倍も多くヒットします。2)エルニーニョの正しい綴りは「El Niño」ですが、慣用表現としてはダイアクリティカルマークを省略して「El Nino」と表記されることがよくあります。3)都市伝説が広く言及されることはよくあります。数百件のサイトでコンスティチューションの出航が1779年であると書かれていますが、正しい出航年は1797年です。
一般認識 - 一般認識は、一般的でない物事よりも多く言及される傾向にあります。例えば、鍼治療に関する言及は多く存在し、多くの人が動物の毛皮にアレルギーをもつとの記述もよくあります。しかし、鍼治療に関して医学者によって効能の調査・評価が行われていることや、毛皮アレルギーをもつ人は少なく、実際には毛皮の奥にあるフケに対するアレルギーであることが多い、ということは、注意深く調査しない限り分からないこともあるでしょう。
言語による選別 - 例えば、アラビア語話者がアラビア語で同性愛についての情報を検索した場合、英語話者が英語で同じ話題を検索した場合とは違った傾向がみられると考えられます。これは英語話者の国(アメリカ・イギリス・オーストラリアなど)では、同性愛について寛容な人の割合がアラビア語話者の国(中東諸国など)よりも大きいために起こります。

外国語、非ラテン文字の記述、古い呼称

英語以外に由来する事柄や、もしくはラテン文字以外の表記に関しては、正式な表記で検索したほうが、多くヒットすることが多くあります。例えばアラビア語表記の名称は原典の表記で検索するべきであり、これはGoogle検索で容易に行えます(検索する人が、検索しているものの実態を知っている場合に限ります)。けれども、英語・フランス語・ドイツ語のウェブサイトが、このアラビア語の名前に関してそれぞれ別表記を採用している場合は問題となる場合があります。アラビア語やロシア語の名前に関しては、英語のみのウェブサイトであっても、サイトごとに異なる様々な表記を使っていることがあります。(ロシア、アングロ・サクソン系など)他言語の個人名は、父称を入れるか入れないかを変えて検索しなくてはならない場合もありますし、また語形変化が激しい言語では、ヒット数の総計をとるためには語形を変えて検索しなければならない、という場合もあるでしょう。こういった文法上の派生形は、その言語についてあまり知らない人には分かりづらいこともあります。また多くの言語において、称号が名前の一部として加えられた形で表記されることもあります(ケマル・パシャなど)。こういった称号が省略される場合もあります。

英語の中でさえ、古い人名においてはひとりの人物に対して何十個もの異綴り、異表記がありえます。単純にひとつの表記のみで検索した場合、インターネットでの記述の度合いを過小評価する結果となる可能性もあります。

上記のような検索には一定の言語学的な能力が必要になりますが、この能力を持っているウィキペディアンはある程度限られています。ですが、ウィキペディアのコミュニティには、多言語に精通した人々が多く含まれています。削除依頼の依頼者・投票者は、言語や異表記に関する偏向が問題になっている場合、少なくとも自分でできる事の範囲を自覚して、不適切な思い込みをしないようにすることが重要です。