Google Books Ngram Viewer
Google Books Ngram Viewerは、Googleのテキストコーパスから任意の文字列の出現頻度をチャート化し出力する、オンライン検索エンジン。出現頻度検索には1500年から2019年[1][2][3][4]の刊行物から生成した各年ごとのnグラムが用いられ、ソースとなるコーパスは英語、簡体中国語、フランス語、ドイツ語、ヘブライ語、イタリア語、ロシア語、スペイン語等の多言語に対応している[1][2][5]。また、アメリカ英語、イギリス英語、英語フィクション等の分野特化型英語コーパスも使用できる[6]。
このプログラムは、スペルミスや解釈不能文字列も含めて単語や句を検索することができる[5]。nグラムは選択されたコーパス内のテキストと照合され、40以上の文献でマッチがある場合、グラフとして表示される[6]。検索エンジンは品詞とワイルドカードにも対応しており[6]、研究現場でも恒常的に活用されている[7][8]。
歴史
[編集]開発過程において、Googleはハーバード大学の研究者であるジャン=バティスタ・ミシェル(英: Jean-Baptiste Michel)とエレズ・リーバーマン・エイデン(英: Erez Lieberman Aiden)の2名とチームを組み、2010年12月16日に人知れずプログラムを一般公開した[2][9]。 同日サイエンス誌に掲載された論文の共著者であるスティーブン・ピンカー(英: Steven Pinker)は、本プログラムの公開前は「言語変化率の数値化は、この目的に即したデータベースの欠如により困難であった」と述べている[1][10]。Google Books Ngram Viewerは人文科学領域における量的研究の可能性拡大を視野に入れ開発され、そのデータベースは、一般入手が可能な520万の文献から集められた、5000億語ものデータが公開当初から含まれていた[2][3][9]。
学者による使用を想定していた一方で、Google Books Ngram Viewerは事実上、コンピューターを有する人物であれば誰でも単語・句の使用率の通時的変化をグラフ化し、参照することを可能にした。ニューヨーク・タイムズ紙の取材に際しリーバーマンは、「子どもでも歴史上の文化的傾向が把握できるようにすることを目標にした」と語っている[9]。上述のサイエンス誌の論文内で、リーバーマンおよび共著者は、デジタル化されたテキストを参照し大量のデータ分析を行う手法を「カルチュロミクス」と呼んでいる[1][9]。
使用法
[編集]検索対象の文字列を、カンマで区切って入力する。区切られた検索文字列のそれぞれは、n-gramとしてデータベース内で検索される(例として、"nursery school" という文字列であれば2-gramまたはバイグラム(英: bigram)となる)[6]。Ngram Viewerは、このように指定されたクエリ文字列ごとに、プロットされた折れ線グラフを生成する。ただし、Ngramデータベースの制限により、グラフが適切に生成されるには40以上の文献内で対象文字列がマッチする必要がある[6]。
Ngram Viewerは高度な検索機能も備えており、ワイルドカード検索(英: wildcard search)、屈折検索(英: inflection search)、大小文字非区分検索(英: case-insensitive search)、品詞タグ(英: part-of-speech tags)、およびnグラム合成(英: ngram compositions)をサポートしている[6]:
- ワイルドカード検索
- 語の代わりに
*
のワイルドカードを使用すると、正規化された文字列に対して検索が行われ、結果の上位10件を取得することができる(例として、"University of *" は "University of California" や "University of Chicago" などに、10項目までマッチする)[6]。
- 屈折検索
- 特定のnグラムに
_INF
の接尾辞を加えると、文字の屈折(英: inflection)を扱うことができる。例として、"book_INF" は "book"、"booked"、"books"、"booking" などにマッチする。ただし、この接尾辞は1回のクエリで1回までしか使用できない[6]。
- 大小文字非区分検索
- クエリボックスの右側のチェックボックスをチェックすると、デフォルトの大小文字区分(英: case-sensitive)挙動を上書きし、大小文字非区分(英: case-insensitive)で検索を行うことができる[6]。
- 品詞タグ
_NOUN
や_VERB
などの特定の接尾辞を使用すると、nグラムの品詞を指定することができる(例:"tackle_NOUN"、"tackle_VERB")。これらの接尾辞の最後にアンダースコアを付け加えると(例:"_NOUN_")、当該特殊文字を接尾辞ではなく変数として使用することができる[6]。
- Nグラム合成
+
、-
、*
、/
、または:
の演算子を使用すると、nグラムを特定の方式で掛け合わせることができる。例として、"game+sport+play" は "game"、"sport"、"play" の総生起数の和からなるグラフを生成する[6]。
制限
[編集]Ngram Viewerに使用されているデータセットには一定の問題もあり、不正確なOCRに基づくデータへの依存や、日付や分類が誤っているテキストの多さなどが挙げられる[11][12]。これらの不備、およびデータの偏りコントロールがされていない[13](例として、科学文献の量が大幅に増えていることにより、他の用語の出現頻度が減っているという錯覚を生じさせる)ことなどに起因し、このコーパスを言語の研究や理論のテストに使用する際は注意が必要である[14]。また当該データセットは、著作権上の懸念から出版日、著者、長さ、ジャンル等のメタデータが一切含まれていないため、一般的な言語変化や文化的変化が結果に反映されない可能性があり、この場合Ngram Viewerは変化を「示唆」することはできても「確約」することはできないという欠点がある[15]。
なお、上述のような課題を視野に入れたうえで、Ngram Viewerから得たデータを研究に使用するためのガイドラインも学者により提案されている[16]。
OCRの問題
[編集]光学文字認識(英: optical character recognition; OCR)は必ずしも信頼できるものではなく、スキャンの結果が正しく反映されない文字なども存在する。特に、19世紀以前のテキストにおいては s
と f
の混同が頻繁に起き(f
に外見が似た s
の異型である ſ
(長いs)の存在による)、「一貫した」データの偏りを起こす可能性がある[14]。Googleは1800年以降のデータから生成された結果は信頼できるとしているが、機能向上が必要なOCRおよびデータの不足は、様々な問題を孕んでいる。例として、中国語等の言語において結果の信頼性が保証できるのは1970年以降のデータから生成されたものに限られ、これ以前の年代を対象とした場合、一般用語で検索を行っても結果がゼロになったり、年代の指定の仕方によっては結果の50%以上がノイズであるなどの問題が生じることがある[17][18]。
脚注
[編集]出典
[編集]- ^ a b c d Michael, Jean-Baptiste; Shen, Yuan K.; Aiden, Aviva P.; Veres, Adrian; Gray, Matthew K.; The Google Books Team; Pickett, Joseph P.; Hoiberg, Dale et al. (2010). “Quantitative Analysis of Culture Using Millions of Digitized Books”. Science 331 (6014): 176-182 .
- ^ a b c d “Google Ngram Database Tracks Popularity Of 500 Billion Words”. The Huffington Post (2010年12月17日). 2012年5月31日閲覧。
- ^ a b Lance Whitney (2010年12月17日). “Google's Ngram Viewer: A time machine for wordplay”. Cnet.com. 2014年1月23日時点のオリジナルよりアーカイブ。2012年5月31日閲覧。
- ^ @searchliaison (2020年7月13日). "The Google Books Ngram Viewer has now been updated with fresh data through 2019" (英語). X(旧Twitter)より2020年8月11日閲覧。
- ^ a b “Google Books Ngram Viewer - University at Buffalo Libraries”. Lib.Buffalo.edu (2011年8月22日). 2013年7月2日時点のオリジナルよりアーカイブ。2012年5月31日閲覧。
- ^ a b c d e f g h i j k “Google Books Ngram Viewer - Info”. 2024年6月1日閲覧。
- ^ Greenfield, Patricia M. (2013). “The Changing Psychology of Culture From 1800 Through 2000”. Psychological Science 24 (9): 1722–1731. doi:10.1177/0956797613479387. ISSN 0956-7976. PMID 23925305 .
- ^ Younes, Nadja; Reips, Ulf-Dietrich (2018). “The changing psychology of culture in German-speaking countries: A Google Ngram study: THE CHANGING PSYCHOLOGY OF CULTURE”. International Journal of Psychology 53: 53–62. doi:10.1002/ijop.12428. PMID 28474338 .
- ^ a b c d “In 500 Billion Words, New Window on Culture”. The New York Times (2010年12月16日). 2024年6月1日閲覧。
- ^ The RSA (2010年2月4日). “Steven Pinker – The Stuff of Thought: Language as a window into human nature”. 2024年6月2日閲覧。
- ^ “Google Ngrams: OCR and Metadata”. ResourceShelf (2010年12月19日). 2016年4月27日時点のオリジナルよりアーカイブ。2015年4月19日閲覧。
- ^ “Humanities research with the Google Books corpus” (2010年12月16日). 2016年3月10日時点のオリジナルよりアーカイブ。2015年4月19日閲覧。
- ^ Pechenick, Eitan Adam; Danforth, Christopher M.; Dodds, Peter Sheridan; Barrat, Alain (2015-10-07). “Characterizing the Google Books Corpus: Strong Limits to Inferences of Socio-Cultural and Linguistic Evolution”. PLOS ONE 10 (10): e0137041. arXiv:1501.00960. Bibcode: 2015PLoSO..1037041P. doi:10.1371/journal.pone.0137041. PMC 4596490. PMID 26445406 .
- ^ a b Zhang, Sarah. “The Pitfalls of Using Google Ngram to Study Language” (英語). WIRED 2017年5月24日閲覧。.
- ^ Koplenig, Alexander (2015-09-02). “The impact of lacking metadata for the measurement of cultural and linguistic change using the Google Ngram data sets—Reconstructing the composition of the German corpus in times of WWII”. Digital Scholarship in the Humanities 32 (1): 169–188. 2017-04-01. doi:10.1093/llc/fqv037. ISSN 2055-7671 .
- ^ Younes, Nadja; Reips, Ulf-Dietrich (2019-03-22). “Guideline for improving the reliability of Google Ngram studies: Evidence from religious terms” (英語). PLOS ONE 14 (3): e0213554. Bibcode: 2019PLoSO..1413554Y. doi:10.1371/journal.pone.0213554. ISSN 1932-6203. PMC 6430395. PMID 30901329 .
- ^ “Google n-grams and pre-modern Chinese”. digitalsinology.org. 2015年4月19日閲覧。
- ^ “When n-grams go bad”. digitalsinology.org. 2015年4月19日閲覧。
参考文献
[編集]- Lin, Yuri et al. (July 2012). “Syntactic Annotations for the Google Books Ngram Corpus” (PDF). Proceedings of the 50th Annual Meeting. Demo Papers (Jeju, Republic of Korea: Association for Computational Linguistics) 2: 169–174. 2390499 .