コモン・クロール

コモン・クロール
企業形態	非営利
創業者	ジル・エルバズ（英語版）
主要人物	ピーター・ノーウィグ、ノヴァ・スピバック（英語版）、カール・マラマッド（英語版）、カール・ボラッカー（英語版）、伊藤穰一
ウェブサイト	commoncrawl.org
対応言語	英語

コモン・クロール（英語: Common Crawl）は、非営利団体、501(c)団体の一つで、クローラ事業を行い、そのアーカイブとデータセットを自由提供している^[1]^[2]。コモン・クロールのウェブアーカイブは主に、2011年以降に収集された数PBのデータで構成されている^[3]。通常、毎月クロールを行っている^[4]。

コモン・クロールはジル・エルバズ（英語版）によって設立された^[5]。顧問には、ピーター・ノーヴィグと伊藤穰一が含まれる^[6]。クロールする上では、Nofollowおよびrobots.txtポリシーを尊重する。データセットを処理するためのソースコードも公開されている。

データセットには著作権で保護された作品が含まれており、それらはフェアユースに基づいたうえでアメリカ合衆国から提供されている。他国の研究者は、文章をシャッフルしたり、共通のデータセットを参照したりするなどして、他国の著作権法を回避している^[7]。

歴史

2012年、Amazon Web Servicesによってクロールを開始^[8]。

同年7月に、メタデータファイルとクローラーのテキスト出力を.arc（英語版）ファイルでリリースした^[9]。そのため、以前は.arcのファイルしか含まれていなかった^[9]。

2012年12月、blekko（英語版）は2012年2月から10月までに実施したクロールでのメタデータをコモン・クロールの検索エンジンに寄付した^[10]。寄付されたデータは、「スパム、ポルノ、過度すぎる検索エンジン最適化の影響を回避しながらクロールを改善する」のに役立つ結果になった^[10]。

2013年、カスタムクローラーの代わりにApacheソフトウェア財団のNutch（英語版）クローラーの使用を開始^[11]。2013年11月のクロールから、従来の.arcファイルの使用からWeb ARChive（英語版）形式に切り替えられた^[12]。

コモン・クロールのフィルタリングバージョンは、2020年に発表されたOpenAIのGPT-3の学習モデルに使用された^[13]。

データを使用する際の課題の1つは、膨大な量のウェブデータがあるにもかかわらず、その一部のみがより良く文書化してしまうことである。これにより、コモン・クロールのデータを使用するプロジェクトの問題を診断しようとすると、課題が発生する可能性がある。解決策としては、すべてのデータセットに、その動機、構成、収集プロセス、および推奨される用途を文書化したデータシートを添付することである^[14]。

ノーヴィグ・ウェブデータサイエンス賞

SURFnet（英語版）との協力で、コモン・クロールはノーヴィグ・ウェブデータサイエンス賞を後援している。これはベネルクスの学生、研究者に開かれたコンテストである^[15]^[16]。

脚注

^ Rosanna Xia (February 5, 2012). “Tech entrepreneur Gil Elbaz made it big in L.A.”. Los Angeles Times July 31, 2014閲覧。
^ “Gil Elbaz and Common Crawl”. NBC News. (April 4, 2013) July 31, 2014閲覧。
^ “So you're ready to get started”. 2018年6月2日閲覧。
^ Lisa Green (January 8, 2014). “Winter 2013 Crawl Data Now Available” June 2, 2018閲覧。
^ “Startups - Gil Elbaz and Nova Spivack of Common Crawl - TWiST #222”. This Week In Startups. (January 10, 2012)
^ Tom Simonite (January 23, 2013). “A Free Database of the Entire Web May Spawn the Next Google”. MIT Technology Review July 31, 2014閲覧。
^ Schäfer, Roland. “CommonCOW: Massively Huge Web Corpora from CommonCrawl Data and a Method to Distribute them Freely under Restrictive EU Copyright Laws”. Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16) (Portorož, Slovenia: European Language Resources Association (ELRA)): 4501. https://aclanthology.org/L16-1712.
^ Jennifer Zaino (March 13, 2012). “Common Crawl To Add New Data In Amazon Web Services Bucket”. Semantic Web. オリジナルのJuly 1, 2014時点におけるアーカイブ。 July 31, 2014閲覧。
^ ^a ^b Jennifer Zaino (July 16, 2012). “Common Crawl Corpus Update Makes Web Crawl Data More Efficient, Approachable For Users To Explore”. Semantic Web. オリジナルのAugust 12, 2014時点におけるアーカイブ。 July 31, 2014閲覧。
^ ^a ^b Jennifer Zaino (December 18, 2012). “Blekko Data Donation Is A Big Benefit To Common Crawl”. Semantic Web. オリジナルのAugust 12, 2014時点におけるアーカイブ。 July 31, 2014閲覧。
^ Jordan Mendelson (February 20, 2014). “Common Crawl's Move to Nutch”. Common Crawl. July 31, 2014閲覧。
^ Jordan Mendelson (November 27, 2013). “New Crawl Data Available!”. Common Crawl. July 31, 2014閲覧。
^ Brown, Tom; Mann, Benjamin (1 June 2020). "Language Models are Few-Shot Learners". arXiv:2005.14165 [cs.CL]。
^ Gebru, Timnit; Morgenstern, Jamie (19 March 2020). "Datasheets for Datasets". arXiv:1803.09010 [cs.DB]。
^ Lisa Green (November 15, 2012). “The Norvig Web Data Science Award”. Common Crawl. July 31, 2014閲覧。
^ “Norvig Web Data Science Award 2014”. Dutch Techcentre for Life Sciences. August 15, 2014時点のオリジナルよりアーカイブ。July 31, 2014閲覧。

外部リンク

Common Crawl in California, United States
Common Crawl GitHub Repository with the crawler, libraries and example code
Common Crawl Discussion Group
Common Crawl Blog

[latimes-1] Rosanna Xia (February 5, 2012). “Tech entrepreneur Gil Elbaz made it big in L.A.”. Los Angeles Times July 31, 2014閲覧。

[pressheretv-2] “Gil Elbaz and Common Crawl”. NBC News. (April 4, 2013) July 31, 2014閲覧。

[3] “So you're ready to get started”. 2018年6月2日閲覧。

[theverge-4] Lisa Green (January 8, 2014). “Winter 2013 Crawl Data Now Available” June 2, 2018閲覧。

[twist-5] “Startups - Gil Elbaz and Nova Spivack of Common Crawl - TWiST #222”. This Week In Startups. (January 10, 2012)

[technologyreview-6] Tom Simonite (January 23, 2013). “A Free Database of the Entire Web May Spawn the Next Google”. MIT Technology Review July 31, 2014閲覧。

[7] Schäfer, Roland. “CommonCOW: Massively Huge Web Corpora from CommonCrawl Data and a Method to Distribute them Freely under Restrictive EU Copyright Laws”. Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16) (Portorož, Slovenia: European Language Resources Association (ELRA)): 4501. https://aclanthology.org/L16-1712.

[semanticweb_1-8] Jennifer Zaino (March 13, 2012). “Common Crawl To Add New Data In Amazon Web Services Bucket”. Semantic Web. オリジナルのJuly 1, 2014時点におけるアーカイブ。 July 31, 2014閲覧。

[semanticweb_2-9] Jennifer Zaino (July 16, 2012). “Common Crawl Corpus Update Makes Web Crawl Data More Efficient, Approachable For Users To Explore”. Semantic Web. オリジナルのAugust 12, 2014時点におけるアーカイブ。 July 31, 2014閲覧。

[semanticweb_3-10] Jennifer Zaino (December 18, 2012). “Blekko Data Donation Is A Big Benefit To Common Crawl”. Semantic Web. オリジナルのAugust 12, 2014時点におけるアーカイブ。 July 31, 2014閲覧。

[ccnutch-11] Jordan Mendelson (February 20, 2014). “Common Crawl's Move to Nutch”. Common Crawl. July 31, 2014閲覧。

[ccnov2013-12] Jordan Mendelson (November 27, 2013). “New Crawl Data Available!”. Common Crawl. July 31, 2014閲覧。

[13] Brown, Tom; Mann, Benjamin (1 June 2020). "Language Models are Few-Shot Learners". arXiv:2005.14165 [cs.CL]。

[14] Gebru, Timnit; Morgenstern, Jamie (19 March 2020). "Datasheets for Datasets". arXiv:1803.09010 [cs.DB]。

[ccaward-15] Lisa Green (November 15, 2012). “The Norvig Web Data Science Award”. Common Crawl. July 31, 2014閲覧。

[dtlsaward-16] “Norvig Web Data Science Award 2014”. Dutch Techcentre for Life Sciences. August 15, 2014時点のオリジナルよりアーカイブ。July 31, 2014閲覧。

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]