コモン・クロール
企業形態 | 非営利 |
---|---|
創業者 | ジル・エルバズ |
主要人物 | ピーター・ノーウィグ、ノヴァ・スピバック、カール・マラマッド、カール・ボラッカー、伊藤穰一 |
ウェブサイト |
commoncrawl |
対応言語 | 英語 |
コモン・クロール(英語: Common Crawl)は、非営利団体、501(c)団体の一つで、クローラ事業を行い、そのアーカイブとデータセットを自由提供している[1][2]。コモン・クロールのウェブアーカイブは主に、2011年以降に収集された数PBのデータで構成されている[3]。通常、毎月クロールを行っている[4]。
コモン・クロールはジル・エルバズによって設立された[5]。顧問には、ピーター・ノーヴィグと伊藤穰一が含まれる[6]。クロールする上では、Nofollowおよびrobots.txtポリシーを尊重する。データセットを処理するためのソースコードも公開されている。
データセットには著作権で保護された作品が含まれており、それらはフェアユースに基づいたうえでアメリカ合衆国から提供されている。他国の研究者は、文章をシャッフルしたり、共通のデータセットを参照したりするなどして、他国の著作権法を回避している[7]。
歴史
[編集]2012年、Amazon Web Servicesによってクロールを開始[8]。
同年7月に、メタデータファイルとクローラーのテキスト出力を.arcファイルでリリースした[9]。そのため、以前は.arcのファイルしか含まれていなかった[9]。
2012年12月、blekkoは2012年2月から10月までに実施したクロールでのメタデータをコモン・クロールの検索エンジンに寄付した[10]。寄付されたデータは、「スパム、ポルノ、過度すぎる検索エンジン最適化の影響を回避しながらクロールを改善する」のに役立つ結果になった[10]。
2013年、カスタムクローラーの代わりにApacheソフトウェア財団のNutchクローラーの使用を開始[11]。2013年11月のクロールから、従来の.arcファイルの使用からWeb ARChive形式に切り替えられた[12]。
コモン・クロールのフィルタリングバージョンは、2020年に発表されたOpenAIのGPT-3の学習モデルに使用された[13]。
データを使用する際の課題の1つは、膨大な量のウェブデータがあるにもかかわらず、その一部のみがより良く文書化してしまうことである。これにより、コモン・クロールのデータを使用するプロジェクトの問題を診断しようとすると、課題が発生する可能性がある。解決策としては、すべてのデータセットに、その動機、構成、収集プロセス、および推奨される用途を文書化したデータシートを添付することである[14]。
ノーヴィグ・ウェブデータサイエンス賞
[編集]SURFnetとの協力で、コモン・クロールはノーヴィグ・ウェブデータサイエンス賞を後援している。これはベネルクスの学生、研究者に開かれたコンテストである[15][16]。
脚注
[編集]- ^ Rosanna Xia (February 5, 2012). “Tech entrepreneur Gil Elbaz made it big in L.A.”. Los Angeles Times July 31, 2014閲覧。
- ^ “Gil Elbaz and Common Crawl”. NBC News. (April 4, 2013) July 31, 2014閲覧。
- ^ “So you're ready to get started”. 2018年6月2日閲覧。
- ^ Lisa Green (January 8, 2014). “Winter 2013 Crawl Data Now Available” June 2, 2018閲覧。
- ^ “Startups - Gil Elbaz and Nova Spivack of Common Crawl - TWiST #222”. This Week In Startups. (January 10, 2012)
- ^ Tom Simonite (January 23, 2013). “A Free Database of the Entire Web May Spawn the Next Google”. MIT Technology Review July 31, 2014閲覧。
- ^ Schäfer, Roland. “CommonCOW: Massively Huge Web Corpora from CommonCrawl Data and a Method to Distribute them Freely under Restrictive EU Copyright Laws”. Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16) (Portorož, Slovenia: European Language Resources Association (ELRA)): 4501 .
- ^ Jennifer Zaino (March 13, 2012). “Common Crawl To Add New Data In Amazon Web Services Bucket”. Semantic Web. オリジナルのJuly 1, 2014時点におけるアーカイブ。 July 31, 2014閲覧。
- ^ a b Jennifer Zaino (July 16, 2012). “Common Crawl Corpus Update Makes Web Crawl Data More Efficient, Approachable For Users To Explore”. Semantic Web. オリジナルのAugust 12, 2014時点におけるアーカイブ。 July 31, 2014閲覧。
- ^ a b Jennifer Zaino (December 18, 2012). “Blekko Data Donation Is A Big Benefit To Common Crawl”. Semantic Web. オリジナルのAugust 12, 2014時点におけるアーカイブ。 July 31, 2014閲覧。
- ^ Jordan Mendelson (February 20, 2014). “Common Crawl's Move to Nutch”. Common Crawl. July 31, 2014閲覧。
- ^ Jordan Mendelson (November 27, 2013). “New Crawl Data Available!”. Common Crawl. July 31, 2014閲覧。
- ^ Brown, Tom; Mann, Benjamin (1 June 2020). "Language Models are Few-Shot Learners". arXiv:2005.14165 [cs.CL]。
- ^ Gebru, Timnit; Morgenstern, Jamie (19 March 2020). "Datasheets for Datasets". arXiv:1803.09010 [cs.DB]。
- ^ Lisa Green (November 15, 2012). “The Norvig Web Data Science Award”. Common Crawl. July 31, 2014閲覧。
- ^ “Norvig Web Data Science Award 2014”. Dutch Techcentre for Life Sciences. August 15, 2014時点のオリジナルよりアーカイブ。July 31, 2014閲覧。
外部リンク
[編集]- Common Crawl in California, United States
- Common Crawl GitHub Repository with the crawler, libraries and example code
- Common Crawl Discussion Group
- Common Crawl Blog