利用者:紅い目の女の子/ImageNet

The Nine Lives of ImageNet: A Sociotechnical Retrospective of a Foundation Dataset and the Limits of Automated Essentialism https://www.pinecone.io/learn/series/image-search/imagenet/ https://www.historyofdatascience.com/imagenet-a-pioneering-vision-for-computers/ Rethinking ImageNet Pre-training https://analyticsindiamag.com/ai-mysteries/imagenet-and-variants/ https://journals.sagepub.com/doi/full/10.1177/20539517211035955

[2006.16923] Large image datasets: A pyrrhic win for computer vision? https://medium.com/@prudhvi.gnv/imagenet-challenge-advancement-in-deep-learning-and-computer-vision-124fd33cb948 https://qz.com/1034972/the-data-that-changed-the-direction-of-ai-research-and-possibly-the-world https://learning.acm.org/techtalks/ImageNet

https://doi.org/10.1016/j.inffus.2023.102217 https://doi.org/10.1016/j.neucom.2022.01.022

メモ2: ImageNetの課題や背景について概説された記事 Crawford, Kate; Paglen, Trevor (2021-06-08). “Excavating AI: the politics of images in machine learning training sets” (英語). AI & SOCIETY. doi:10.1007/s00146-021-01162-8. ISSN 0951-5666. Dentonでも引用されているはず

ImageNetは、物体認識ソフトウェアの研究において、ソフトウェアの最適化や性能の評価等に用いるために設計された、大規模な画像データセットである^[1]^[2]^[3]。またこのデータセットを作成するプロジェクトのこと^[4]。

ImageNetは、2009年にAI研究者のフェイフェイ・リーらが発表したデータセットで、1400万を超える^[5]^[6]画像が含まれており、さらにそれぞれの画像に写っている物体の種別を示す情報が付与されている。この物体種別は、20,000以上のカテゴリに細分されている^[7]。発表時点で元々存在していた他のデータセットと比較すると、ImageNetのカテゴリ数や画像数はともに約1000倍と桁違いに大きな規模であった^[2]。従来に類を見ない大規模な画像データセットの登場は、2010年台初頭から始まった画像分野のディープラーニングの隆盛の一因になったと評価されている^[8]^[9]^[2]。2024年時点ではさらに大きなデータセットも登場しているが、それでもなお、ディープラーニングにおけるモデルの学習や、性能評価に用いられ続けている。

また、2010年から2017年まで毎年、ImageNetプロジェクトはImageNetデータセットを題材とした、大規模^[1]な画像認識技術コンテストであるILSVRC(the ImageNet Large Scale Visual Recognition Challenge)を開催していた。このコンテストは、ソフトウェアが物体や情景をどれだけ正しく分類、検出できるかを競うものである^[10]。特に2012年のコンテストでディープラーニングを利用したAlexNetが優勝したことが、ディープラーニングという技術が注目される大きなきっかけになったとされている^[7]^[11]^[1]。

歴史・背景

背景

ImageNetが発表される以前は、ほとんどの機械学習の研究が小規模のデータセットがあれば十分なアルゴリズムに依存していた^[2]。特に人が手動で設計した特徴量を用いたり、タスクごとのドメイン知識や事前知識を活用したりするものも多かった^[2]。また、ImageNetと同様に複数のカテゴリの画像を含むデータセットとしては、Caltech101やPascal VOC、TinyImages等のデータセットがあったが、Caltech101やPascal VOCはImageNetと比較すると数千から数万枚と小規模であり^[2]^[12]、TinyImagesについてはそのラベルが正確であるか手動で確認されていないものだった^[13]。

こうした状況の中、AI研究者のフェイフェイ・リーは、大部分のAI研究がモデルとアルゴリズム、特定のタスクに焦点を合わせていることに気づいた^[14]^[15]。一方で彼女は、人間の子どもが実際に見たものをすぐに学んでいくのと同様の学習が、コンピュータにもできるのではないかと仮説を立てたのである^[14]^[16]。そこで、モデルではなくデータに着目し、AIアルゴリズムの学習に利用できるデータセットを拡張、改善したいと考えた^[14]。彼女は2006年にImageNetの実現に取り組み始めた^[15]。WordNetの作成者の1人であるプリンストン大学のChristiane Fellbaum教授と面会した際に、WordNetの単語データベースを元に画像をカテゴライズするという考えの元となるヒントを得たのである^[17]^[16]。リーはプリンストン大学の助教授として、2007年にImageNetプロジェクトに取り組むための研究者チームを編成した^[18]^[14]。

データセットの構築の歴史

2007年にプロジェクトチームを発足させたリー達は、研究助成金の申請が連邦政府に拒否される等、研究の意義が理解されないとともに、金銭的にも厳しい状況に置かれていた^[18]^[2]。前例のない巨大なデータセット構築には様々な課題があった^[19]が、WordNetを用いたカテゴライズやインターネットを利用した画像収集、クラウドソーシングを利用したカテゴライズ作業の実施等の工夫により、大規模データセットの構築を進めた^[20]。構築には約2年半を要し^[18]、チームはフロリダで開催された2009年のConference on Computer Vision and Pattern Recognition（CVPR（英語版））で、初めてデータベースを対外向けにポスターで発表した^[17]^[21]^[22]。

ILSVRC開催以降の歴史

その後、プロジェクトへの注目があまり高まらなかったため、チームはヨーロッパで毎年開催されているVOCチャレンジという画像認識コンペティションに、ImageNetも採用するように提案した^[18]^[14]。2010年からImageNetを用いたコンペティションであるImageNet Large Scale Visual Recognition Challenge（ILSVRC）が始まった^[2]^[23]。このコンペティションは2017年まで毎年実施されており^[23]、ImageNetのデータを分類、検出するタスクを通じて、ImageNetのデータを分類、検出する能力を競うものである^[10]。ILSVRCは、2005年に設立されたPASCAL VOCチャレンジという、より小規模なコンテストの後を継ぐことを目的としたものである^[24]。PASCAL VOCチャレンジには、約20,000枚の画像と20の分類クラスしか含まれていなかった^[12]。ImageNetを開かれたものにするため、フェイフェイ・リーはPASCAL VOCチームに協同することを提案した。この取り組みは、研究チームが特定のデータセットでアルゴリズムを評価し、いくつかの視覚認識タスクでより高い精度を達成するために競争するというもので^[17]、これがILSVRCのはじまりである。ILSVRCには、画像に写る物体のカテゴリを特定するクラス分類、画像に写る特定の1カテゴリの物体の位置を特定するローカライゼーション、画像に写る所定のカテゴリにあてはまる全ての物体の位置を特定する物体検出の3つの部門があった^[25]。

2011年頃には、ILSVRCの分類タスクにおけるTop-5 エラー率は約25％だった^[11]。その後2012年に、AlexNetと呼ばれる深層畳み込みニューラルネットを用いたモデルがTop-5 エラー率約16％を達成した^[11]。さらにそこからの数年間で、Top-5エラー率は数パーセントまで低下した^[26]。2012年のAlexNetのブレイクスルーは「それまでに存在していたものの組み合わせ」^{[注釈 1]}であったが、AlexNetは大量のデータを学習することで劇的な性能改善を図っており、この大量データを学習できるようになる改善は、業界全体で人工知能ブームが始まるきっかけとなった^[7]。これ以降も、2014年に2位の成績を挙げたその非常にシンプルな構成も有名なVGGや、2015年に優勝した、勾配消失問題と呼ばれる大規模なモデルを学習することを阻害する問題への対策を含むResNetなど、後の画像認識に影響を与えるアルゴリズムが登場するコンテストであった^[27]。特に、ResNetはTop-5 エラー率約3.5%という好成績を叩き出し^[28]、ResNetを提案したMicrosoftの研究者チームは、狭いILSVRCタスクにおいては、CNNの認識性能が人間の能力を超えたとも報告した^[29]^[30]^{[注釈 2]}。

2014年までに、のべ80を超える団体がILSVRCに参加した^[11]。 2015年には百度の研究者が、1週間のうちに2回までしかモデルを提出できないという制限を、複数のアカウントを用いることで破ったとして、1年間参加を禁じられた^[32]^[33]。その後百度は、関与したチームリーダーを解雇し、エンジニアに助言する委員会を設置すると発表した^[34]。

2017年には、参加した38チームのうち29チームが95％を超える精度を達成した^[35]。こうしたことから、ImageNetももはやディープラーニング技術の進展を測るベンチマークとしては、データ量が少ないと指摘されることもある^[36]。精度の向上が進み上昇の余地が小さくなってきたことを理由に、2017年を最後に終了することを発表し、同年7月の大会が最後となった^[23]。

データセット

ImageNetのデータセットには、様々な文脈に応じて多くのバリエーションがある^[37]。オリジナルの完全なデータセットは"ImageNet-21K"と呼ばれている^[38]。このデータセットは 14,197,122枚の画像を含み、21,841クラス^{[注釈 3]}に分類されている^[38]。具体的には、「気球(balloon)」や「イチゴ(strawberry)」といった一般によく見られる様々な物体カテゴリが含まれており、それぞれのクラスは通常数百枚の画像で構成されている^[7]。文献によってはクラス数を繰り上げて、"ImageNet-22k"と呼称するものもある^[38]。また、最もよく使われるサブセットの一つは、 "ImageNet Large Scale Visual Recognition Challenge (ILSVRC) 2012-2017 image classification and localization dataset" である^{[注釈 4]}^[41]。このデータセットは、研究によっては "ImageNet-1K" や "ILSVRC2017"、"ImageNet 1K-ILSVRC"と呼ばれることもある^[38]^[42]。このデータセットは、ILSVRC用にクラス数を1000クラスに調整したもので^[43]^[2]^{[注釈 5]}、ImageNet-1Kは 1,281,167 枚の訓練画像と50,000枚の検証画像、100,000枚の評価画像を含んでいる^[41]^[38]。この他にも、プライバシーに配慮し人物の顔が映った画像を個人が特定できないようにしたもの^[42]や、非公式での展開として、ImageNetV2と呼ばれる10,000枚ずつの3種の画像を含む新たなデータセットで、元々のImageNetのデータセットと同じ方法で構築されたものなどがある^[45]。

なお、ImageNetは画像のURLと画像それぞれに対するアノテーションのデータベースを提供しており、ImageNetから直接無料でダウンロードできるが、実際の画像自体はImageNetが所有しているわけではない^[46]。

オリジナル（ImageNet-21K）の構築

ImageNetの構築作業は、データの収集とデータのクリーニングの2つのステップに分かれている^[47]。

データの収集は、WordNetに基づくsynsetと呼ばれる単語が指す概念ごとに行われる^[47]^[13]。WordNetに含まれる類義語での言い換えや他言語への変換も行いながら、検索エンジンを用いてインターネット上から画像を収集する^[47]。synset毎に500~1000枚程度の画像を収集することが最終的な目的であるため、検索エンジンの精度も考慮し10000枚程度の画像を収集する^[47]。

その後、信頼度の低いカテゴライズがなされたデータを取り除くため、クリーニングを実施する。クリーニング作業にかかる工数は膨大で、リーは当初自分の大学に所属する学生にアルバイトを依頼したが、その作業ペースでは完了までに10年単位の時間がかかることや学生は試験などにより作業が想定通りに進まないこともあると気づき、中止したこともある^[48]^[14]。最終的に、データのクリーニングにはAmazonMechanicalTurkと呼ばれる、タスクを完了すると報酬が得られる、クラウドソーシングのプラットフォームが利用された^[17]^[47]^[43]。このプラットフォームを通じて、世界の約49000人の作業者に分担して作業を速やかに完了させることができるようになった^[49]^{[注釈 6]}。このプラットフォームを通じて作業者に、synsetと対応する画像の組を提示し、1枚ごとにそのsynsetに対応するものが映っているかを選択させた^[47]。そして、同じ作業を複数の作業者に割り当て、最終的には多数決的なやり方でその画像に対応するクラスを決めるようにした^[50]。これは、作業者によって判断にブレが生じたり、たまたま偏った認識をしている可能性を排除するためである^[51]。また、作業者が不正に報酬を得るためにランダムに回答することを防ぐため、予め答えがわかっている画像も作業対象に含め、それらに対する正答率が高い作業者の結果のみを採用するなどの工夫もなされている^[14]。

ILSVRC向けのデータの構築

2010年から開始したILSVRCにデータセットを作成・提供するにあたり、大きな問題点が2つあった。一つは、コンペティションの公平な評価をするために、これまでに公開されていない新たな評価用のデータセットを準備することであり、もう一つはコンペティションで性能を測るタスクに応じてデータセットを調整したり、追加のアノテーションをしたりが必要になることである^[12]。一つ目の問題点については、元々のImageNet-21Kを作った際の手順の一部を改めて用いることで解決した^[13]。

二つ目の問題点については、ILSVRCにある3つのクラス分類部門、ローカライゼーション部門、物体検出部門の3つのタスク^[25]ごとに、さらに細分できる。分類とローカライゼーションの学習用データについては、既存のImageNet-21Kをベースにカテゴリの調整を行った約1000クラスのデータセットを作成しており^[43]、これがImageNet-1Kと呼ばれるデータセットにあたる^[52]。クラスを1000クラスに絞っているのは、タスクの目的に適したクラスのみを選定したいことや、アノテーションの難易度などが理由である^[53]。また検出タスクについては、データセットの収集やアノテーションの難易度が高すぎるため、クラス数は200程度に絞りこみ、画像も新たに収集している^[54]。分類やローカライゼーションと異なり、画像を新たに収集したのは、検出タスクでは多数の物体が写り込む中からそれぞれの物体を識別することが求められるため、より雑然とした多様な物体が写る画像が適しているためである^[55]。また、ローカライゼーションや検出タスクでは、従来求められていなかった物体のバウンディングボックス（英語版）^{[注釈 7]}を付与する必要がある^[10]。この作業は画像に写るカテゴリを特定するよりも難しいため、作業効率の低下や品質低下が問題となる^[56]。これらについても、アノテーションを付与したり検査する工程を適切に分割して担当者に割り振ったり、クラス間の関連性も考慮してバウンディングボックスを付与するクラスを指示するなどの工夫を行っている^[57]。

深層学習への貢献

2012年9月30日、 AlexNet^[37]と呼ばれる畳み込みニューラルネットワーク（CNN）が、ILSVRC2012においてトップ5エラー^{[注釈 8]}で16.4%を達成した^[11]。これは、次点のものより約10%程度低い値で、顕著な好成績であった^[11]。エコノミスト誌は、「ディープラーニングは突如として、AIコミュニティに留まらず、テクノロジー業界全体で注目を集めるようになった。」と評している^[7]^[59]^[60]。2015年には、Microsoftが開発した100層を超える非常に層の深いCNNがAlexNetを上回り、ImageNet2015コンテストで優勝した^[29]。こうした大幅な性能向上の理由として、深層学習モデルの構造が発達したことや深層学習モデルの学習で並列計算に用いられるGPUの性能向上が著しいことに加え、深層学習モデルを十分に学習できるImageNetのような大規模データセットが登場したことも挙げられている^[8]^[9]^[2]。

ILSVRCは2017年に終了している^[1]が、ImageNetのデータベースは現在でもモデルやアルゴリズムの性能を比較するためのベンチマークとして画像認識の分野でしばしば利用されている^[61]^[62]。また、大規模モデルの事前学習に活用されている例もある^[38]。

また、ImageNet自体が登場したことによる、深層学習研究への影響も大きい。画像分野ではAlexNetの成功以降、大量のデータを学習させることの重要性が認識されるようになっている^[63]。例えば、ノイズの多いデータセットでも大量にあれば画像分類タスクに高い性能を示すという研究^[64]や、ImageNetの貢献に触発され、ImageNetよりも大きなデータセットを作成し、データセットの大きさと性能の関係性を調査した研究^[65]がなされるなど、より大容量のデータセットに対する研究がますます進んでいる^[16]。また、Medical ImageNetやActivityNetなど、画像分野の関連データセットにもImageNetを意識した命名がされていたり、他分野ではMusicNetと呼ばれるデータセットが登場したりなど、ImageNetが研究を行う上での標準として強く意識されている^[16]。さらに、「自然言語処理にもImageNetの瞬間がやってきた！」^{[注釈 9]}というタイトルのブログ記事が投稿されるなど、大規模なデータセットが成熟したことの象徴のように扱われている例もあると、(Denton et al. 2021, p. 6)は評している。

ImageNetの課題

課題の一つは、WordNetに由来するクラス階層の妥当性である。ImageNetでは、例えば犬に対しては120の犬種のカテゴリで分けられる^[67]など、細かく分類されているが、その欠点としてImageNetに対して本来最適なカテゴリ分けと粒度や階層が合わない可能性があることが挙げられる^[38]^{[注釈 10]}。

また、2019年に行われたImageNetとWordNetに関する様々な観点（分類体系、物体クラス、ラベリング）からの研究により、ほとんどの画像分類アプローチにImageNetやWordNetのデータセットのバイアスが深く埋め込まれていることが示されている^[68]^[69]^[70]^[71]。例えばGoogleの研究者は、2020年に、ImageNetのラベルを新たに付与し直しそのデータセットで複数の画像認識アルゴリズムの性能を評価したところ、性能を改善する効果がアルゴリズムの作成者が主張するものより小さくなったと指摘している^[72]。同時にアルゴリズムの性能向上が、こうしたImageNetのラベルの誤りに対して過学習している可能性も指摘している^[72]。また、1つの画像に複数の物体が写っているケースも多く、それがモデルの性能に影響を与えているという指摘もある^[61]。ImageNetは、こうしたバイアスが生じた原因に対処するための取り組みを進めている^[73]。

さらに、ImageNetの画像がデータ収集過程で顔にぼかしを入れていないというプライバシーの問題もある^[74]。他に、人物の顔画像に対するカテゴリに侮蔑的な表現を含むものがあったことを2019年に明らかにし、そうしたカテゴリを除去したデータセットを新たに公開するといったデータ作成上の課題も表出している^[75]^[76]。

脚注

[脚注の使い方]

注釈

^ 畳み込みニューラルネットワークの概念自体は以前から提案されていたが、計算量の問題や学習データの不足で実用化されていなかった^[9]。
^ ただし、ILSVRCの主催者の1人であるOlga Russakovskyが2015年に指摘したように、機械学習プログラムは1つの画像に対して、1000のカテゴリのうち1つに属するものであると識別するだけで良いのに対し、人間はより多くのカテゴリを認識することができるし、（プログラムとは異なり）画像の文脈を判断することもできる^[31]。
^ 画像認識一般において、認識対象がもつ属性を記号で表したものをクラスと呼ぶ^[39]。カテゴリー、種別と似たような意味。
^ "classification"は画像のカテゴリを特定するタスクで、"localization"は画像中の物体の位置を特定するタスク^[40]^[12]。
^ 例えば元のImageNetデータベースには犬の犬種が120カテゴリに分類されているが、ILSVRCではそのうち90カテゴリだけが使われている^[44]。
^ 平均的なアノテーション作業者は、1分あたり50枚の画像を識別した^[6]。
^ 物体の周囲に外接するような最小の長方形のこと。物体検出に用いられる。
^ モデルが予測した分類カテゴリのうち、予測度の高い上位5クラスのどれかが正解と一致していれば分類に成功したとみなし、それ以外を失敗としたときの認識失敗率のこと^[58]。失敗率であるため、この数値が低ければ低いほど、誤りの少ない良いモデルであるといえる。
^ 原文は、"NLP’s [Natural Language Processing’s] ImageNet moment has arrived,"である^[66]。
^ 例えば、ImageNetには「椅子」と「家具」のラベルが存在しており、椅子が写っている画像に「椅子」のラベルが付与されることもあれば、意味的に親階層にあたる「家具」が付与されることもある^[38]。

出典

^ ^a ^b ^c ^d 斎藤 2016, p. 249.
^ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ ^j Denton et al. 2021, p. 5.
^ Denton et al. 2021, p. 11.
^ “ImageNet”. www.image-net.org. 2024年10月26日閲覧。
^ “New computer vision challenge wants to teach robots to see in 3D”. New Scientist. (7 April 2017) 3 February 2018閲覧。
^ ^a ^b Markoff, John (19 November 2012). “For Web Images, Creating New Technology to Seek and Find”. The New York Times 3 February 2018閲覧。
^ ^a ^b ^c ^d ^e “From not working to neural networking”. The Economist. (25 June 2016) 3 February 2018閲覧。
^ ^a ^b Li Liu (2020). “Deep Learning for Generic Object Detection: A Survey”. International Journal of Computer Vision 128: 265. doi:10.1007/s11263-019-01247-4.
^ ^a ^b ^c Zhao 2019, p. 3213.
^ ^a ^b ^c Russakovsky et al. 2015, p. 214.
^ ^a ^b ^c ^d ^e ^f Russakovsky et al. 2015, p. 228.
^ ^a ^b ^c ^d Russakovsky et al. 2015, p. 213.
^ ^a ^b ^c Russakovsky et al. 2015, p. 212.
^ ^a ^b ^c ^d ^e ^f ^g Hempel, Jesse (13 November 2018). “Fei-Fei Li's Quest to Make AI Better for Humanity”. Wired 5 May 2019閲覧。.
^ ^a ^b Gershgorn 2017, 冒頭.
^ ^a ^b ^c ^d Denton et al. 2021, p. 6.
^ ^a ^b ^c ^d Gershgorn (26 July 2017). “The data that transformed AI research—and possibly the world”. Quartz. Atlantic Media Co.. 26 July 2017閲覧。 “Having read about WordNet's approach, Li met with professor Christiane Fellbaum, a researcher influential in the continued work on WordNet, during a 2006 visit to Princeton.”
^ ^a ^b ^c ^d Gershgorn 2017, What’s ImageNet?.
^ Denton et al. 2021, pp. 5–8.
^ Russakovsky et al. 2015, pp. 214–215.
^ Deng, Jia; Dong, Wei; Socher, Richard; Li, Li-Jia; Li, Kai; Fei-Fei, Li (2009), “ImageNet: A Large-Scale Hierarchical Image Database”, 2009 conference on Computer Vision and Pattern Recognition
^ Li, Fei-Fei, How we're teaching computers to understand pictures 16 December 2018閲覧。
^ ^a ^b ^c 日経Robotics（日経ロボティクス）. “《日経Robo》ImageNet後継コンテスト、中国ベンチャーMalong社が世界トップに”. 日経Robotics（日経ロボティクス）. 2022年1月28日閲覧。
^ Russakovsky et al. 2015, p. 211.
^ ^a ^b Russakovsky et al. 2015, pp. 213–214.
^ Robbins, Martin (6 May 2016). “Does an AI need to make love to Rembrandt's girlfriend to make art?”. The Guardian 22 June 2016閲覧。
^ 斎藤 2016, pp. 250–254.
^ 斎藤 2016, pp. 254.
^ ^a ^b He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2016). “Deep Residual Learning for Image Recognition.”. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR): 770–778. arXiv:1512.03385. doi:10.1109/CVPR.2016.90. ISBN 978-1-4673-8851-1.
^ Markoff, John (10 December 2015). “A Learning Advance in Artificial Intelligence Rivals Human Abilities”. The New York Times 22 June 2016閲覧。
^ Aron, Jacob (21 September 2015). “Forget the Turing test – there are better ways of judging AI”. New Scientist 22 June 2016閲覧。
^ Markoff, John (3 June 2015). “Computer Scientists Are Astir After Baidu Team Is Barred From A.I. Competition”. The New York Times 22 June 2016閲覧。
^ “Chinese search giant Baidu disqualified from AI test”. BBC News. (14 June 2015) 22 June 2016閲覧。
^ “Baidu fires researcher involved in AI contest flap”. PC World. (11 June 2015) 22 June 2016閲覧。
^ Gershgorn, Dave (10 September 2017). “The Quartz guide to artificial intelligence: What is it, why is it important, and should we be afraid?”. Quartz 3 February 2018閲覧。
^ 中山英樹「画像解析関連コンペティションの潮流」『電子情報通信学会誌』第100巻第5号、電子情報通信学会、2017年5月、(377) 373-380、ISSN 09135693、CRID 1520572360426767104。
^ ^a ^b Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffrey E. (June 2017). “ImageNet classification with deep convolutional neural networks”. Communications of the ACM 60 (6): 84–90. doi:10.1145/3065386. ISSN 0001-0782 24 May 2017閲覧。.
^ ^a ^b ^c ^d ^e ^f ^g ^h Ridnik, Tal; Ben-Baruch, Emanuel; Noy, Asaf; Zelnik-Manor, Lihi (5 August 2021). "ImageNet-21K Pretraining for the Masses". arXiv:2104.10972 [cs.CV]。
^ 佐藤敦「安全安心な社会を支える画像認識技術(<特集>企業におけるAI研究の最前線)」『人工知能』第29巻第5号、人工知能学会、2014年、448-455頁、doi:10.11517/jjsai.29.5_448。
^ Salari et al. 2022, p. 135.
^ ^a ^b “ImageNet”. www.image-net.org. 2022年10月19日閲覧。
^ ^a ^b Sasha & Kate 2024, p. 5.
^ ^a ^b ^c Russakovsky et al. 2015, p. 215.
^ Russakovsky et al. 2015, p. 217.
^ Recht, Benjamin; Roelofs, Rebecca; Schmidt, Ludwig; Shankar, Vaishaal (2019-05-24). “Do ImageNet Classifiers Generalize to ImageNet?” (英語). Proceedings of the 36th International Conference on Machine Learning (PMLR): 5389–5400.
^ “ImageNet Overview”. ImageNet. 22 June 2016閲覧。
^ ^a ^b ^c ^d ^e ^f Deng et al. 2009, p. 251.
^ Denton et al. 2021, pp. 7–8.
^ Denton et al. 2021, p. 8.
^ Deng et al. 2009, pp. 251–252.
^ Deng et al. 2009, p. 252.
^ Prabhu & Birhane 2020, p. 2.
^ Russakovsky et al. 2015, pp. 214–215, 219–220.
^ Russakovsky et al. 2015, pp. 219–220.
^ Russakovsky et al. 2015, pp. 219–221.
^ Russakovsky et al. 2015, pp. 215, 218–219.
^ Russakovsky et al. 2015, pp. 218–219, 221–223.
^ 裕雄, 片岡「コンピュータビジョンによる動画認識」『Vision』第31巻第1号、2019年、1頁、doi:10.24636/vision.31.1_1。
^ “Machines 'beat humans' for a growing number of tasks”. Financial Times. (30 November 2017) 3 February 2018閲覧。
^ Gershgorn. “The inside story of how AI got good enough to dominate Silicon Valley”. Quartz. 10 December 2018閲覧。
^ ^a ^b Tsipras, Dimitris; Santurkar, Shibani; Engstrom, Logan; Ilyas, Andrew; Madry, A. (2020). “From ImageNet to Image Classification: Contextualizing Progress on Benchmarks”. ICML.
^ Yun, Sangdoo; Oh, Seong Joon; Heo, Byeongho; Han, Dongyoon; Choe, Junsuk; Chun, Sanghyuk (2021-06). “Re-labeling ImageNet: from Single to Multi-Labels, from Global to Localized Labels”. 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (Nashville, TN, USA: IEEE): 2340. doi:10.1109/CVPR46437.2021.00237. ISBN 978-1-6654-4509-2.
^ Denton et al. 2021, pp. 5–6.
^ Krause, Jonathan; Sapp, Benjamin; Howard, Andrew; Zhou, Howard; Toshev, Alexander; Duerig, Tom; Philbin, James; Fei-Fei, Li (2016), Leibe, Bastian; Matas, Jiri, eds. (英語), The Unreasonable Effectiveness of Noisy Data for Fine-Grained Recognition, 9907, Springer International Publishing, pp. 301–320, doi:10.1007/978-3-319-46487-9_19, ISBN 978-3-319-46486-2 2024年10月23日閲覧。
^ Sun, Chen; Shrivastava, Abhinav; Singh, Saurabh; Gupta, Abhinav (2017-10). Revisiting Unreasonable Effectiveness of Data in Deep Learning Era. IEEE. pp. 843–852. doi:10.1109/ICCV.2017.97. ISBN 978-1-5386-1032-9.
^ “NLP's ImageNet moment has arrived” (英語). The Gradient (2018年7月8日). 2024年10月23日閲覧。
^ Russakovsky et al. 2015, p. 218.
^ “The Viral App That Labels You Isn't Quite What You Think”. Wired. ISSN 1059-1028 22 September 2019閲覧。
^ Wong, Julia Carrie (18 September 2019). “The viral selfie app ImageNet Roulette seemed fun – until it called me a racist slur”. The Guardian. ISSN 0261-3077 22 September 2019閲覧。
^ Crawford (19 September 2019). “Excavating AI: The Politics of Training Sets for Machine Learning”. -. 22 September 2019閲覧。
^ Lyons, Michael (4 September 2020). "Excavating "Excavating AI": The Elephant in the Gallery". arXiv:2009.01215 [cs.CY]。
^ ^a ^b Beyer, Lucas; Hénaff, Olivier J.; Kolesnikov, Alexander; Zhai, Xiaohua; Oord, Aäron van den (2020-06-12). “Are we done with ImageNet?”. arXiv:2006.07159 [cs]. https://arxiv.org/abs/2006.07159.
^ “Towards Fairer Datasets: Filtering and Balancing the Distribution of the People Subtree in the ImageNet Hierarchy”. image-net.org (17 September 2019). 22 September 2019閲覧。
^ Yang, Kaiyu; Yau, Jacqueline; Fei-Fei, Li; Deng, Jia; Russakovsky, Olga (2021-03-14). “A Study of Face Obfuscation in ImageNet”. arXiv:2103.06191 [cs]. https://arxiv.org/abs/2103.06191.
^ “Towards Fairer Datasets: Filtering and Balancing the Distribution of the People Subtree in the ImageNet Hierarchy”. image-net.org. 2022年1月28日閲覧。
^ “巨大写真データセット「ImageNet」で攻撃的・差別的なカテゴリー分類タグ付けが判明し人物写真の半数以上を削除”. GIGAZINE. 2022年1月29日閲覧。

参考文献

Deng, Jia; Dong, Wei; Socher, Richard; Li, Li-Jia; Kai Li; Li Fei-Fei (2009-06). ImageNet: A large-scale hierarchical image database. IEEE. pp. 248–255. doi:10.1109/CVPR.2009.5206848. ISBN 978-1-4244-3992-8.
Denton, Emily; Hanna, Alex; Amironesei, Razvan; Smart, Andrew; Nicole, Hilary (2021-07). “On the genealogy of machine learning datasets: A critical history of ImageNet” (英語). Big Data & Society 8 (2). doi:10.1177/20539517211035955. ISSN 2053-9517.
Dave Gershgorn: “The data that transformed AI research—and possibly the world” (英語). Quartz (2017年7月26日). 2024年10月23日閲覧。
Prabhu, Vinay Uday; Birhane, Abeba (2020). Large image datasets: A pyrrhic win for computer vision?. doi:10.48550/ARXIV.2006.16923. https://arxiv.org/abs/2006.16923.
Russakovsky, Olga; Deng, Jia; Su, Hao; Krause, Jonathan; Satheesh, Sanjeev; Ma, Sean; Huang, Zhiheng; Karpathy, Andrej et al. (2015-12). “ImageNet Large Scale Visual Recognition Challenge” (英語). International Journal of Computer Vision 115 (3): 211–252. doi:10.1007/s11263-015-0816-y. ISSN 0920-5691.
Salari, Aria; Djavadifar, Abtin; Liu, Xiangrui; Najjaran, Homayoun (2022-07-21). “Object recognition datasets and challenges: A review”. Neurocomputing 495: 129–152. doi:10.1016/j.neucom.2022.01.022. ISSN 0925-2312.
Sasha, Luccioni; Kate, Crawford (2024). The Nine Lives of ImageNet: A Sociotechnical Retrospective of a Foundation Dataset and the Limits of Automated Essentialism. DMLR.
Zhao, Zhong-Qiu (2019). “Object Detection with Deep Learning: A Review”. IEEE Transactions on Neural Networks and Learning Systems (IEEE) 30 (11): 3212-3232. arXiv:1807.05511. doi:10.1109/TNNLS.2018.2876865.

斎藤康毅『ゼロから作るDeep Learning : Pythonで学ぶディープラーニングの理論と実装』オライリージャパン、東京、2016年9月。ISBN 978-4-87311-758-4。OCLC 959940370。

外部リンク

公式ウェブサイト

[[Category:データベース]] [[Category:コンピュータビジョンにおけるデータセット]]

[27] 畳み込みニューラルネットワークの概念自体は以前から提案されていたが、計算量の問題や学習データの不足で実用化されていなかった^[9]。

[33] ただし、ILSVRCの主催者の1人であるOlga Russakovskyが2015年に指摘したように、機械学習プログラムは1つの画像に対して、1000のカテゴリのうち1つに属するものであると識別するだけで良いのに対し、人間はより多くのカテゴリを認識することができるし、（プログラムとは異なり）画像の文脈を判断することもできる^[31]。

[42] 画像認識一般において、認識対象がもつ属性を記号で表したものをクラスと呼ぶ^[39]。カテゴリー、種別と似たような意味。

[44] "classification"は画像のカテゴリを特定するタスクで、"localization"は画像中の物体の位置を特定するタスク^[40]^[12]。

[49] 例えば元のImageNetデータベースには犬の犬種が120カテゴリに分類されているが、ILSVRCではそのうち90カテゴリだけが使われている^[44]。

[55] 平均的なアノテーション作業者は、1分あたり50枚の画像を識別した^[6]。

[62] 物体の周囲に外接するような最小の長方形のこと。物体検出に用いられる。

[66] モデルが予測した分類カテゴリのうち、予測度の高い上位5クラスのどれかが正解と一致していれば分類に成功したとみなし、それ以外を失敗としたときの認識失敗率のこと^[58]。失敗率であるため、この数値が低ければ低いほど、誤りの少ない良いモデルであるといえる。

[75] 原文は、"NLP’s [Natural Language Processing’s] ImageNet moment has arrived,"である^[66]。

[77] 例えば、ImageNetには「椅子」と「家具」のラベルが存在しており、椅子が写っている画像に「椅子」のラベルが付与されることもあれば、意味的に親階層にあたる「家具」が付与されることもある^[38]。

[FOOTNOTE斎藤2016249-1] 斎藤 2016, p. 249.

[FOOTNOTEDentonHannaAmironeseiSmart20215-2] ^ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ ^j Denton et al. 2021, p. 5.

[FOOTNOTEDentonHannaAmironeseiSmart202111-3] Denton et al. 2021, p. 11.

[4] “ImageNet”. www.image-net.org. 2024年10月26日閲覧。

[New_Scientist-5] “New computer vision challenge wants to teach robots to see in 3D”. New Scientist. (7 April 2017) 3 February 2018閲覧。

[nytimes_2012-6] Markoff, John (19 November 2012). “For Web Images, Creating New Technology to Seek and Find”. The New York Times 3 February 2018閲覧。

[economist-7] “From not working to neural networking”. The Economist. (25 June 2016) 3 February 2018閲覧。

[detection_survey-8] Li Liu (2020). “Deep Learning for Generic Object Detection: A Survey”. International Journal of Computer Vision 128: 265. doi:10.1007/s11263-019-01247-4.

[FOOTNOTEZhao20193213-9] Zhao 2019, p. 3213.

[FOOTNOTERussakovskyDengSuKrause2015214-10] Russakovsky et al. 2015, p. 214.

[FOOTNOTERussakovskyDengSuKrause2015228-11] ^ ^a ^b ^c ^d ^e ^f Russakovsky et al. 2015, p. 228.

[FOOTNOTERussakovskyDengSuKrause2015213-12] Russakovsky et al. 2015, p. 213.

[FOOTNOTERussakovskyDengSuKrause2015212-13] Russakovsky et al. 2015, p. 212.

[WiredQuest-14] ^ ^a ^b ^c ^d ^e ^f ^g Hempel, Jesse (13 November 2018). “Fei-Fei Li's Quest to Make AI Better for Humanity”. Wired 5 May 2019閲覧。.

[FOOTNOTEGershgorn2017冒頭-15] Gershgorn 2017, 冒頭.

[FOOTNOTEDentonHannaAmironeseiSmart20216-16] Denton et al. 2021, p. 6.

[Gershgorn-17] Gershgorn (26 July 2017). “The data that transformed AI research—and possibly the world”. Quartz. Atlantic Media Co.. 26 July 2017閲覧。 “Having read about WordNet's approach, Li met with professor Christiane Fellbaum, a researcher influential in the continued work on WordNet, during a 2006 visit to Princeton.”

[FOOTNOTEGershgorn2017What’s_ImageNet?-18] Gershgorn 2017, What’s ImageNet?.

[FOOTNOTEDentonHannaAmironeseiSmart20215–8-19] Denton et al. 2021, pp. 5–8.

[FOOTNOTERussakovskyDengSuKrause2015214–215-20] Russakovsky et al. 2015, pp. 214–215.

[21] Deng, Jia; Dong, Wei; Socher, Richard; Li, Li-Jia; Li, Kai; Fei-Fei, Li (2009), “ImageNet: A Large-Scale Hierarchical Image Database”, 2009 conference on Computer Vision and Pattern Recognition

[22] Li, Fei-Fei, How we're teaching computers to understand pictures 16 December 2018閲覧。

[nikkeirobo-23] 日経Robotics（日経ロボティクス）. “《日経Robo》ImageNet後継コンテスト、中国ベンチャーMalong社が世界トップに”. 日経Robotics（日経ロボティクス）. 2022年1月28日閲覧。

[FOOTNOTERussakovskyDengSuKrause2015211-24] Russakovsky et al. 2015, p. 211.

[FOOTNOTERussakovskyDengSuKrause2015213–214-25] Russakovsky et al. 2015, pp. 213–214.

[26] Robbins, Martin (6 May 2016). “Does an AI need to make love to Rembrandt's girlfriend to make art?”. The Guardian 22 June 2016閲覧。

[FOOTNOTE斎藤2016250–254-28] 斎藤 2016, pp. 250–254.

[FOOTNOTE斎藤2016254-29] 斎藤 2016, pp. 254.

[microsoft2015-30] He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2016). “Deep Residual Learning for Image Recognition.”. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR): 770–778. arXiv:1512.03385. doi:10.1109/CVPR.2016.90. ISBN 978-1-4673-8851-1.

[31] Markoff, John (10 December 2015). “A Learning Advance in Artificial Intelligence Rivals Human Abilities”. The New York Times 22 June 2016閲覧。

[32] Aron, Jacob (21 September 2015). “Forget the Turing test – there are better ways of judging AI”. New Scientist 22 June 2016閲覧。

[34] Markoff, John (3 June 2015). “Computer Scientists Are Astir After Baidu Team Is Barred From A.I. Competition”. The New York Times 22 June 2016閲覧。

[35] “Chinese search giant Baidu disqualified from AI test”. BBC News. (14 June 2015) 22 June 2016閲覧。

[36] “Baidu fires researcher involved in AI contest flap”. PC World. (11 June 2015) 22 June 2016閲覧。

[37] Gershgorn, Dave (10 September 2017). “The Quartz guide to artificial intelligence: What is it, why is it important, and should we be afraid?”. Quartz 3 February 2018閲覧。

[38] 中山英樹「画像解析関連コンペティションの潮流」『電子情報通信学会誌』第100巻第5号、電子情報通信学会、2017年5月、(377) 373-380、ISSN 09135693、CRID 1520572360426767104。

[:0-39] Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffrey E. (June 2017). “ImageNet classification with deep convolutional neural networks”. Communications of the ACM 60 (6): 84–90. doi:10.1145/3065386. ISSN 0001-0782 24 May 2017閲覧。.

[IN21K-Pretrain-40] ^ ^a ^b ^c ^d ^e ^f ^g ^h Ridnik, Tal; Ben-Baruch, Emanuel; Noy, Asaf; Zelnik-Manor, Lihi (5 August 2021). "ImageNet-21K Pretraining for the Masses". arXiv:2104.10972 [cs.CV]。

[41] 佐藤敦「安全安心な社会を支える画像認識技術(<特集>企業におけるAI研究の最前線)」『人工知能』第29巻第5号、人工知能学会、2014年、448-455頁、doi:10.11517/jjsai.29.5_448。

[FOOTNOTESalariDjavadifarLiuNajjaran2022135-43] Salari et al. 2022, p. 135.

[IN_download-45] “ImageNet”. www.image-net.org. 2022年10月19日閲覧。

[FOOTNOTESashaKate20245-46] Sasha & Kate 2024, p. 5.

[FOOTNOTERussakovskyDengSuKrause2015215-47] Russakovsky et al. 2015, p. 215.

[FOOTNOTERussakovskyDengSuKrause2015217-48] Russakovsky et al. 2015, p. 217.

[50] Recht, Benjamin; Roelofs, Rebecca; Schmidt, Ludwig; Shankar, Vaishaal (2019-05-24). “Do ImageNet Classifiers Generalize to ImageNet?” (英語). Proceedings of the 36th International Conference on Machine Learning (PMLR): 5389–5400.

[51] “ImageNet Overview”. ImageNet. 22 June 2016閲覧。

[FOOTNOTEDengDongSocherLi2009251-52] ^ ^a ^b ^c ^d ^e ^f Deng et al. 2009, p. 251.

[FOOTNOTEDentonHannaAmironeseiSmart20217–8-53] Denton et al. 2021, pp. 7–8.

[FOOTNOTEDentonHannaAmironeseiSmart20218-54] Denton et al. 2021, p. 8.

[FOOTNOTEDengDongSocherLi2009251–252-56] Deng et al. 2009, pp. 251–252.

[FOOTNOTEDengDongSocherLi2009252-57] Deng et al. 2009, p. 252.

[FOOTNOTEPrabhuBirhane20202-58] Prabhu & Birhane 2020, p. 2.

[FOOTNOTERussakovskyDengSuKrause2015214–215,_219–220-59] Russakovsky et al. 2015, pp. 214–215, 219–220.

[FOOTNOTERussakovskyDengSuKrause2015219–220-60] Russakovsky et al. 2015, pp. 219–220.

[FOOTNOTERussakovskyDengSuKrause2015219–221-61] Russakovsky et al. 2015, pp. 219–221.

[FOOTNOTERussakovskyDengSuKrause2015215,_218–219-63] Russakovsky et al. 2015, pp. 215, 218–219.

[FOOTNOTERussakovskyDengSuKrause2015218–219,_221–223-64] Russakovsky et al. 2015, pp. 218–219, 221–223.

[65] 裕雄, 片岡「コンピュータビジョンによる動画認識」『Vision』第31巻第1号、2019年、1頁、doi:10.24636/vision.31.1_1。

[67] “Machines 'beat humans' for a growing number of tasks”. Financial Times. (30 November 2017) 3 February 2018閲覧。

[68] Gershgorn. “The inside story of how AI got good enough to dominate Silicon Valley”. Quartz. 10 December 2018閲覧。

[MIT_imagenet-69] Tsipras, Dimitris; Santurkar, Shibani; Engstrom, Logan; Ilyas, Andrew; Madry, A. (2020). “From ImageNet to Image Classification: Contextualizing Progress on Benchmarks”. ICML.

[70] Yun, Sangdoo; Oh, Seong Joon; Heo, Byeongho; Han, Dongyoon; Choe, Junsuk; Chun, Sanghyuk (2021-06). “Re-labeling ImageNet: from Single to Multi-Labels, from Global to Localized Labels”. 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (Nashville, TN, USA: IEEE): 2340. doi:10.1109/CVPR46437.2021.00237. ISBN 978-1-6654-4509-2.

[FOOTNOTEDentonHannaAmironeseiSmart20215–6-71] Denton et al. 2021, pp. 5–6.

[72] Krause, Jonathan; Sapp, Benjamin; Howard, Andrew; Zhou, Howard; Toshev, Alexander; Duerig, Tom; Philbin, James; Fei-Fei, Li (2016), Leibe, Bastian; Matas, Jiri, eds. (英語), The Unreasonable Effectiveness of Noisy Data for Fine-Grained Recognition, 9907, Springer International Publishing, pp. 301–320, doi:10.1007/978-3-319-46487-9_19, ISBN 978-3-319-46486-2 2024年10月23日閲覧。

[73] Sun, Chen; Shrivastava, Abhinav; Singh, Saurabh; Gupta, Abhinav (2017-10). Revisiting Unreasonable Effectiveness of Data in Deep Learning Era. IEEE. pp. 843–852. doi:10.1109/ICCV.2017.97. ISBN 978-1-5386-1032-9.

[74] “NLP's ImageNet moment has arrived” (英語). The Gradient (2018年7月8日). 2024年10月23日閲覧。

[FOOTNOTERussakovskyDengSuKrause2015218-76] Russakovsky et al. 2015, p. 218.

[78] “The Viral App That Labels You Isn't Quite What You Think”. Wired. ISSN 1059-1028 22 September 2019閲覧。

[79] Wong, Julia Carrie (18 September 2019). “The viral selfie app ImageNet Roulette seemed fun – until it called me a racist slur”. The Guardian. ISSN 0261-3077 22 September 2019閲覧。

[80] Crawford (19 September 2019). “Excavating AI: The Politics of Training Sets for Machine Learning”. -. 22 September 2019閲覧。

[81] Lyons, Michael (4 September 2020). "Excavating "Excavating AI": The Elephant in the Gallery". arXiv:2009.01215 [cs.CY]。

[Real-82] Beyer, Lucas; Hénaff, Olivier J.; Kolesnikov, Alexander; Zhai, Xiaohua; Oord, Aäron van den (2020-06-12). “Are we done with ImageNet?”. arXiv:2006.07159 [cs]. https://arxiv.org/abs/2006.07159.

[83] “Towards Fairer Datasets: Filtering and Balancing the Distribution of the People Subtree in the ImageNet Hierarchy”. image-net.org (17 September 2019). 22 September 2019閲覧。

[84] Yang, Kaiyu; Yau, Jacqueline; Fei-Fei, Li; Deng, Jia; Russakovsky, Olga (2021-03-14). “A Study of Face Obfuscation in ImageNet”. arXiv:2103.06191 [cs]. https://arxiv.org/abs/2103.06191.

[85] “Towards Fairer Datasets: Filtering and Balancing the Distribution of the People Subtree in the ImageNet Hierarchy”. image-net.org. 2022年1月28日閲覧。

[86] “巨大写真データセット「ImageNet」で攻撃的・差別的なカテゴリー分類タグ付けが判明し人物写真の半数以上を削除”. GIGAZINE. 2022年1月29日閲覧。

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[注釈 1]

[27]

[28]

[29]

[30]

[注釈 2]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[注釈 3]

[注釈 4]

[41]

[42]

[43]

[注釈 5]

[45]

[46]

[47]

[48]

[49]

[注釈 6]

[50]

[51]

[52]

[53]

[54]

[55]

[注釈 7]

[56]

[57]

[注釈 8]

[59]

[60]

[61]

[62]

[63]

[64]

[65]

[注釈 9]

[67]

[注釈 10]

[68]

[69]

[70]

[71]

[72]

[73]

[74]

[75]

[76]

[31]

[39]

[40]

[44]

[58]

[66]

表話編歴標準テストアイテム
パングラムリファレンス実装健全性テストスタンダード・テスト画像（英語版）
人工知能	中国語の部屋チューリングテスト
テレビ（テストパターン）	SMPTEカラーバーインディアンヘッドテストカード（英語版）テストカードF（英語版）フィリップス PM5544（英語版）
プログラミング言語	Hello world クワイン TPKアルゴリズム Man or boy テスト（英語版） Just another Perl ハッカー（英語版）
データ圧縮	カルガリーコーパス（英語版）カンタベリーコーパス（英語版）
3Dコンピュータグラフィックス	コーネルボックススタンフォードバニースタンフォードドラゴン（英語版）ユタ・ティーポット
機械学習	ImageNet MNISTデータベース一覧（英語版）
タイポグラフィ	etaoin shrdlu Hamburgevons Lorem ipsum The quick brown fox jumps over the lazy dog
その他	EICARテストファイル GTUBE ハーバードセンテンス（英語版）レナ北風と太陽トムズ・ダイナー（英語版） SMPTEユニバーサルリーダーユーリオンシェイクダウン Acid3 本日は晴天なり USAFパターン（英語版）