コンテンツにスキップ

利用者:紅い目の女の子/ImageNet

ImageNetは、物体認識ソフトウェアの研究で用いるために設計された大規模な画像データベースである。ImageNetでは、1400万を超える[1][2]画像に手作業でアノテーションを行い、画像にどのような物体が写っているかを示している。また、100万枚以上の画像にバウンディングボックスも付与されている[3]。ImageNetには、20,000を超えるカテゴリがあり、その中には「気球(balloon)」や「イチゴ(strawberry)」といった数百枚の画像で構成される一般的な物体カテゴリも含まれる[4]。2010年から2017年まで、ImageNetプロジェクトは毎年、大規模[5]な画像認識技術コンテストであるILSVRC(the ImageNet Large Scale Visual Recognition Challenge)を開催していた。このコンテストは、ソフトウェアが物体や情景をどれだけ正しく分類、検出できるかを競うものである[6]。チャレンジでは、重複しないように調整された1000個のカテゴリが利用される[7]

深層学習への貢献

[編集]

2012年9月30日、 AlexNet[8]と呼ばれる畳み込みニューラルネットワーク(CNN)が、ILSVRC2012においてトップ5エラー[注釈 1]で16.4%を達成した[10]。これは、次点のものより約10%程度低い値であった[10]。この大幅な性能向上は、モデルの学習にGPUを利用することで実現された。GPUを利用することによる演算能力の向上が、ディープラーニングの飛躍的な性能向上につながった。エコノミストによれば、「ディープラーニングは突如として、AIコミュニティに留まらず、テクノロジー業界全体で注目を集めるようになった。」と評している[4][11][12]

2015年には、Microsoftが開発した100層を超える非常に層の深いCNNがAlexNetを上回り、ImageNet2015コンテストで優勝した[13]

ILSVRCは2017年に終了している[5]が、ImageNetのデータベースは現在でもモデルやアルゴリズムの性能を比較するためのベンチマークとして画像認識の分野でしばしば利用されている[14][15]

データベースの歴史

[編集]

AI研究者のフェイフェイ・リは、2006年にImageNetのアイデアに取り組み始めた。当時、大部分のAI研究がモデルとアルゴリズムに焦点を合わせていた中、LiはAIアルゴリズムの学習に利用できるデータセットを拡張、改善したいと考えていた[16]。2007年に、LiはWordNetの作成者の1人であるプリンストン大学のChristiane Fellbaum教授と面会し、プロジェクトについて話し合った。この議論の結果、LiはWordNetの単語データベースを元に、ImageNetの構築を進めた[17]

プリンストン大学の助教授として、LiはImageNetプロジェクトに取り組むための研究者チームを編成した。彼らはAmazonMechanicalTurkを利用して画像の分類を支援した[17]

彼らは、フロリダで開催された2009年のConference on Computer Vision and Pattern Recognition(CVPR英語版)で、初めてデータベースを対外向けにポスターで発表した[17][18][19]

データセット

[編集]

ImageNetは、アノテーションの工程をクラウドソーシングしている[7]。画像レベルのアノテーションは、「この画像にトラがいる」「この画像にはトラがいない」といった、画像内に特定のクラスのオブジェクトが存在するかどうかを示す。オブジェクトレベルのアノテーションは、示されたオブジェクトの周囲にバウンディングボックスを与える。 ImageNetは、WordNetのカテゴリを使用してオブジェクトを分類している。例えば犬に対しては120の犬種のカテゴリで分けられる[20]など、細かく分類されている。WordNetのカテゴリを使用することの欠点として、ImageNetに対して本来最適なカテゴリ分けよりも高尚なものになっている可能性があることが挙げられる。 2012年、ImageNetはアカデミックユーザーとしてMechanicalTurkを世界で最も利用していた。平均的なアノテーション作業者は、1分あたり50枚の画像を識別した[2]。 ImageNetは画像のURLと画像それぞれに対するアノテーションのデータベースを提供しており、ImageNetから直接無料でダウンロードできるが、実際の画像自体はImageNetが所有しているわけではない[21]

ImageNet Challengeの歴史

[編集]
ImageNetで評価したエラー率の履歴(各年、参加チームの中で性能の良い順に10エントリを抽出)

ImageNet Large Scale Visual Recognition Challenge(ILSVRC)は、2010年から2017年まで毎年実施されていた[22]画像認識コンテストで、アルゴリズムを用いて学習したモデルがImageNetのデータを分類、検出する能力を競うものである[6]。ILSVRCは、2005年に設立されたPASCAL VOCチャレンジという、より小規模なコンテストの後を継ぐことを目的としたものである[23]。PASCAL VOCチャレンジには、約20,000枚の画像と20の分類クラスしか含まれていなかった[24]。ImageNetを開かれたものにするため、Fei-FeiLiはPASCAL VOCチームに協同することを提案した。この取り組みは、研究チームが特定のデータセットでアルゴリズムを評価し、いくつかの視覚認識タスクでより高い精度を達成するために競争するというもので[17]、これがILSVRCのはじまりである。

ILSVRCは、ImageNetの分類体系によって分類された1000の画像カテゴリから構成されるデータセットを使用する[注釈 2][7]。2010年代は、画像処理が劇的に進歩した時期である。2011年頃には、ILSVRCの分類タスクにおけるTop-5 エラー率は約25%だった[10]。その後2012年には、AlexNetと呼ばれる深層畳み込みニューラルネットを用いたモデルがTop-5 エラー率約16%を達成した[10]。さらにそこからの数年間で、Top-5エラー率は数パーセントまで低下した[26]。2012年のAlexNetのブレイクスルーは「それまでに存在していたものの組み合わせ」[注釈 3]であったが、AlexNetは大量のデータを学習することで劇的な性能改善を図っており、この大量データを学習できるようになる改善は、業界全体で人工知能ブームが始まるきっかけとなった[4]。2015年までに、Microsoftの研究者は、狭いILSVRCタスクにおいては、CNNの認識性能が人間の能力を超えたと報告した [13][28]。ただし、ILSVRCの主催者の1人であるOlga Russakovskyが2015年に指摘したように、機械学習プログラムは1つの画像に対して、1000のカテゴリのうち1つに属するものであると識別するだけで良いのに対し、人間はより多くのカテゴリを認識することができるし、(プログラムとは異なり)画像の文脈を判断することもできる[29]

2014年までに、のべ80を超える団体がILSVRCに参加した[30]。 2015年には百度の研究者が、1週間のうちに2回までしかモデルを提出できないという制限を、複数のアカウントを用いることで破ったとして、1年間参加を禁じられた[31][32]。その後百度は、関与したチームリーダーを解雇し、エンジニアに助言する委員会を設置すると発表した[33]

2017年には、参加した38チームのうち29チームが95%を超える精度を達成した[34]。こうしたことから、ImageNetももはや深層学習技術の進展を測るベンチマークとしては、データ量が少ないと指摘されることもある[35]。 精度の向上が進み上昇の余地が小さくなってきたことを理由に、2017年を最後に終了することを発表し、同年7月の大会が最後となった[22]

ImageNetの課題

[編集]

2019年に行われたImageNetとWordNetに関する様々な観点(分類体系、物体クラス、ラベリング)からの研究により、ほとんどの画像分類アプローチにImageNetやWordNetのデータセットのバイアスが深く埋め込まれていることが示されている[36][37][38][39]。例えばGoogleの研究者は、2020年に、ImageNetのラベルを新たに付与し直しそのデータセットで複数の画像認識アルゴリズムの性能を評価したところ、性能を改善する効果がアルゴリズムの作成者が主張するものより小さくなったと指摘している[40]。同時にアルゴリズムの性能向上が、こうしたImageNetのラベルの誤りに対して過学習している可能性も指摘している[40]。また、1つの画像に複数の物体が写っているケースも多く、それがモデルの性能に影響を与えているという指摘もある[14]。ImageNetは、こうしたバイアスが生じた原因に対処するための取り組みを進めている[41]。 また、ImageNetの画像がデータ収集過程で顔にぼかしを入れていないというプライバシーの問題もある[42]。 他に、人物の顔画像に対するカテゴリに侮蔑的な表現を含むものがあったことを2019年に明らかにし、そうしたカテゴリを除去したデータセットを新たに公開するといったデータ作成上の課題も表出している[43]


脚注

[編集]

注釈

[編集]
  1. ^ モデルが予測した分類カテゴリのうち、予測度の高い上位5クラスのどれかが正解と一致していれば分類に成功したとみなし、それ以外を失敗としたときの認識失敗率のこと[9]
  2. ^ 例えば元のImageNetデータベースには犬の犬種が120カテゴリに分類されているが、ILSVRCではそのうち90カテゴリだけが使われている[25]
  3. ^ 畳み込みニューラルネットワークの概念自体は以前から提案されていたが、計算量の問題や学習データの不足で実用化されていなかった[27]

出典

[編集]
  1. ^ “New computer vision challenge wants to teach robots to see in 3D”. New Scientist. (7 April 2017). https://www.newscientist.com/article/2127131-new-computer-vision-challenge-wants-to-teach-robots-to-see-in-3d/ 3 February 2018閲覧。 
  2. ^ a b Markoff, John (19 November 2012). “For Web Images, Creating New Technology to Seek and Find”. The New York Times. https://www.nytimes.com/2012/11/20/science/for-web-images-creating-new-technology-to-seek-and-find.html 3 February 2018閲覧。 
  3. ^ ImageNet Summary and Statistics”. ImageNet. 22 June 2016閲覧。
  4. ^ a b c “From not working to neural networking”. The Economist. (25 June 2016). https://www.economist.com/news/special-report/21700756-artificial-intelligence-boom-based-old-idea-modern-twist-not 3 February 2018閲覧。 
  5. ^ a b 斎藤 康毅 (2016-9). ゼロから作るDeep Learning : Pythonで学ぶディープラーニングの理論と実装. 東京: オライリージャパン. ISBN 978-4-87311-758-4. OCLC 959940370. https://www.worldcat.org/oclc/959940370 
  6. ^ a b Russakovsky et al. 2015, p. 4.
  7. ^ a b c Russakovsky et al. 2015, p. 5.
  8. ^ Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffrey E. (June 2017). “ImageNet classification with deep convolutional neural networks”. Communications of the ACM 60 (6): 84–90. doi:10.1145/3065386. ISSN 0001-0782. https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf 24 May 2017閲覧。. 
  9. ^ 裕雄, 片岡 (2019). “コンピュータビジョンによる動画認識”. Vision 31 (1): 1. doi:10.24636/vision.31.1_1. https://www.jstage.jst.go.jp/article/vision/31/1/31_1/_article/-char/ja/. 
  10. ^ a b c d Russakovsky et al. 2015, p. 19.
  11. ^ “Machines 'beat humans' for a growing number of tasks”. Financial Times. (30 November 2017). https://www.ft.com/content/4cc048f6-d5f4-11e7-a303-9060cb1e5f44 3 February 2018閲覧。 
  12. ^ Gershgorn. “The inside story of how AI got good enough to dominate Silicon Valley”. Quartz. 10 December 2018閲覧。
  13. ^ a b He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2016). “Deep Residual Learning for Image Recognition.”. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR): 770–778. arXiv:1512.03385. doi:10.1109/CVPR.2016.90. ISBN 978-1-4673-8851-1. 
  14. ^ a b Tsipras, Dimitris; Santurkar, Shibani; Engstrom, Logan; Ilyas, Andrew; Madry, A. (2020). “From ImageNet to Image Classification: Contextualizing Progress on Benchmarks”. ICML. https://www.semanticscholar.org/paper/From-ImageNet-to-Image-Classification:-Progress-on-Tsipras-Santurkar/951ddc5c7b50a8e6993b98cf618d956a8ff790a1. 
  15. ^ Yun, Sangdoo; Oh, Seong Joon; Heo, Byeongho; Han, Dongyoon; Choe, Junsuk; Chun, Sanghyuk (2021-06). “Re-labeling ImageNet: from Single to Multi-Labels, from Global to Localized Labels”. 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (Nashville, TN, USA: IEEE): 2340. doi:10.1109/CVPR46437.2021.00237. ISBN 978-1-6654-4509-2. https://ieeexplore.ieee.org/document/9577610/. 
  16. ^ Hempel, Jesse (13 November 2018). “Fei-Fei Li's Quest to Make AI Better for Humanity”. Wired. https://www.wired.com/story/fei-fei-li-artificial-intelligence-humanity/ 5 May 2019閲覧。. 
  17. ^ a b c d Gershgorn (26 July 2017). “The data that transformed AI research—and possibly the world”. Quartz. Atlantic Media Co.. 26 July 2017閲覧。 “Having read about WordNet's approach, Li met with professor Christiane Fellbaum, a researcher influential in the continued work on WordNet, during a 2006 visit to Princeton.”
  18. ^ Deng, Jia; Dong, Wei; Socher, Richard; Li, Li-Jia; Li, Kai; Fei-Fei, Li (2009), “ImageNet: A Large-Scale Hierarchical Image Database”, 2009 conference on Computer Vision and Pattern Recognition, http://www.image-net.org/papers/imagenet_cvpr09.pdf 
  19. ^ Li, Fei-Fei, How we're teaching computers to understand pictures, https://www.ted.com/talks/fei_fei_li_how_we_re_teaching_computers_to_understand_pictures?language=en 16 December 2018閲覧。 
  20. ^ Russakovsky et al. 2015, p. 8.
  21. ^ ImageNet Overview”. ImageNet. 22 June 2016閲覧。
  22. ^ a b 日経Robotics(日経ロボティクス). “《日経Robo》ImageNet後継コンテスト、中国ベンチャーMalong社が世界トップに”. 日経Robotics(日経ロボティクス). 2022年1月28日閲覧。
  23. ^ Russakovsky et al. 2015, p. 1.
  24. ^ Russakovsky et al. 2015, p. 3.
  25. ^ Russakovsky et al. 2015, p. 7.
  26. ^ Robbins, Martin (6 May 2016). “Does an AI need to make love to Rembrandt's girlfriend to make art?”. The Guardian. https://www.theguardian.com/science/2016/may/06/does-an-ai-need-to-make-love-to-rembrandts-girlfriend-to-make-art 22 June 2016閲覧。 
  27. ^ Zhao, Zhong-Qiu (2019). “Object Detection with Deep Learning: A Review”. IEEE Transactions on Neural Networks and Learning Systems (IEEE) 30 (11): 3213. arXiv:1807.05511. doi:10.1109/TNNLS.2018.2876865. 
  28. ^ Markoff, John (10 December 2015). “A Learning Advance in Artificial Intelligence Rivals Human Abilities”. The New York Times. https://www.nytimes.com/2015/12/11/science/an-advance-in-artificial-intelligence-rivals-human-vision-abilities.html 22 June 2016閲覧。 
  29. ^ Aron, Jacob (21 September 2015). “Forget the Turing test – there are better ways of judging AI”. New Scientist. https://www.newscientist.com/article/dn28206-forget-the-turing-test-there-are-better-ways-of-judging-ai/ 22 June 2016閲覧。 
  30. ^ Russakovsky et al. 2015, p. 18.
  31. ^ Markoff, John (3 June 2015). “Computer Scientists Are Astir After Baidu Team Is Barred From A.I. Competition”. The New York Times. https://www.nytimes.com/2015/06/04/technology/computer-scientists-are-astir-after-baidu-team-is-barred-from-ai-competition.html 22 June 2016閲覧。 
  32. ^ “Chinese search giant Baidu disqualified from AI test”. BBC News. (14 June 2015). https://www.bbc.com/news/technology-33005728 22 June 2016閲覧。 
  33. ^ “Baidu fires researcher involved in AI contest flap”. PC World. (11 June 2015). http://www.pcworld.com/article/2935232/baidu-fires-researcher-involved-in-ai-contest-flap.html 22 June 2016閲覧。 
  34. ^ Gershgorn, Dave (10 September 2017). “The Quartz guide to artificial intelligence: What is it, why is it important, and should we be afraid?”. Quartz. https://qz.com/1046350/the-quartz-guide-to-artificial-intelligence-what-is-it-why-is-it-important-and-should-we-be-afraid/ 3 February 2018閲覧。 
  35. ^ 中山英樹 (2017). “画像解析関連コンペティションの潮流” (pdf). 電子情報通信学会誌 100 (5): 377. http://www.nlab.ci.i.u-tokyo.ac.jp/pdf/ieice201705cvcomp.pdf. 
  36. ^ “The Viral App That Labels You Isn't Quite What You Think”. Wired. ISSN 1059-1028. https://www.wired.com/story/viral-app-labels-you-isnt-what-you-think/ 22 September 2019閲覧。 
  37. ^ Wong, Julia Carrie (18 September 2019). “The viral selfie app ImageNet Roulette seemed fun – until it called me a racist slur”. The Guardian. ISSN 0261-3077. https://www.theguardian.com/technology/2019/sep/17/imagenet-roulette-asian-racist-slur-selfie 22 September 2019閲覧。 
  38. ^ Crawford (19 September 2019). “Excavating AI: The Politics of Training Sets for Machine Learning”. -. 22 September 2019閲覧。
  39. ^ Lyons, Michael (4 September 2020). "Excavating "Excavating AI": The Elephant in the Gallery". arXiv:2009.01215 [cs.CY]。
  40. ^ a b Beyer, Lucas; Hénaff, Olivier J.; Kolesnikov, Alexander; Zhai, Xiaohua; Oord, Aäron van den (2020-06-12). “Are we done with ImageNet?”. arXiv:2006.07159 [cs]. http://arxiv.org/abs/2006.07159. 
  41. ^ Towards Fairer Datasets: Filtering and Balancing the Distribution of the People Subtree in the ImageNet Hierarchy”. image-net.org (17 September 2019). 22 September 2019閲覧。
  42. ^ Yang, Kaiyu; Yau, Jacqueline; Fei-Fei, Li; Deng, Jia; Russakovsky, Olga (2021-03-14). “A Study of Face Obfuscation in ImageNet”. arXiv:2103.06191 [cs]. http://arxiv.org/abs/2103.06191. 
  43. ^ Towards Fairer Datasets: Filtering and Balancing the Distribution of the People Subtree in the ImageNet Hierarchy”. image-net.org. 2022年1月28日閲覧。

参考文献

[編集]

関連項目 =

[編集]


外部リンク

[編集]

[[Category:データベース]] [[Category:コンピュータビジョンにおけるデータセット]]