コンテンツにスキップ

英文维基 | 中文维基 | 日文维基 | 草榴社区

特徴抽出

出典: フリー百科事典『ウィキペディア(Wikipedia)』

特徴抽出(とくちょうちゅうしゅつ)とは、教師あり学習統計モデルにおける前処理の一つで、元の学習データから有用な情報を抽出する次元削減の一種である。各入力は元の学習データよりコンパクトな特徴量で構成される。特徴抽出では関連性の高い情報に絞ったデータを入力することで学習モデルの予測精度と意思決定アルゴリズムの性能を大幅に向上し得る。[1][2][3]

特徴抽出は機械学習だけでなく物理学を含むさまざまな科学分野で応用されている。例えば、力学では流体力学におけるレイノルズ数アルキメデス数伝熱におけるヌセルト数などの無次元量がある。また、構造力学の構造解析でも用いられる。[4]

クラスタ解析

[編集]

特徴抽出の応用としてデータセット内の特徴量やサンプル値のクラスタ解析がある。特に行列の分解に基づく特徴抽出は、特徴量の係数に非負制約を課したデータクラスタ解析に広く利用される。例えば、非負値行列因子分解(NMF)[5]、非負値行列三因子分解(NMTF)[6]、非負値テンソル因子分解(NTD)[7][8]などが該当する。上記のアルゴリズムによって抽出された特徴量ベクトルの係数に非負制約を課すことで、部分空間の表現が得られ、異なる因子行列が自然なクラスタ特性を表す。上記の特徴抽出法の拡張利用がいくつかの文献で報告されており、ハードクラスタ解析のための直交制約非負値行列因子分解や、先程挙げたアルゴリズムに内在する問題を克服するための多様体学習などがある。

他にも、複数の相互関連するデータセット間で隠れた共通構造を活用し、共通のクラスタ解析方式を得る特徴抽出アルゴリズムがある。例とえば、複数のデータセットに渡って共通のクラスタ解析を抽出するMCMD法[1]がある。MCMD法は、2種類のクラスラベル(スケール変動クラスタ解析とスケール不変クラスタ解析)を出力するものであり以下のような特徴がある。

  • 欠損情報に対して計算的に堅牢である。
  • 形状およびスケールに基づいた外れ値を取得可能である。
  • 高次元データを効果的に処理可能である。

行列およびテンソルの因子分解は、多視点特徴抽出で一般的に利用される。[9]

予測モデル構築

[編集]

機械学習および統計モデルにおける特徴抽出は、データの特徴を選択、作成、変換、および抽出することを含む。主に既存データからの特徴の作成、欠損または無効な特徴の変換および補完、主成分分析(PCA)、独立成分分析(ICA)、線形判別分析(LDA)などの方法を用いたデータの次元削減、そして重要度や相関行列[10]に基づいてモデル学習のために最も関連性の高い特徴を選択することが含まれる。

特徴には重要度の違いがある。[11] それほど重要でない特徴であっても、モデルに影響を及ぼす場合がある。特徴選択は、特徴の数を減らして、モデルが学習データセットに対して過学習するのを防ぐことができる。[12]

次元の呪いと言い、特徴空間の次元数が多すぎて、効果的なモデルの推定や最適化ができなくなる現象がある。一般的な原因として以下に挙げられるものがある。

  • 特徴テンプレート - 新しい特徴を符号化する代わりに、特徴テンプレートを実装すること。
  • 特徴の組み合わせ - 線形システムでは表現できない組み合わせ。

次元の呪いは、正則化カーネル法特徴選択などの技術を用いることで抑制できる。[13]

関連項目

[編集]

脚注

[編集]
  1. ^ a b Sharma, Shubham; Nayak, Richi; Bhaskar, Ashish (2024-05-01). “Multi-view feature engineering for day-to-day joint clustering of multiple traffic datasets”. Transportation Research Part C: Emerging Technologies 162: 104607. Bibcode2024TRPC..16204607S. doi:10.1016/j.trc.2024.104607. ISSN 0968-090X. 
  2. ^ Shalev-Shwartz, Shai; Ben-David, Shai (2014). Understanding Machine Learning: From Theory to Algorithms. Cambridge: Cambridge University Press. ISBN 9781107057135 
  3. ^ Murphy, Kevin P. (2022). Probabilistic Machine Learning. Cambridge, Massachusetts: The MIT Press (Copyright 2022 Massachusetts Institute of Technology, this work is subject to a Creative Commons CC-BY-NC-ND license). ISBN 9780262046824 
  4. ^ SOLID-LIQUID MIXING IN STIRRED TANKS : Modeling, Validation, Design Optimization and Suspension Quality Prediction (Report). 2021.
  5. ^ Lee, Daniel D.; Seung, H. Sebastian (1999). “Learning the parts of objects by non-negative matrix factorization” (英語). Nature 401 (6755): 788–791. Bibcode1999Natur.401..788L. doi:10.1038/44565. ISSN 1476-4687. PMID 10548103. https://www.nature.com/articles/44565. 
  6. ^ Wang, Hua; Nie, Feiping; Huang, Heng; Ding, Chris (2011). “Nonnegative Matrix Tri-factorization Based High-Order Co-clustering and Its Fast Implementation”. 2011 IEEE 11th International Conference on Data Mining. IEEE. pp. 774–783. doi:10.1109/icdm.2011.109. ISBN 978-1-4577-2075-8. http://dx.doi.org/10.1109/icdm.2011.109 
  7. ^ 非負値テンソル分解(NTF)とも言う。
  8. ^ Lim, Lek-Heng; Comon, Pierre (12 April 2009). "Nonnegative approximations of nonnegative tensors". arXiv:0903.4530 [cs.NA]。
  9. ^ Nayak, Richi; Luong, Khanh (2023). “Multi-aspect Learning” (英語). Intelligent Systems Reference Library 242. doi:10.1007/978-3-031-33560-0. ISBN 978-3-031-33559-4. ISSN 1868-4394. https://doi.org/10.1007/978-3-031-33560-0. 
  10. ^ Feature engineering - Machine Learning Lens”. docs.aws.amazon.com. 2024年3月1日閲覧。
  11. ^ Feature Engineering” (2010年4月22日). 12 November 2015閲覧。
  12. ^ Feature engineering and selection”. Alexandre Bouchard-Côté (October 1, 2009). 12 November 2015閲覧。
  13. ^ Feature engineering in Machine Learning”. Zdenek Zabokrtsky. 4 March 2016時点のオリジナルよりアーカイブ。12 November 2015閲覧。