利用者:Br3kyokyo/コサイン類似度

データ分析において、コサイン類似度は内積空間において定義される二つの非零ベクトルの類似度の指標である。コサイン類似度は、二つのベクトルのなす角度のコサイン値であり、つまり、二つのベクトルのドット積をその大きさの積で割ったものである。したがって、コサイン類似度はベクトルの大きさには依存せず、その角度にのみ依存する。コサイン類似度は常に区間 $[-1,1]$ の値をとる。例えば、二つの比例関係にあるベクトルのコサイン類似度は1であり、直交するベクトルの類似度は0、反対方向のベクトルの類似度は-1である。ベクトルの要素が負の値になり得ない状況においては、コサイン類似度は $[0,1]$ の値を取る。

情報検索やテキストマイニングの文脈においては、各単語には異なる座標が割り当てられ、文書はその文書内での各単語の出現回数のベクトルによって表される。コサイン類似度は二つの文書が、文書の長さとは無関係に、主題に関してどの程度類似しているかについての有用な指標を与える。^[1]

この技術は、データマイニングの分野でクラスタ内の凝集度を測定するためにも使用される。^[2]

コサイン類似度の利点の一つとしては、計算複雑性が低く、特に疎なベクトルについてはゼロでない属性についてのみ考慮すれば良いという点が挙げられる。

コサイン類似度の別名としては、Orchini類似度や、Tucker合同係数などがあり、大塚-落合類似度はバイナリデータに対して適用されるコサイン類似度である。　

出典

^ Singhal, Amit (2001). "Modern Information Retrieval: A Brief Overview". Bulletin of the IEEE Computer Society Technical Committee on Data Engineering 24 (4): 35–43.
^ P.-N. Tan, M. Steinbach & V. Kumar, Introduction to Data Mining, Addison-Wesley (2005), ISBN 0-321-32136-7, chapter 8; page 500.

[[Category:データ分析]]

[1] Singhal, Amit (2001). "Modern Information Retrieval: A Brief Overview". Bulletin of the IEEE Computer Society Technical Committee on Data Engineering 24 (4): 35–43.

[2] P.-N. Tan, M. Steinbach & V. Kumar, Introduction to Data Mining, Addison-Wesley (2005), ISBN 0-321-32136-7, chapter 8; page 500.

[1]

[2]

関連項目

出典