コンテンツにスキップ

英文维基 | 中文维基 | 日文维基 | 草榴社区

リッジラインプロット

出典: フリー百科事典『ウィキペディア(Wikipedia)』

リッジラインプロット: Ridgeline Plot)は、複数のグループの分布とその差異を視覚化するために使用されるチャートの一種。各グループ毎に互いに重なり合う分布曲線をずらしながら生成される。

片方の軸にグループまたはクラス(離散値)、他方の軸には数値軸があり、グループ毎に描かれる分布曲線の連なりが山の峰が描く稜線(: Ridgeline)に見えることからリッジラインという呼称が使われている。

概要

[編集]
映画の長さと評価点(グループ:リリース年Year)。1940年代以降、映画の時間はやや長くなり、短編映画(Short)の方が評価が高くなりがちな傾向が分かる

リッジラインプロット[1]は、複数のグループ・クラス・カテゴリの数値の分布からなり、分布曲線をずらしながら重ねてプロットされる。経時的な分布の傾向を示したい場合に特に適している。一般的にはカーネル密度推定で推定された密度曲線が使われる(バイオリン図/バイオリンプロット : Violin Plotを半分に切って並べたものと考えてもよい)。

グループ毎の分布もしくは密度曲線のみを扱い、個々のデータ点を識別するが必要なく、また正規分布などの仮定もないため、ビッグデータの可視化に適している。なお、グループが少なすぎる場合は使用が推奨されていない。

分布がどのように変化するかを視覚的に捉えることができる。分布の形の変化のみをとらえたい場合は各グループの密度曲線の面積を同じになるようにする方が好ましい。

バリエーションと経緯

[編集]
様々な配色の例 年間気温推移(グループ:月)

四分位点やパーセンタイル点によって配色したり、グループ毎に、もしくは値による着色を行い変化や分布状態を把握しやすくすることができる。密度曲線の代わりにヒストグラムを使うこともあるが、この場合は隠れてしまうことがあるため重なりを設けないことが多い。また、ラグやジッタプロットを併記することで個別データを可視化することもできるが、データ量が多い場合は避けた方がよい[2]

百科事典に掲載されたPulsarの観測波形(データから復元した画像)

このプロットはやや数奇な経緯をたどって現在に至っている。1967年にアントニー・ヒューイッシュによって初めて発見されたパルサーCP1919[3]からの連続するパルスが重ねられた波形をエレミア・オストライカーサイエンティフィック・アメリカンに投降し掲載[4]、当時PhDのHarold D. Craft, Jr.によってパルサー波形の重ね書きの表現という形で生まれたことになる。その後1977年に天文学のケンブリッジ百科事典[5]に掲載されたが、それをイギリスのロックバンド、ジョイ・ディヴィジョン(: Joy Division)がデビューアルバムUnknown Pleasuresの表紙(w:Unknown Pleasures参照)に採用し、世間に知られることになった[6]。そのためJoyPlotという別名を持つ。しかしながら、バンドの名称の歴史的由来などの理由でこの名前は使わないようにする動きがある。著名な分析言語であるR言語のリッジラインプロットパッケージggjoy開発者であるClaus O. Wilkesは、この観点から、一度Jenny Bryanの2017-04-24のツイートによる提案でJoyPlotという名称を付けリリースしたにもかかわらず、半年後の09-15には撤回、リッジラインプロットとして、更にパッケージ名もggridgesに変更した[7]R言語公式サイトのCRANでもggjoyは非推奨でggridgesに乗り換えるようアナウンスされている[8]

ウォータフォールプロットとの類似性

[編集]

信号処理の分野で多用されている類似のプロットにウォータフォールプロットがある(イベントリ分析や金融系データなどに使用される増加と減少を示す2次元のフローティングカラムダイアグラムである滝グラフ : Waterfall chartとは異なる点に注意。また、同名のウォータフォールプロットとして主に医療系で使用される棒グラフで記述されるプロットもあるがこれも異なるもの)[9]

ウォータフォールプロット(: Waterfall Plot)は、2次元の現象が時間と共にどのように変化するかを可視化するために使用されている。3次元スペクトルウォータフォールプロット(: 3D Spectral Waterfall Plot)は、データ系列の曲線(2次元)が第3軸方向に複数同時に表示されており、手前の曲線が後ろの曲線を覆い隠すように描画されるため、一連の曲線(山)が連なって峰のように見える。連続する時間間隔での信号のスペクトル解析に利用され、スペクトル密度推定曲線が使われることが多い。スペクトログラムまたは累積スペクトル減衰(CSD, : Cumulative Spectral Decay: 音声解析の世界でリバーブ[残響]の減衰スピード可視化に使用される)として用いられる。通常ウォータフォールプロットではz軸を斜めに設定することが多いが、これを単独の信号曲線のy軸と同じ方向にz軸を設定することで両者は類似のプロットになる。ウォータフォールプロットではz軸が連続値から等間隔に値(量的変数)を採用し、その値毎の瞬時波形を曲線としてプロットしているのに対し、リッジラインプロットはデータの群もしくはグループ分けを想定しているため、z軸に不等間隔の離散値もしくはカテゴリ値(質的変数)を主に使っており、かつグループ毎に曲線を算出している[9][10][11]

脚注

[編集]
  1. ^ Claus O. Wilke. “Fundamentals of Data Visualization”. 2022年8月26日閲覧。
  2. ^ Claus O. Wilke (2021年4月6日). “Introduction to ggridges”. 2022年8月26日閲覧。
  3. ^ Hewish, Antony; Bell, S. J.; Pilkington, J. D. H.; Scott, P. F.; Collins, R. A. (1968-02-24). “Observation of a Rapidly Pulsating Radio Source” (PDF). Nature 217 (5130): 709–713. http://www.nature.com/nature/journal/v217/n5130/pdf/217709a0.pdf 2022年8月27日閲覧。. 
  4. ^ Ostriker, Jeremiah P. (1971). The Nature of Pulsars. 224. Scientific American. pp. 48-60 
  5. ^ Simon Mitton, ed (1977). The Cambridge Encyclopaedia of Astronomy. Crown Publishers. ISBN 978-0517528068 
  6. ^ Jen Christiansen (2015年2月18日). “Pop Culture Pulsar: Origin Story of Joy Division’s Unknown Pleasures Album Cover”. 2022年8月26日閲覧。
  7. ^ Claus O. Wilke (2017年9月15日). “Goodbye joyplots”. 2022年8月26日閲覧。 “It’s time to find a better name for the plots formerly known as “joyplots.””
  8. ^ Claus O. Wilke (2018年5月17日). “Introduction to ggjoy”. 2022年8月26日閲覧。
  9. ^ a b Waterfall Plot / Chart: Definition, Types & Examples”. Statistics How To. 2022年8月26日閲覧。
  10. ^ CSD/waterfall & spectrum” (2022年5月18日). 2022年8月26日閲覧。
  11. ^ The Waterfall Plot: What it means and how it is generated”. 2022年8月26日閲覧。