頻度分析

頻度分析（ひんどぶんせき）とは、文章や会話中における各々の文字の頻出傾向の度合を分析することである。頻度解析とも。各々の言語の特性を知る上でも重要な分析である。初歩的なサイファー・単一換字式暗号などの解読にも用いられる。※暗号解読法としての頻度分析は「頻度分析 (暗号)」を参照。

概要

キンディーによるコーランの研究から始まった^[2]。

英語においては、普通文ではe、t、a、o、i、nなどの順で頻出する文字として知られている。逆にj、k、q、x、zなどは頻出しない傾向がある。

右に具体例を列挙する。英語版Wikipediaトップページが解析対象である。画像に含まれる文字以外を全て解析対象とした。タグ等は含まない。大文字小文字の区別はしていない。有効数字二桁以降切り捨て。

母音は頻出する傾向にある。あまり使われない子音は殆ど登場しないのが図表からわかる。単語的なレベルからみると、a,theなどの冠詞などが頻繁に登場する。of,to,inなども頻出する。このような文法的特性は日本語でも同じである。

しかしこれはあくまで統計的なことで、意図的にeが全く使われなかったアーネスト・ヴィンセント・ライトの『ギャズビー』やジョルジュ・ペレックの『煙滅（英語版）』（フランス語）など、極端な文章も存在する。

→詳細は「頻度分析 (暗号)」を参照

単一換字式暗号は頻度分析で容易に解読される。より高度な暗号解読も頻度分析が手がかりになる。頻出する文字、しない文字の文法的な特性などを高度に鑑みて解読していく。

キーボードの配列を決定する際に各言語の文字の出現頻度を分析することで、各指で打鍵の頻度が極端に変わらないようにしたり、小指側に出現頻度の低い文字を配置するなど指への負担を考慮した配列を作成することが可能となる。

Dvorak配列はアルファベットの出現頻度と相関性を分析し、英文入力に特化して設計された。

日本語では新JIS配列や親指シフトが日本語の出現頻度を考慮して設計された。