統計モデル

統計モデル（とうけいモデル、statistical model）は、標本データ（およびより大きな統計的母集団からの類似データ）の生成に関する一連の統計的仮定を具体化した数理モデルである。統計モデルは、データの生成過程をかなり理想化して表現していることが多い^[1]。

統計モデルは通常、1つまたは複数の確率変数と他の非確率変数との間の数学的関係として規定される。統計モデルは「理論の形式的表現」（Herman AdèrによるKenneth Bollenの引用）である^[2]。

すべての統計的仮説検定とすべての統計的推定量は、統計モデルを介して導出される。より一般的には、統計モデルは統計的推論の基礎の一部である。

導入

簡単にいうと、統計モデルとは「ある事象の確率を計算できる」という特別な特徴をもつ統計的仮定（英語版）（または統計的仮定の集合）と考えることができる。例として、2つの普通のサイコロ（6面体）を考える。このサイコロについて、2つの異なる統計的仮定を検討することにする。

最初の統計的仮定：各サイコロにおいて、サイコロの各面（1、2、3、4、5、および6）が現れる確率はいずれも ${\frac {1}{6}}$ である。この仮定から、両方のサイコロの目が 5 になる確率は次のように計算される。

{\frac {1}{6}}\times {\frac {1}{6}}={\frac {1}{36}}

より一般的には、たとえば（1 と 2）、（3 と 3）、（5 と 6）など、あらゆる事象の確率を計算することができる。

もう一つの統計的仮定：各サイコロにおいて、サイコロの目が 5 になる確率は ${\frac {1}{8}}$ である（サイコロに細工が施されているため）。この仮定から、両方のサイコロの目が 5 になる確率は次のように計算される。

{\frac {1}{8}}\times {\frac {1}{8}}={\frac {1}{64}}

しかし、他の面が出る確率は不明であり、自明でない事象の確率を計算することはできない。

最初の統計的仮定は統計モデルと見なされる。この仮定だけで、あらゆる事象の確率を計算できるからである。もう一つの統計的仮定は統計モデルと見なされない。その仮定だけでは、あらゆる事象の確率を計算できないからである。

上記の例では、最初の仮定があれば、ある事象の確率を簡単に計算することができる。しかし、別のいくつかの例では、計算が困難であったり現実的でない場合もある（たとえば、数百万年の計算が必要になる）。統計モデルと見なせる過程であれば、そのような困難は許容される。計算が実用的である必要は無く、理論的に可能であればよい。

形式的定義

数学の用語を用いると、統計モデルは通常、組 $(S,{\mathcal {P}})$ として考えられる。ここで、 $S$ は可能な観測値の集合、つまり標本空間、 ${\mathcal {P}}$ は $S$ 上の確率分布の集合である^[3]。

この定義の背後には、次のような直感がある。観測データを生成する過程によって帰納される「真」の確率分布があると仮定する。 ${\mathcal {P}}$ を用いて、真の分布を適切に近似する分布を含む集合を表す。

${\mathcal {P}}$ に真の分布が含まれている必要はなく、実際にはそうであることはほとんどないことに注意されたい。実際、Burnham と Anderson が述べているように、「モデルは現実の単純化または近似であり、したがって現実のすべてを反映することはない」 ^[4] —それゆえ「すべてのモデルは間違っている（英語版）」ということわざがある。

集合 ${\mathcal {P}}$ は多くの場合パラメータ化され、 ${\mathcal {P}}=\{P_{\theta }:\theta \in \Theta \}$ と表される。ここで、集合 $\Theta$ はモデルのパラメータ（英語版）を定義する。一般に、パラメータ化は、異なるパラメータ値が異なる分布を生じることが要求される。すなわち、 $P_{\theta _{1}}=P_{\theta _{2}}\Rightarrow \theta _{1}=\theta _{2}$ が成立する（単射である）必要がある。この要件を満たすパラメータ化は、識別可能（英語版）であると言う^[3]。

例

子供の集団があり、その集団の中で子供の年齢が一様に分布しているとする。子供の身長は、年齢と確率的（英語版）に関係する。たとえば、子供が 7歳であることがわかれば、その子供の身長が 1.5m である確率に影響する。この関係を次のような線形回帰モデルで定式化することができる。 $\mathrm {height} _{i}=b_{0}+b_{1}\mathrm {age} _{i}+\varepsilon _{i}$ 。ここで、 $b_{0}$ は切片、 $b_{1}$ は伸長を予測するために年齢に乗じるパラメータ、 $\varepsilon _{i}$ は誤差項、 $i$ は子供を識別する添字。この式は、身長が年齢によって予測され、多少の誤差があることを意味している。

許容されるモデルは_、すべてのデータポイントと整合していなければならない。したがって、直線 $\mathrm {height} _{i}=b_{0}+b_{1}\mathrm {age} _{i}$ は、すべてのデータポイントに正確に合う、つまりすべてのデータポイントが直線上に完全に位置するのでなければ、データのモデルを表す式にはなりえない。誤差項 $\varepsilon _{i}$ は、モデルがすべてのデータポイントと適合するように、モデルに含めなければならない。

統計的推論を行うためには、はじめに $\varepsilon _{i}$ に何らかの確率分布を仮定する必要がある。例えば、 $\varepsilon _{i}$ が平均がゼロの独立同分布（i.i.d.）ガウス分布であると仮定できる。この場合、モデルは 3 つのパラメータがある。すなわち、 $b_{0}$ 、 $b_{1}$ 、ガウス分布の分散である。

このモデルは、次のように $(S,{\mathcal {P}})$ の形で形式的に規定することができる。モデルの標本空間 $S$ は、すべての可能な組（年齢、身長）の集合である。 $\theta =(b_{0},b_{1},\sigma ^{2})$ の可能な値のそれぞれが $S$ 上の分布を決定し、その分布を $P_{\theta }$ とする。 $\Theta$ を $\theta$ の全ての可能な値の集合とすると、 ${\mathcal {P}}=\{P_{\theta }:\theta \in \Theta \}$ となる。このパラメータ化は識別可能であり、簡単に確認できる。

この例では、（1） $S$ を指定し、（2） ${\mathcal {P}}$ に関連するいくつかの仮定を立てることでモデルが決定される。仮定は2つであり、身長は年齢の線形関数で近似できることと、近似の誤差が独立同分布のガウス分布に従うことである。これらの仮定は、 ${\mathcal {P}}$ を要求どおり指定するのに十分である。

総論

統計モデルは、数理モデルの特殊なクラスである。統計モデルが他の数学モデルと異なるのは、非決定論的であるという点である。

したがって、数式で規定された統計モデルでは、変数の一部が特定の値を持たず、確率分布を持つ。つまり確率的である。前述の子供の身長の例では $\varepsilon _{i}$ が確率変数であり、この確率変数がなければ、モデルは決定論的なものとなる。

統計モデルは、モデル化されるデータ生成過程が決定論的であっても、しばしば使用される。たとえば、コイントスは原理的には決定論的な過程だが、一般的には確率論的モデルとして（ベルヌーイ過程による）扱われる。

所与のデータ生成過程を表現するために適切な統計モデルを選択することは、時として非常に困難であり、データ生成過程と統計分析の両方の知識が必要になる場合がある。これに関連して、統計学者のデイヴィッド・コックス (en:英語版) は、「対象となる問題から統計モデルへの変換をどのように行うかは、しばしば分析の最も重要な部分となる」と述べている^[1]。

Konishi と Kitagawa によると、統計モデルには3つの目的がある^[5]。

予測
情報の抽出
確率的構造の記述

この3つの目的は、Friendly と Meyer が示した予測、推定、説明と本質的に同じであり^[6]、それぞれ論理的推論の3つの種類、演繹的推論、帰納的推論、仮説的推論に対応するものである。

モデルの次元

${\mathcal {P}}=\{P_{\theta }:\theta \in \Theta \}$ の統計モデル $(S,{\mathcal {P}})$ があるとする。 $\Theta$ が有限の次元を持つとき、モデルは「パラメトリック（英語版）」であるという。自然数 $k$ を用いて、 $\Theta \subseteq \mathbb {R} ^{k}$ と表記する。 $\mathbb {R}$ は実数を表し、原理的には他の集合を用いてもよい。ここで、 $k$ はモデルの次元と呼ばれる。

たとえば、データが単変量ガウス分布から生じると仮定すると、次のように仮定することになる。

{\mathcal {P}}=\left\{P_{\mu ,\sigma }(x)\equiv {\frac {1}{{\sqrt {2\pi }}\sigma }}\exp \left(-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}\right):\mu \in \mathbb {R} ,\sigma >0\right\}

この例では、次元 $k$ は2に等しい。

別の例として、データが点 $(x,y)$ で構成されて直線に沿って分布し、残差が独立同分布のガウス分布（平均ゼロ）に従うと仮定する。こうすることで子供の身長の例で使用したものと同じ統計モデルになる。統計モデルの次元は3で、直線の切片、直線の傾き、残差の分布の分散である（幾何学では、直線の次元は1であることに注意）。

形式的には $\theta \in \Theta$ は $k$ 次元の単一パラメータだが、 $k$ 個の独立なパラメータと見なすこともある。例えば、たとえば、単変量ガウス分布では、 $\theta$ は形式的には2次元の単一パラメータである、平均と標準偏差の2つのパラメータと見なすこともある。

統計モデルは、パラメータ集合 $\Theta$ が無限次元である場合、ノンパラメトリックである。有限次元と無限次元の両方のパラメータを持つ場合、その統計モデルはセミパラメトリック・モデル（英語版）である。形式的には、 $k$ が $\Theta$ の次元数、 $n$ を標本数とすると、セミパラメトリックモデルでもノンパラメトリックモデルでも $\lim _{n\to \infty }k=\infty$ である。また、 $\lim _{n\to \infty }k/n=0$ ならセミパラメトリックであり、そうでなければノンパラメトリックである。

パラメトリックモデルは、最も一般的に使用されている統計モデルである。セミパラメトリックモデルとノンパラメトリックモデルについて、デイヴィッド・コックスは、「これらは一般的に、構造や分布形式の仮定が少ないが、通常は独立性に関する強い仮定を含む」と述べている^[1]。

ネスティッドモデル

第1のモデルのパラメータに制約を加えることで、第1のモデルを第2のモデルに変換できる場合、2つの統計モデルは入れ子（nested）になっている。例えば、すべてのガウス分布の集合は、その中にゼロ平均ガウス分布の集合を入れ子にしている。ゼロ平均分布を得るために、全てのガウス分布の集合の平均を制約する。

次の例として、2次モデル

y=b_{0}+b_{1}x+b_{2}x^{2}+\varepsilon ,\,\varepsilon \sim N(0,\sigma ^{2})

は、その中に線形モデルが入れ子になっている。

y=b_{0}+b_{1}x+\varepsilon ,\,\varepsilon \sim N(0,\sigma ^{2})

ここで、 $b_{2}=0$ となるようにパラメータ $b_{2}$ に制約を加えた。

これらの例では、最初のモデルは2番目のモデルよりも高い次元を持っている（最初の例では、ゼロ平均モデルは次元1を持つ）。これはよくあることだが、常にそうだとは限らない。次元2の正平均ガウス分布の集合は、すべてのガウス分布の集合に入れ子になっている。

モデルの比較

→「モデル選択（英語版）」も参照

統計モデルを比較することは、多くの統計的推論において基本的なことである。実際、Konishi & Kitagawa (2008)(p. 75) は「統計的推論における問題の大部分は、統計的モデリングに関連する問題であると考えることができ、それらは通常、いくつかの統計モデルの比較として定式化される」と述べている。

モデルを比較するための一般的な基準としては、R²（決定係数）、ベイズ因子、赤池情報量規準、尤度比検定とその一般化である相対尤度（英語版）などがある。

条件付き確率モデル

条件付き確率モデル（英: conditional models）は条件付き確率を表現する確率モデルである^[7]。

条件付き確率モデルの確率分布は $p_{\theta }(x|y)$ で表現され、 $y$ はモデルの入力（英: input）とも呼ばれる^[8]。

様々な事象が条件付き確率モデルを用いてモデル化できる。例えば以下が挙げられる：

画像分類器 $p_{\theta }(class|image)$ : 画像で条件付けられた（画像を入力とした）所属クラスの確率を出力
画像生成器 $p_{\theta }(image|class)$ : クラスで条件付けられた（クラスを入力とした）画像の確率を出力

モデルの入力を分布に結びつける（parameterizeする）方法は様々存在する。例として分布にカテゴリカル分布 $Categorical(x;{\boldsymbol {p}})$ を採用し、そのパラメータ ${\boldsymbol {p}}$ を入力のニューラルネットワークによる変換で表現する条件付き確率モデルを考える。これは以下で定式化される：

p_{\theta }(x|y)=Categorical(x;{\boldsymbol {p}}=NeuralNet_{\theta }(y))

脚注

^ ^a ^b ^c Cox 2006
^ Adèr 2008, p. 280
^ ^a ^b McCullagh 2002
^ Burnham & Anderson 2002, §1.2.5
^ Konishi & Kitagawa 2008, §1.1
^ Friendly & Meyer 2016, §11.6
^ "a conditional model pθ(y|x) that approximates the underlying conditional distribution p∗(y|x)" Kingma. (2019). An Introduction to Variational Autoencoders. Foundations and Trends in Machine Learning.
^ "pθ(y|x) ... x is often called the input of the model." Kingma. (2019). An Introduction to Variational Autoencoders. Foundations and Trends in Machine Learning.

参考文献

Davison, A. C. (2008), Statistical Models, Cambridge University Press
“Algebraic statistical models”, Statistica Sinica 17: 1273–1297, (2007)
Freedman, D. A. (2009), Statistical Models, Cambridge University Press
Helland, I. S. (2010), Steps Towards a Unified Basis for Scientific Models and Methods, World Scientific
Kroese, D. P.; Chan, J. C. C. (2014), Statistical Modeling and Computation, Springer
“To explain or to predict?”, Statistical Science 25 (3): 289–310, (2010), arXiv:1101.0891, doi:10.1214/10-STS330

[#1-1] Cox 2006

[2] Adèr 2008, p. 280

[McCullagh-3] McCullagh 2002

[4] Burnham & Anderson 2002, §1.2.5

[5] Konishi & Kitagawa 2008, §1.1

[6] Friendly & Meyer 2016, §11.6

[7] "a conditional model pθ(y|x) that approximates the underlying conditional distribution p∗(y|x)" Kingma. (2019). An Introduction to Variational Autoencoders. Foundations and Trends in Machine Learning.

[8] "pθ(y|x) ... x is often called the input of the model." Kingma. (2019). An Introduction to Variational Autoencoders. Foundations and Trends in Machine Learning.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]