分散拡大係数

統計学における分散拡大係数（ぶんさんかくだいけいすう、variance inflation factor, VIF）とは、最小二乗回帰分析における多重共線性の深刻さを定量化する。推定された回帰係数の分散(推定値の標準偏差の平方)が、多重共線性のためにどれだけ増加したかを測る指標を提供する。

定義

以下の k 個の独立変数を持った線形モデル(linear model)を考える。

Y = β₀ + β₁ X₁ + β₂ X ₂ + ... + β_k X_k + ε.

推定値 β_j の標準誤差は s²(X^′X)⁻¹ の j+1, j+1 要素の平方根である。ここで、 s は2乗平均平方根誤差（RMSE）である(RMSE² は誤差項の真の分散 $\sigma ^{2}$ の一致推定量である)。X は計画行列である。β_j の推定量の分散は次式で表される。

{\rm {\widehat {var}}}({\hat {\beta }}_{j})={\frac {s^{2}}{(n-1){\widehat {\rm {var}}}(X_{j})}}\cdot {\frac {1}{1-R_{j}^{2}}},

ここで、R_j² は、他の共変量に対する X_j の回帰における決定係数である(目的変数の Y は回帰に含めない)。これにより、係数推定の分散に関していくつかの因子の影響を分離する。

s²: 回帰面のデータの散らばりが大きくなると、係数の推定値の分散が大きくなる。
n: サンプルサイズが大きくなると、係数の推定値の分散が小さくなる。
${\widehat {\rm {var}}}(X_{j})$ : 共変量の分散が大きいと、係数の推定値の分散が小さくなる。

残りの項の 1 / (1 − R_j²) が VIF である。係数の推定の不確かさに影響を与えるほかのすべての因子を反映している。ベクトル X_j が他の共変量に対する X_j の回帰における計画行列の各々の列に対して直交しているとき、 VIF が 1 となる。そうでない場合は、1 より大きくなる。VIF は変量のスケールに対して不変である(VIFを変えずに、定数 c_j によって X_j のスケーリングが可能)。

計算と分析

以下の3ステップにより、k 個の VIF を計算することができる。

ステップ1

最初に、X_iを目的変数とし、他の変数を説明変数とした最小二乗回帰を行う。 _i = 1 であれば、以下のような等式となる。

X_{1}=\alpha _{2}X_{2}+\alpha _{3}X_{3}+\cdots +\alpha _{k}X_{k}+c_{0}+e

ここで、c₀ は定数であり、e は誤差である。

ステップ2

次式により、 ${\hat {\beta }}_{i}$ に対する VIF ファクターを計算する。

\mathrm {VIF_{i}} ={\frac {1}{1-R_{i}^{2}}}

ここで、R²_i はステップ1における回帰の決定係数である。

ステップ3

$\operatorname {VIF} ({\hat {\beta }}_{i})$ の大きさを考慮し、多重共線性の程度を分析する。経験的に、 $\operatorname {VIF} ({\hat {\beta }}_{i})>10$ であれば多重共線性の程度は大きい。ソフトウェアによっては、VIFの逆数である許容誤差を計算する。

解釈

VIF の平方根は、モデル中でその変数が他の予測子と互いに無相関である場合の標準誤差と比べて、どれほどその値が大きいかを示す。

例

ある予測変数の VIF が仮に 5.27(√5.27 = 2.3) とする。これは、この予測変数の係数に対する標準誤差が、他の予測変数に対して互いに無相関であった場合と比べ、 2.3 倍大きいことを意味する。

実装

プログラミング言語 R の car パッケージの "vif" 関数

参考文献

読書案内

Allison, P. D. (1999). Multiple Regression: A Primer. Thousand Oaks, CA: Pine Forge Press. p. 142
Hair, J. F.; Anderson, R.; Tatham, R. L.; Black, W. C. (2006). Multivariate Data Analysis. Upper Saddle River, NJ: Prentice Hall
Kutner, M. H.; Nachtsheim, C. J.; Neter, J. (2004). Applied Linear Regression Models (4th ed.). McGraw-Hill Irwin
Longnecker, M. T.; Ott, R. L. (2004). A First Course in Statistical Methods. Thomson Brooks/Cole. p. 615
Marquardt, D. W. (1970). “Generalized Inverses, Ridge Regression, Biased Linear Estimation, and Nonlinear Estimation”. Technometrics 12 (3): 591–612 [pp. 605–7]. doi:10.1080/00401706.1970.10488699.
Studenmund, A. H. (2006). Using Econometrics: A Practical Guide (5th ed.). Pearson International. pp. 258–259
Zuur, A.F.; Ieno, E.N.; Elphick, C.S (2010). “A protocol for data exploration to avoid common statistical problems”. Methods in Ecology and Evolution 1: 3–14. doi:10.1111/j.2041-210X.2009.00001x.