除外変数バイアス (じょがいへんすうばいあす、omitted-variable bias, OVB)は、統計学 において、統計モデル から関連する変数を除外することで発生するバイアス 。このバイアスの結果、除外された変数の効果を、モデルに含まれた変数の効果に帰してしまう。
より具体的には、回帰分析 において、従属変数の決定要因であり、含まれている独立変数と相関するような変数が省略されているなど、仮定した仕様が正しくない場合に、パラメータ の推定値にあらわれるバイアスのこと。
真の因果関係が次の式で与えられると仮定する。
y
=
a
+
b
x
+
c
z
+
u
{\displaystyle y=a+bx+cz+u}
ここで、
a
,
b
,
c
{\displaystyle a,b,c}
はパラメータ、
y
{\displaystyle y}
は従属変数、
x
,
z
{\displaystyle x,z}
は独立変数、
u
{\displaystyle u}
は誤差項であり、
x
{\displaystyle x}
が
y
{\displaystyle y}
に与える影響(
b
{\displaystyle b}
の推定値)を検討する。
除外変数バイアスが線形回帰 に存在するには、2つの条件が当てはまる必要がある。
除外変数は、従属変数の決定要因である、すなわち真の回帰係数が非ゼロ
除外変数は、独立変数と相関している、すなわち
c
o
v
(
z
,
x
)
{\displaystyle \mathrm {cov} (z,x)}
が非ゼロ)
回帰から
z
{\displaystyle z}
を省略し、
x
{\displaystyle x}
と
z
{\displaystyle z}
の関係が次のようになるとする。
z
=
d
+
f
x
+
e
{\displaystyle z=d+fx+e}
ここで、
d
,
f
{\displaystyle d,f}
はパラメータ、
e
{\displaystyle e}
は誤差項である。
2番目の方程式を最初の方程式に代入すると、
y
=
(
a
+
c
d
)
+
(
b
+
c
f
)
x
+
(
u
+
c
e
)
{\displaystyle y=(a+cd)+(b+cf)x+(u+ce)}
y
{\displaystyle y}
を
x
{\displaystyle x}
のみで回帰する場合、この最後の方程式が推定され、
x
{\displaystyle x}
の回帰係数は実際には
b
+
c
f
{\displaystyle b+cf}
の推定値ということになる。
x
{\displaystyle x}
の
y
{\displaystyle y}
への直接効果
b
{\displaystyle b}
ではなく、間接効果(
x
{\displaystyle x}
の
z
{\displaystyle z}
への効果
f
{\displaystyle f}
と
z
{\displaystyle z}
の
y
{\displaystyle y}
への効果
c
{\displaystyle c}
との積)との和になる。したがって、回帰から変数
z
{\displaystyle z}
を省略することにより、 偏微分 ではなく全微分 を推定したことになる。
c
{\displaystyle c}
も
f
{\displaystyle f}
も非ゼロであれば、両者は異なる。
バイアスの向きは
c
f
{\displaystyle cf}
の正負、バイアスの大きさは
c
f
{\displaystyle cf}
の絶対値によって求められる。
例として、次の形式の線形モデルを考える。
y
i
=
x
i
⊤
β
+
z
i
δ
+
u
i
,
i
=
1
,
⋯
,
n
{\displaystyle y_{i}=\mathbf {x} _{i}^{\top }{\boldsymbol {\beta }}+z_{i}\delta +u_{i},\quad i=1,\cdots ,n}
ここで、
列ベクトル
x
i
{\displaystyle \mathbf {x} _{i}}
は時刻
i
{\displaystyle i}
ないし被験者
i
{\displaystyle i}
で観測された
p
{\displaystyle p}
個の独立変数の値
列ベクトル
β
{\displaystyle {\boldsymbol {\beta }}}
は推定すべき観測不可能な
p
{\displaystyle p}
個のパラメータ(
x
i
{\displaystyle \mathbf {x} _{i}}
の各独立変数の応答係数)
スカラー
z
i
{\displaystyle z_{i}}
は時刻
i
{\displaystyle i}
ないし被験者
i
{\displaystyle i}
で観測されたもう一つの独立変数の値
スカラー
δ
{\displaystyle \delta }
は推定すべき観測不可能なパラメータ(
z
i
{\displaystyle z_{i}}
の応答係数)
u
i
{\displaystyle u_{i}}
は時刻
i
{\displaystyle i}
ないし被験者
i
{\displaystyle i}
に対応する観測不能である誤差項 であり、
x
i
{\displaystyle \mathbf {x} _{i}}
および
z
i
{\displaystyle z_{i}}
を条件として期待値 0 の確率変数の観測不可能な実現値。
y
i
{\displaystyle y_{i}}
は時刻
i
{\displaystyle i}
ないし被験者
i
{\displaystyle i}
で観測された従属変数
i
=
1
,
⋯
,
n
{\displaystyle i=1,\cdots ,n}
と添え字のついた全ての変数の観測値を集め、それらを積み重ねて、行列 X とベクトル y 、z 、u を得る。
X
=
[
x
1
⊤
⋮
x
n
⊤
]
∈
R
n
×
p
{\displaystyle \mathbf {X} =\left[{\begin{array}{c}\mathbf {x} _{1}^{\top }\\\vdots \\\mathbf {x} _{n}^{\top }\end{array}}\right]\in \mathbb {R} ^{n\times p}}
と
y
=
[
y
1
⋮
y
n
]
,
z
=
[
z
1
⋮
z
n
]
,
u
=
[
u
1
⋮
u
n
]
∈
R
n
×
1
{\displaystyle \mathbf {y} =\left[{\begin{array}{c}y_{1}\\\vdots \\y_{n}\end{array}}\right],\quad \mathbf {z} =\left[{\begin{array}{c}z_{1}\\\vdots \\z_{n}\end{array}}\right],\quad \mathbf {u} =\left[{\begin{array}{c}u_{1}\\\vdots \\u_{n}\end{array}}\right]\in \mathbb {R} ^{n\times 1}}
独立変数 z が回帰から省略されている場合、他の独立変数の応答係数の推定値は、通常の最小二乗 計算によって与えられる。
β
^
=
(
X
⊤
X
)
−
1
X
⊤
y
{\displaystyle {\widehat {\boldsymbol {\beta }}}=(\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }\mathbf {y} }
ここで、
⊤
{\displaystyle \top }
記号は行列の転置 を意味し、-1の上付き文字は逆行列 を表す。
仮定された線形モデルに基づいて y を代入すると、
β
^
=
(
X
⊤
X
)
−
1
X
⊤
(
X
β
+
z
δ
+
u
)
=
(
X
⊤
X
)
−
1
X
⊤
X
β
+
(
X
⊤
X
)
−
1
X
⊤
z
δ
+
(
X
⊤
X
)
−
1
X
⊤
u
=
β
+
(
X
⊤
X
)
−
1
X
⊤
z
δ
+
(
X
⊤
X
)
−
1
X
⊤
u
{\displaystyle {\begin{aligned}{\widehat {\boldsymbol {\beta }}}&=(\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }(\mathbf {X} {\boldsymbol {\beta }}+\mathbf {z} \delta +\mathbf {u} )\\&=(\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }\mathbf {X} {\boldsymbol {\beta }}+(\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }\mathbf {z} \delta +(\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }\mathbf {u} \\&={\boldsymbol {\beta }}+(\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }\mathbf {z} \delta +(\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }\mathbf {u} \end{aligned}}}
u
{\displaystyle \mathbf {u} }
は
X
{\displaystyle \mathbf {X} }
とは相関しないので、期待最終項は期待値には影響しない。残りの項を整理すると
E
(
β
^
∣
X
)
=
β
+
(
X
⊤
X
)
−
1
E
(
X
⊤
z
∣
X
)
δ
=
β
+
bias
{\displaystyle {\begin{aligned}\mathbb {E} \left({\widehat {\boldsymbol {\beta }}}\mid \mathbf {X} \right)&={\boldsymbol {\beta }}+(\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbb {E} \left(\mathbf {X} ^{\top }\mathbf {z} \mid \mathbf {X} \right)\delta \\&={\boldsymbol {\beta }}+{\text{bias}}\end{aligned}}}
右辺第2項が除外変数バイアスであり、除外変数 z が行列 X に含まれる変数のいずれかと相関している場合(
X
⊤
z
≠
0
{\displaystyle \mathbf {X} ^{\top }\mathbf {z} \neq \mathbf {0} }
の場合)非ゼロである。
ガウス-マルコフの定理 は、古典的な線形回帰モデルの仮定を満たす回帰モデルが、最も効率的で線形で不偏な推定量を提供すると述べている。通常の最小二乗法では、古典的な線形回帰モデルの関連する仮定は、誤差項が回帰子と無相関であるということである。
除外変数バイアスの存在は、この仮定に反するので、通常の最小二乗法による推定値にバイアスがかかり、一貫性が失われる。バイアスの方向は、推定量や、回帰子と除外された変数の間の共分散に依存する。 除外変数が回帰変数や従属変数と共分散が正の時、係数の推定値は真の値よりも大きくなる。