1つの従属変数と1つの独立変数がある線形回帰の例。
線形回帰 (せんけいかいき、英 : linear regression )とは、説明変数(独立変数ともいう)に対して目的変数(従属変数、あるいは反応変数ともいう)が線形 またはそれから近い値で表される状態。線形回帰は統計学 における回帰分析 の一種であり、非線形回帰 と対比される。
線形回帰のうち、説明変数が1つの場合を線形単回帰 (simple linear regression)や単純線形回帰 や単変量線形回帰 (univariate linear regression)、2つ以上の場合を線形重回帰 (multiple linear regression)や多重線形回帰 や多変量線形回帰 (multivariate linear regression)と呼ぶ。単回帰と呼んだ場合、単変量の回帰のことであるが、多くの場合は非線形を含めずに線形単回帰の事を指す。
線形回帰では,データから推定される線形予測関数を用いて関係性がモデル化される。このようなモデルは線形モデルと呼ばれる。
説明変数(または予測変数)に対して目的変数の条件付き期待値 は、アフィン写像 で与えられる。(通常は条件付き期待値だが、条件付メジアン または他の分位数 を用いることもある。)
線形回帰が非線形回帰に比べて用いられる頻度が高いのは、未知のパラメータに線形に依存するモデルの方が、パラメータに非線形に依存するモデルよりもフィッティングが容易で、推定値の統計的性質を決定しやすいためである。
線形回帰が取り扱う範囲は、予測変数の値を与えられた応答の条件付き確率分布 に限る。
全ての変数の同時確率分布 は多変量解析 の領域として、ここでは扱わない。
線形回帰は多くの実用的な用途があり、大まかには以下の二種類の用途に分類される。
○予測、予想、またはエラーの削減を目的とする。
→線形回帰は、応答変数と説明変数の値の観測されたデータセットに予測モデルを適合させるために使用できる。
説明変数の追加値が収集された場合、このモデルから応答変数を予測できる。
○説明変数の変動に起因する応答変数の変動を説明することを目的とする。
→線形回帰分析を適用して、応答と説明変数の関係の強さを定量化できる。
これにより各説明変数が応答と全く線形関係を持たないかどうかを判断したり、説明変数のどのサブセットに応答に関する冗長な情報が含まれているかを特定できる。
線形回帰モデルは多くの場合、最小二乗法を用いてフィッティングされる。
それ以外のフィッティング方法としては、最小絶対値法や、リッジ回帰(L2ノルムペナルティ)やラッソ回帰 (L1ノルムペナルティ)のように、最小二乗コスト関数のペナルティ付きバージョンを最小化する方法などがある。
逆に最小二乗法は、線形モデルではないモデルのフィットにも使用できる。
このように、「最小二乗法」と「線形モデル」という言葉は密接に関連しているが、同義ではない。
線形回帰モデルは、目的変数[ 注釈 1] Y と説明変数[ 注釈 1] X i , i = 1, ..., p および擾乱項[ 注釈 2] ε の関係を以下のようにモデル化したものである。
Y
=
β
0
+
β
1
X
1
+
β
2
X
2
+
⋯
+
β
p
X
p
+
ε
{\displaystyle Y=\beta _{0}+\beta _{1}X_{1}+\beta _{2}X_{2}+\cdots +\beta _{p}X_{p}+\varepsilon \ }
ここで β 0 は切片 (「定数」項)、βi は各々の説明変数の係数 であり、p は説明変数の個数である。線形回帰においては、説明変数の係数および切片の組 {βi }i ∈[0,p ) をパラメタ とするモデルを与える。また、擾乱項 ε は説明変数 X とは独立である。
ベクトル ・行列 記法を用いれば、線形回帰モデルは以下のように表せる。
Y
=
X
β
+
ε
{\displaystyle Y=X\beta +\varepsilon \ }
線形回帰が「線形」であるのは、目的変数 Y が説明変数 X の係数 β に対して線形 であるためである。たとえば
Y
=
β
0
+
β
1
x
+
β
2
x
2
+
ε
{\displaystyle Y=\beta _{0}+\beta _{1}x+\beta _{2}x^{2}+\varepsilon }
という回帰は x に対して明らかに線形ではないが、係数 β に対して線形であるから、線形回帰の問題に分類される。
線形単回帰 (英語版 ) や単純線形回帰や単変量線形回帰の場合、説明変数は1つだけであり回帰パラメタは2つである。上式は以下のようになる。
y
=
a
+
b
x
+
ε
{\displaystyle y=a+bx+\varepsilon \ }
最小二乗法 を使用した場合、
x
¯
{\displaystyle {\bar {x}}}
と
y
¯
{\displaystyle {\bar {y}}}
を
x
i
{\displaystyle x_{i}}
と
y
i
{\displaystyle y_{i}}
の平均としたとき、パラメータ
a
{\displaystyle a}
と
b
{\displaystyle b}
の推定量の
a
^
{\displaystyle {\hat {a}}}
と
b
^
{\displaystyle {\hat {b}}}
は以下のように求まる。
a
^
=
y
¯
−
b
^
x
¯
b
^
=
∑
i
=
1
n
(
x
i
−
x
¯
)
(
y
i
−
y
¯
)
∑
i
=
1
n
(
x
i
−
x
¯
)
2
{\displaystyle {\begin{aligned}{\hat {a}}&={\bar {y}}-{\hat {b}}\,{\bar {x}}\\{\hat {b}}&={\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}\end{aligned}}}
同等な定式化に、線形単回帰を条件付き期待値 のモデルとして陽に表すものがある。
E
(
y
|
x
)
=
α
+
β
x
{\displaystyle {\mbox{E}}(y|x)=\alpha +\beta x\ }
ここで、所与の x に対する y の条件付き確率分布 は擾乱項の確率分布 に一致する。
最小二乗法 はカール・フリードリッヒ・ガウス が1820年代に発展させた。本方法は、擾乱項 εi の振る舞いに次のような仮定をする(ガウス=マルコフ仮定)。
擾乱 εi の期待値 は 0 である
E
[
ε
]
=
0
{\displaystyle E[\varepsilon ]=0}
擾乱 εi は相互に無相関 である(統計的な独立 の仮定よりは弱い)
cov
(
ε
i
,
ε
j
)
=
0
,
i
≠
j
.
{\displaystyle \operatorname {cov} (\varepsilon _{i},\varepsilon _{j})=0,\qquad i\neq j.}
擾乱 εi は等分散 、すなわちみな等しい分散 をもつ(ガウス=マルコフの定理 も参照)
V
[
ε
i
]
=
σ
2
,
∀
i
∈
[
n
]
.
{\displaystyle V[\varepsilon _{i}]=\sigma ^{2},\qquad \forall i\in [n].}
以上の仮定は、最小二乗法がある意味で最適なパラメタの推定量を与えることを保証する。
説明変数の個数が p 個のモデルを考えると、線形回帰によって決定すべきパラメタは係数 β 1 ,..., β p と切片 β 0 の p + 1 個である。目的変数と説明変数の測定結果の組 (yk ; x k 1 ,...,xkp ) を1つのデータとし、n 個のデータを用いた線形回帰は以下のように表すことができる。
[
y
1
y
2
⋮
y
n
]
=
[
1
x
11
x
12
…
x
1
p
1
x
21
x
22
…
x
2
p
⋮
⋮
⋮
⋮
1
x
n
1
x
n
2
…
x
n
p
]
[
β
0
β
1
⋮
β
p
]
+
[
ε
1
ε
2
⋮
ε
n
]
{\displaystyle {\begin{bmatrix}y_{1}\\y_{2}\\\vdots \\y_{n}\end{bmatrix}}={\begin{bmatrix}1&x_{11}&x_{12}&\dots &x_{1p}\\1&x_{21}&x_{22}&\dots &x_{2p}\\\vdots &\vdots &\vdots &&\vdots \\1&x_{n1}&x_{n2}&\dots &x_{np}\end{bmatrix}}{\begin{bmatrix}\beta _{0}\\\beta _{1}\\\vdots \\\beta _{p}\end{bmatrix}}+{\begin{bmatrix}\varepsilon _{1}\\\varepsilon _{2}\\\vdots \\\varepsilon _{n}\end{bmatrix}}}
上記の連立方程式は、目的変数の観測値を n 成分の列ベクトル Y 、説明変数の観測値および切片 β 0 の係数 (=1 ) を n × (p + 1) 行列 X 、回帰パラメタを (p + 1) 成分の列ベクトルβ 、観測ごとの擾乱を n 成分の列ベクトル ε とすれば、行列の記法を用いて以下のように表せる。
Y
=
X
β
+
ε
{\displaystyle Y=\mathbf {X} \beta +\varepsilon }
n = p の場合、回帰パラメタの標準誤差 は算出できない。n が p より小さい場合、パラメタは算出できない。
回帰パラメタの推定量は、
β
^
=
(
X
⊤
X
)
−
1
X
⊤
y
→
{\displaystyle {\widehat {\beta }}=(\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }{\vec {y}}}
で与えられ、ガウス=マルコフの定理 より推定量
β
^
{\displaystyle {\widehat {\beta }}}
は最良線形不偏推定量になる。つまり、任意の線形不偏推定量
β
{\displaystyle \beta }
に対して
V
[
β
]
≥
V
[
β
^
]
{\displaystyle V[\beta ]\geq V[{\widehat {\beta }}]}
が成立する。
回帰の二乗和 SSR は下式で与えられる。
S
S
R
=
∑
(
y
i
^
−
y
¯
)
2
=
β
^
⊤
X
⊤
y
→
−
1
n
(
y
→
⊤
u
→
u
→
⊤
y
→
)
{\displaystyle {{\mathit {SSR}}=\sum {\left({{\hat {y_{i}}}-{\bar {y}}}\right)^{2}}={\hat {\beta }}^{\top }\mathbf {X} ^{\top }{\vec {y}}-{\frac {1}{n}}\left({{\vec {y}}^{\top }{\vec {u}}{\vec {u}}^{\top }{\vec {y}}}\right)}}
ここで
y
¯
=
1
n
∑
y
i
{\displaystyle {\bar {y}}={\frac {1}{n}}\sum y_{i}}
であり
u
→
{\displaystyle {\vec {u}}}
は n × 1 の1ベクトル(各要素が1)である。
項
1
n
y
⊤
u
u
⊤
y
{\displaystyle {\frac {1}{n}}y^{\top }uu^{\top }y}
は
1
n
(
∑
y
i
)
2
{\displaystyle {\frac {1}{n}}(\sum y_{i})^{2}}
と等価である。
誤差の二乗和 ESS は下式で与えられる。
E
S
S
=
∑
(
y
i
−
y
i
^
)
2
=
y
→
⊤
y
→
−
β
^
⊤
X
⊤
y
→
{\displaystyle {{\mathit {ESS}}=\sum {\left({y_{i}-{\hat {y_{i}}}}\right)^{2}}={\vec {y}}^{\top }{\vec {y}}-{\hat {\beta }}^{\top }\mathbf {X} ^{\top }{\vec {y}}}}
二乗和の全和 TSS' は下式で与えられる。
T
S
S
=
∑
(
y
i
−
y
¯
)
2
=
y
→
⊤
y
→
−
1
n
(
y
→
⊤
u
→
u
→
⊤
y
→
)
=
S
S
R
+
E
S
S
{\displaystyle {{\mathit {TSS}}=\sum {\left({y_{i}-{\bar {y}}}\right)^{2}}={\vec {y}}^{\top }{\vec {y}}-{\frac {1}{n}}\left({{\vec {y}}^{\top }{\vec {u}}{\vec {u}}^{\top }{\vec {y}}}\right)={\mathit {SSR}}+{\mathit {ESS}}}}
決定係数 , R ² は下式で与えられる。
R
2
=
S
S
R
T
S
S
=
1
−
E
S
S
T
S
S
{\displaystyle {R^{2}={\frac {\mathit {SSR}}{\mathit {TSS}}}=1-{\frac {\mathit {ESS}}{\mathit {TSS}}}}}
以下では擾乱項εi が互いに独立な平均
0
{\displaystyle 0}
, 分散
σ
2
{\displaystyle \sigma ^{2}}
の正規分布に従うと仮定する。
残差は、観測値とモデルによる予測値の差を表し、以下のように決定される。
ε
→
^
=
y
→
−
X
β
^
{\displaystyle {\hat {\vec {\varepsilon }}}={\vec {y}}-\mathbf {X} {\hat {\beta }}\ }
この時、統計量
S
2
=
ε
→
^
⊤
ε
→
^
n
−
p
−
1
{\displaystyle S^{2}={\frac {{\hat {\vec {\varepsilon }}}{\;}^{\top }{\hat {\vec {\varepsilon }}}}{n-p-1}}}
は分散
σ
2
{\displaystyle \sigma ^{2}}
の不偏推定量(
E
[
S
2
]
=
σ
2
{\displaystyle E[S^{2}]=\sigma ^{2}}
)になる[ 1] 。また、最小二乗推定量
β
^
{\displaystyle {\widehat {\beta }}}
と統計量
S
2
{\displaystyle S^{2}}
について以下が成立することが知られている。証明は久保川(2017)[ 2] や解説記事[ 3] が詳しい。
β
^
{\displaystyle {\widehat {\beta }}}
は多次元正規分布
N
(
β
,
σ
2
(
X
⊤
X
)
−
1
)
{\displaystyle {\mathcal {N}}\left(\beta ,\sigma ^{2}({\boldsymbol {X}}^{\top }{\boldsymbol {X}})^{-1}\right)}
に従う
(
N
−
P
−
1
)
S
2
σ
2
{\displaystyle {\frac {(N-P-1)S^{2}}{\sigma ^{2}}}}
は自由度
n
−
p
−
1
{\displaystyle n-p-1}
の
χ
n
−
p
−
1
2
{\displaystyle \chi _{n-p-1}^{2}}
分布に従う
β
^
{\displaystyle {\widehat {\beta }}}
と
S
2
{\displaystyle S^{2}}
は独立
上記の事実をもとに回帰係数の有意性検定、信頼区間や予測区間を構成できる。
回帰係数の推定量
β
^
i
{\displaystyle {\widehat {\beta }}_{i}}
は正規分布
N
(
β
i
,
σ
2
(
X
⊤
X
)
i
i
−
1
)
{\displaystyle {\mathcal {N}}\left(\beta _{i},\sigma ^{2}({\boldsymbol {X}}^{\top }{\boldsymbol {X}})_{ii}^{-1}\right)}
に従うことから
T
=
β
^
i
−
β
i
(
X
⊤
X
)
i
i
−
1
S
2
{\displaystyle T={\dfrac {{\hat {\beta }}_{i}-\beta _{i}}{\sqrt {({\boldsymbol {X}}^{\top }{\boldsymbol {X}})_{ii}^{-1}S^{2}}}}}
は自由度
n
−
p
−
1
{\displaystyle n-p-1}
の
t
{\displaystyle t}
分布に従う[ 4] 。ここで
(
X
⊤
X
)
i
i
−
1
{\displaystyle ({\boldsymbol {X}}^{\top }{\boldsymbol {X}})_{ii}^{-1}}
は行列
X
⊤
X
{\displaystyle {\boldsymbol {X}}^{\top }{\boldsymbol {X}}}
の第
(
i
+
1
,
i
+
1
)
{\displaystyle (i+1,i+1)}
成分である。(添え字
i
{\displaystyle i}
は0から始まることに注意。)
これより適当な有意水準
α
{\displaystyle \alpha }
で
帰無仮説:
β
i
=
0
{\displaystyle \beta _{i}=0}
対立仮説:
β
i
≠
0
{\displaystyle \beta _{i}\neq 0}
を検定することできる。
値
x
→
=
x
→
0
{\displaystyle {\vec {x}}={\vec {x}}_{0}}
における
100
(
1
−
α
)
%
{\displaystyle 100(1-\alpha )\%}
の信頼区間は下式[ 5] で表される。
x
0
→
β
^
±
t
α
2
,
n
−
p
−
1
x
0
→
(
X
⊤
X
)
−
1
x
0
→
⊤
S
2
{\displaystyle {{\vec {x_{0}}}{\widehat {\beta }}\pm t_{{\frac {\alpha }{2}},n-p-1}{\sqrt {{\vec {x_{0}}}(\mathbf {X} ^{\top }\mathbf {X} )_{}^{-1}{\vec {x_{0}}}^{\top }S^{2}}}}}
同様に値
x
→
=
x
→
0
{\displaystyle {\vec {x}}={\vec {x}}_{0}}
における
100
(
1
−
α
)
%
{\displaystyle 100(1-\alpha )\%}
の予測区間は下式[ 6] で表される。
x
0
→
β
^
±
t
α
2
,
n
−
p
−
1
(
1
+
x
0
→
(
X
⊤
X
)
−
1
x
0
→
⊤
)
S
2
{\displaystyle {{\vec {x_{0}}}{\widehat {\beta }}\pm t_{{\frac {\alpha }{2}},n-p-1}{\sqrt {(1+{\vec {x_{0}}}(\mathbf {X} ^{\top }\mathbf {X} )_{}^{-1}{\vec {x_{0}}}^{\top })S^{2}}}}}
^ a b 回帰分析の分野においては、目的変数をしばしば応答変数 (おうとうへんすう、英 : response variable )とも呼ぶ。説明変数(せつめいへんすう、explanatory variable )は他に様々な名称で呼ばれ、たとえば外生変数 (がいせいへんすう、英 : exogenous variable )、入力変数 (にゅうりょくへんすう、英 : input variable )、予測変数 (よそくへんすう、英 : predictor variable )とも呼ばれる。また、目的変数を従属変数 (じゅうぞくへんすう、英 : dependent variable )、説明変数を独立変数 (どくりつへんすう、英 : independent variable )と対で呼ぶこともあるが、従属/独立といった言葉は数学において多義的に使われがちであるため、使用には注意が必要である。
^ 擾乱項 (じょうらんこう、英 : disturbance term )は雑音項 (ざつおんこう、英 : noise term )、あるいは誤差項 (ごさこう、英 : error term )とも呼ばれる。この「誤差」は回帰モデルの誤差ではなく、測定に伴う誤差を指している。