デミング回帰
この項目「デミング回帰」は翻訳されたばかりのものです。不自然あるいは曖昧な表現などが含まれる可能性があり、このままでは読みづらいかもしれません。(原文:en: Deming regression) 修正、加筆に協力し、現在の表現をより自然な表現にして下さる方を求めています。ノートページや履歴も参照してください。(2024年8月) |
統計学において、デミング回帰(デミングかいき、英: Deming regression)とは、W・エドワーズ・デミングにちなんで名付けられた2次元データセットへの直線あてはめを行う変数誤差モデルである。単純線形回帰とはことなり、x軸およびy軸両方の観測誤差を考慮するモデルで、総最小自乗法の特殊ケースと考えることができる。
デミング回帰は2つの変数の誤差が独立で正規分布し、かつその分散の比δが既知の場合の最尤推定である[1]。実用上、この比は関連するデータソースから推定されることもあるが、デミング回帰の手続きにおいてこの比の誤差については考慮しない。
デミング回帰の難易度は単純線形回帰と比較してほとんど上がらない。臨床化学において用いられる統計ソフトウェアパッケージのほとんどはデミング回帰を行うことができる。
δ = 1の場合のこのモデルはAdcock (1878)が導入した。任意のδへの一般化はKummell (1879)によりなされた。しかし、このアイデアは50年以上見過され、Koopmans (1936)が再導入したのちDeming (1943)によりさらに広められた。臨床化学および関連分野においてデミングの著書は特に有名となり、同分野ではこの手法はデミング回帰と呼ばれるようになった[2]。
定義
[編集]回帰直線上の「真の」値(yi*, xi*)の計測値(yi, xi)が
のように互いに独立な誤差εおよびηを持ち、分散の比
が既知であるものとする。
実用上、変数xおよびyの分散は未知であることが多く、δの推定は難しい。もしxおよびyの測定方法が同じであればそれらの分散は等しく、δ = 1となる尤度が高い。
このとき、データ点に「もっともよくあてはまる」直線
を求めたい。
デミング回帰では、次の重みつき二乗残差SSRが最小となる直線を求める[3]。
完全な導出はJensen (2007)を参照のこと。
解
[編集]この問題の解は2次標本モーメントにより表わすことができる。すなわち、まず次の統計量を計算する(和はi = 1 ... nについてとるものとする)。
すると、モデルパラメータの最小二乗推定値は以下のように計算できる[4]。
直交回帰
[編集]誤差分散が等しい、すなわちδ = 1の場合には、デミング回帰は直交回帰と一致する。直交回帰ではデータ点から回帰直線への直交距離の二乗和を最小化する。この場合、各データ点を複素平面上の点zj = xj + iyjと表わし、データ点の幾何中心(すなわちデータ点の横軸および縦軸上の位置の平均を取った点)と各データ点との差の二乗和をと書くことにすると[5]、
- S = 0のとき、幾何中心を通るすべての直線が最適直交回帰直線である。
- S ≠ 0のとき、直交回帰直線は幾何中心を通り原点から√Sへのベクトルに平行となる。
直交回帰の三角関数表現は1913年にCoolidgeが発表した[6]。
応用
[編集]平面上に、共線でない3つの点があるとき、これらの点を頂点とする三角形は一意のシュタイナーの内接楕円をもち、この楕円は三角形の各辺にその中点で接する。この楕円の長軸は3つの点の直交回帰直線と一致する[7]。2つのレポーター合成生物学回路のふるまいの観測値をデミング回帰にかけることで細胞の内因ノイズ を定量化することも行われる[8]。
人間が散布図に回帰直線を書くとき、その直線は通常の最小二乗回帰直線よりも直交回帰直線に近い[9]。
ヨーク回帰
[編集]ヨーク回帰は、デミング回帰を拡張してxおよびyの誤差が互いに独立でなく相関を持つ場合を扱えるようにしたものである[10]。
関連項目
[編集]出典
[編集]- ^ Linnet 1993.
- ^ Cornbleet & Gochman 1979.
- ^ Fuller 1987, Ch. 1.3.3.
- ^ Glaister 2001.
- ^ Minda & Phelps 2008, Theorem 2.3.
- ^ Coolidge 1913.
- ^ Minda & Phelps 2008, Corollary 2.4.
- ^ Quarton 2020.
- ^ Ciccione, Lorenzo; Dehaene, Stanislas (August 2021). “Can humans perform mental regression on a graph? Accuracy and bias in the perception of scatterplots”. Cognitive Psychology 128: 101406. doi:10.1016/j.cogpsych.2021.101406.
- ^ York, Derek; Evensen, Norman M.; Martı́nez, Margarita López; De Basabe Delgado, Jonás (2004-02-12). “Unified equations for the slope, intercept, and standard errors of the best straight line”. American Journal of Physics 72 (3): 367–375. doi:10.1119/1.1632486. ISSN 0002-9505 .
参照文献
[編集]- Adcock, R. J. (1878). “A problem in least squares”. The Analyst 5 (2): 53–54. doi:10.2307/2635758. JSTOR 2635758.
- Coolidge, J. L. (1913). “Two geometrical applications of the mathematics of least squares”. The American Mathematical Monthly 20 (6): 187–190. doi:10.2307/2973072. JSTOR 2973072.
- Cornbleet, P.J.; Gochman, N. (1979). “Incorrect Least–Squares Regression Coefficients”. Clinical Chemistry 25 (3): 432–438. doi:10.1093/clinchem/25.3.432. PMID 262186.
- Deming, W. E. (1943). Statistical adjustment of data. Wiley, NY (Dover Publications edition, 1985). ISBN 0-486-64685-8
- Fuller, Wayne A. (1987). Measurement error models. John Wiley & Sons, Inc. ISBN 0-471-86187-1
- Glaister, P. (2001). “Least squares revisited”. The Mathematical Gazette 85: 104–107. doi:10.2307/3620485. JSTOR 3620485.
- Jensen (2007年). “Deming regression, MethComp package”. Steno Diabetes Center. 2024年8月20日閲覧。
- Koopmans, T. C. (1936). Linear regression analysis of economic time series. DeErven F. Bohn, Haarlem, Netherlands
- Kummell, C. H. (1879). “Reduction of observation equations which contain more than one observed quantity”. The Analyst 6 (4): 97–105. doi:10.2307/2635646. JSTOR 2635646.
- Linnet, K. (1993). “Evaluation of regression procedures for method comparison studies”. Clinical Chemistry 39 (3): 424–432. doi:10.1093/clinchem/39.3.424. PMID 8448852 .
- Minda, D.; Phelps, S. (2008). “Triangles, ellipses, and cubic polynomials”. American Mathematical Monthly 115 (8): 679–689. doi:10.1080/00029890.2008.11920581. MR2456092.
- Quarton, T. G. (2020). “Uncoupling gene expression noise along the central dogma using genome engineered human cell lines”. Nucleic Acids Research 48 (16): 9406–9413. doi:10.1093/nar/gkaa668. PMC 7498316. PMID 32810265 .