統計学および機械学習の評価指標

データサイエンス > 統計学、機械学習 > 統計学および機械学習の評価指標

統計学および機械学習の評価指標（とうけいがくおよびきかいがくしゅうのひょうかしひょう）では統計学および（教師ありの）機械学習の評価指標について述べる。

回帰に対する評価指標

以下のものがある^[1]^[2]^[3]。観測値を $y=\left\{y_{1},\ y_{2},\ \cdots ,\ y_{N}\right\}$ 、推定値を ${\hat {y_{i}}}=\left\{{\hat {y_{1}}},\ {\hat {y_{2}}},\ \cdots ,\ {\hat {y_{N}}}\right\}$ と表す。これらの評価指標は代表的なPythonのオープンソース機械学習ライブラリscikit-learnではmetricsモジュールに実装されており、評価指標を計算する関数を併記する。


略称	名称（英語）	名称（日本語）	定義	scikit-learnのmetricsモジュールでの関数
MSE	Mean Squared Error	平均二乗誤差	${1 \over N}\sum _{i=1}^{N}(y_{i}-{\hat {y_{i}}})^{2}$	mean_squared_error(y_true,y_pred)
RMSE	Root Mean Squared Error	二乗平均平方根誤差	${\sqrt {{1 \over N}\sum _{i=1}^{N}(y_{i}-{\hat {y_{i}}})^{2}}}$	np.root(mean_squared_error(y_true,y_pred))
MAE	Mean Absolute Error	平均絶対誤差	${1 \over N}\sum _{i=1}^{N}\|y_{i}-{\hat {y_{i}}}\|$	mean_absolute_error(y_true,y_pred)
MAPE	Mean Absolute Percentage Error	平均絶対誤差率	${1 \over N}\sum _{i=1}^{N}{\frac {\|y_{i}-{\hat {y_{i}}}\|}{y_{i}}}$
RMSPE	Root Mean Squared Percentage Error	平均二乗パーセント誤差の平方根	${\sqrt {{1 \over N}\sum _{i=1}^{N}\left({\frac {y_{i}-{\hat {y_{i}}}}{y_{i}}}\right)^{2}}}$
RMSLE	Root Mean Squared Logarithmic Error		${\sqrt {{1 \over N}\sum _{i=1}^{N}(\log(y_{i}+1)-\log({\hat {y_{i}}}+1))^{2}}}$	mean_squared_log_error(y_true,y_pred)
$R^{2}$	coefficient of determination	決定係数	$1-{\sum _{i=1}^{N}(y_{i}-{\hat {y_{i}}})^{2} \over \sum _{i=1}^{N}(y_{i}-{\bar {y}})^{2}}$ 、ここで ${\bar {y}}={1 \over N}\sum _{i=1}^{N}y_{i}$	r2_score(y_true,y_pred)

ただし、決定係数は上に挙げたものの他に7種類の定義が知られている。

→詳細は「決定係数」を参照

二値分類

混同行列

→詳細は「混同行列」を参照

		実際の値
		正	負
予測値	正	真陽性 True Positive(TP)	偽陽性 False Positive(FP)
	負	偽陰性 False Negative(FN)	真陰性 True Negative(TN)

scikit-learnではmetricsモジュールの「confusion_matrix(y_true, y_pred)」。

各種指標

以下のものがある^[4]^[5]^[6]^[7]^[8]：

			実際の値
			総数		割合
			正	負	正	負
予測値	総数	正	真陽性 True Positive(TP)	偽陽性 False Positive(FP) 第一種の過誤	陽性適中率(Positive Prediction Value、PPV) 適合率(Precision) ${TP \over TP+FP}$	偽発見率（英語版）(False Discovery Rate、FDR) ${FP \over TP+FP}$
	総数	負	偽陰性 False Negative(FN) 第二種の過誤	真陰性 True Negative(TN)	False Omission Rate (FOR) ${FN \over FN+TN}$	陰性適中率(Negative Predictive Value 、NPV) ${TN \over FN+TN}$
	割合	正	真陽性率(True Positive Rate 、TPR)、再現率(Recall)、感度(Sensitivity)、Hit Rate ${TP \over TP+FN}$	偽陽性率(False Positive Rate 、FPR)、 Fall-out ${FP \over FP+TN}$
	割合	負	偽陰性率(False Negative Rate、FNR)、Miss Rate ${FN \over TP+FN}$	真陰性率(True Negative Rate 、TNR)、特異性(Specificity)、 Selectivity ${TN \over FP+TN}$

scikit-learnではmetricsモジュールの下記の関数を呼び出すことで計算可能：

適合率：precision_score(y_true, y_pred)
再現率：recall_score(y_true, y_pred)


名称	名称（英語）	定義	直観的意味、備考	scikit-learnのmetricsモジュールでの関数
検査前確率	Pre-test Probability	${TP+FN \over TP+FN+FP+FN}$	全データにおける正例の割合。医学では「有病割合」(Prevalence)とも呼ばれる
精度	Accuracy	${TP+TN \over TP+TN+FP+FN}$	予測が正解したものの割合。「正解率」とも呼ばれる。	accuracy_score(y_true, y_pred)
誤分類率	classification error rate	$1-\mathrm {Accuracy}$
	balanced accuracy (BA)	${\frac {TPR+TNR}{2}}$
スレットスコア	Threat score(TS)	${TP \over TP+FN+FP}$	「重要成功指数」(Critical Success Index、CSI)とも呼ばれる。精度の分母からTNを削ったもの。正例に比べ負例が極端多い場合、TNは大きな値になるため精度よりも有効な指標となる。
$F β$ 値	$F β$ -rate	${1+\beta ^{2} \over {\beta ^{2} \over \mathrm {recall} }+{1 \over \mathrm {precision} }}={(1+\beta ^{2})\mathrm {recall} \cdot \mathrm {presicion} \over \mathrm {recall} +\beta ^{2}\mathrm {presicion} }$	適合率と再現率の重み付き調和平均。特に $β=1$ のケースである $F 1$ 値がよく使われる。 $F_{1}={\frac {TP}{TP+{\frac {FP+FN}{2}}}}$ であり、分母にTNがないので、スレットスコアと同様、正例に比べ負例が極端多い場合、有効な指標となる。	fbeta_score() f1_score()
	Markedness (MK)	$PPV+NPV-1$	「deltaP」とも呼ばれる
	Bookmaker Informedness (BM)	$TPR+TNR-1$	単に「Informedness」とも呼ばれる。「deltaP'」とも呼ばれる。
-	マシューズ相関係数(Matthews Correlation Coefficient 、MCC)	${TP\cdot TN-FP\cdot FN \over {\sqrt {(TP+FP)(TP+FN)(TN+FP)(TN+FN)}}}$	不均衡なデータに対しても性能を適切に評価できる指標。	matthews_corrcoef()
-	Fowlkes–Mallows index(FM)	${\sqrt {{\frac {TP}{TP+FP}}\cdot {\frac {TP}{TP+FN}}}}={\sqrt {PPV\cdot TPR}}$
-	Prevalence Threshold (PT)	${\frac {{\sqrt {TPR(-TNR+1)}}+TNR-1}{(TPR+TNR-1)}}$
陽性尤度比	Positive likelihood ratio(LR+)	${FPR \over TPR}$	LR+= ${TP/FP \over (TP+FN)/(FP+TN)}$ =検査後オッズ/検査前オッズが成立する。
陰性尤度比	Negative likelihood ratio(LR−)	${FNR \over TNR}$
診断オッズ比（英語版）	Diagnostic odds ratio(DOR)	${LR+ \over LR-}$
交差エントロピー	cross entropy	$-{1 \over N}\sum _{i}^{N}y_{i}\log p_{i}+(1-y_{i})\log(1-p_{i})$	log損失(log loss)とも。 $y i$ は $i$ 番目のデータが正例なら1、負例なら0、 $p i$ は予測器が正例だと予測した確信度∈[0,1]。	log_loss()