9장. 성능 평가 Last updated: 2023-03-04 15:49:57

1. 분류 문제 평가 Matrix

오차 행렬(Confusion Matrix)

TP : True를 True로 예측한 경우
FP : False를 False로 예측한 경우
FN : True를 False로 예측한 경우
FP : False를 True로 예측한 경우

정확도(Accuracy)

정확도 = 예측 결과가 정답과 동일한 데이터 건수 / 전체 예측 데이터 건수
불균형한 데이터 분포에서 활용에 주의가 필요합니다.

정밀도(Precision)

positive로 예측한 값들 중에 실제로 positive한 값의 비율입니다.
스팸 분류처럼 오 분류를 최소화 해야하는 경우에 활용할 수 있습니다.

Recall(재현율)

암 분류와 같이 오 분류가 있더라도 암을 누락하지 않는 것이 중요한 경우에 활용할 수 있습니다.

[정밀도 vs. 재현율]

정밀도와 재현율은 trade-off 관계가 있어 어느 한쪽이 높아지면 다른 쪽 값은 낮아질 수 밖에 없습니다.
정밀도와 재현율 중 어느 한쪽 값이 매우 높고 다른 쪽 값이 낮으면 활용이 어렵습니다. 두 개의 값을 어느 정도 유지하면서도 그 중에서 중요한 지표 값을 고려해야 합니다.
이렇게 두 개의 값을 고르게 고려하기 위해 개발된 방법이 F1 Score 입니다.

F1 Score

정밀도와 재현율을 함께 고려하기 위해 개발된 방법이다.
F1 Score = 2 x (Precision x Recall) / (Precision + Recall)

민감도(Sensivity)

특이도(Specificity)

ROC Curve

Roc 곡선은 FPR(False Positive Rate)이 변할 때 TPR(True Positive Rate)이 어떻게 변하는 지를 나타내는 곡선이다.
X축은 FRP(=1-Specificity)이고, Y축은 민감도(Sensitivity)이다.
True와 False를 구분하는 Threshold를 낮은 값부터 높은 값으로 변경해 가면서 점을 획득하고 이 점을 이어서 곡선을 그린다.
완벽한 경우 사각형과 동일한 1의 면적을 갖게 되고, 그렇지 못한 경우 1보다 낮은 곡선으로, 가장 나쁜 경우는 두 모서리를 잇는 선으로 삼각형이 되어 0.5의 값을 갖는다.
이진 분류의 예측 성능 측정에서 중요하게 사용되는 지표이다.

AUC

이진 분류의 예측 성능 측정에서 중요하게 사용되는 지표

2. 회귀 문제 평가 Metrix

평균제곱오차(MSE, Mean Square Error)

결정계수(coefficientg of determination)

3. 기계 번역 평가 Metrix

BLUE Score