9장. 성능 평가 Last updated: 2023-03-04 15:49:57
TP : True를 True로 예측한 경우
FP : False를 False로 예측한 경우
FN : True를 False로 예측한 경우
FP : False를 True로 예측한 경우
정확도 = 예측 결과가 정답과 동일한 데이터 건수 / 전체 예측 데이터 건수
불균형한 데이터 분포에서 활용에 주의가 필요합니다.
positive로 예측한 값들 중에 실제로 positive한 값의 비율입니다.
스팸 분류처럼 오 분류를 최소화 해야하는 경우에 활용할 수 있습니다.
암 분류와 같이 오 분류가 있더라도 암을 누락하지 않는 것이 중요한 경우에 활용할 수 있습니다.
[정밀도 vs. 재현율]
정밀도와 재현율은 trade-off 관계가 있어 어느 한쪽이 높아지면 다른 쪽 값은 낮아질 수 밖에 없습니다.
정밀도와 재현율 중 어느 한쪽 값이 매우 높고 다른 쪽 값이 낮으면 활용이 어렵습니다. 두 개의 값을 어느 정도 유지하면서도 그 중에서 중요한 지표 값을 고려해야 합니다.
이렇게 두 개의 값을 고르게 고려하기 위해 개발된 방법이 F1 Score 입니다.
정밀도와 재현율을 함께 고려하기 위해 개발된 방법이다.
F1 Score = 2 x (Precision x Recall) / (Precision + Recall)
Roc 곡선은 FPR(False Positive Rate)이 변할 때 TPR(True Positive Rate)이 어떻게 변하는 지를 나타내는 곡선이다.
X축은 FRP(=1-Specificity)이고, Y축은 민감도(Sensitivity)이다.
True와 False를 구분하는 Threshold를 낮은 값부터 높은 값으로 변경해 가면서 점을 획득하고 이 점을 이어서 곡선을 그린다.
완벽한 경우 사각형과 동일한 1의 면적을 갖게 되고, 그렇지 못한 경우 1보다 낮은 곡선으로, 가장 나쁜 경우는 두 모서리를 잇는 선으로 삼각형이 되어 0.5의 값을 갖는다.
이진 분류의 예측 성능 측정에서 중요하게 사용되는 지표이다.
이진 분류의 예측 성능 측정에서 중요하게 사용되는 지표