AI

ROC curve

inthyes 2023. 10. 20. 17:46
머신러닝 모델을 평가할 때 쓰이는 것
  • 재현율(TPR) : 실제 병에 걸린 사람이 양성 판정을 받는 비율 $\frac{TP}{TP+FN}$
  • 특이도(TNR) : 정상인이 음성 판정을 받는 비율 $\frac{TN}{FP+TN}$
  • False positive rate(FPR) == Fall-out = 1-specificity $\frac{FN}{FP+TN}$
  • 정확도(Accuracy): 전체 데이터 중 제대로 분류된 데이터 비율 $\frac{TP+TN}{TP+FP+FN+TN}$
  • 에러율(Error Rate): 전체 데이터 중 제대로 분류되지 않은 데이터 비율 $\frac{FP+FN}{TP+FP+FN+TN}$
  • 정밀도(Precision): Positive로 예측했을 때, 실제로 Positive인 비율 $\frac{TP}{TP+FP}$

정밀도(Precision) & 재현율(Recall)

  • 정밀도 : 분류 모델이 Positive로 판정한 것 중, 실제로 Positive인 샘플의 비율, PPV(Positive Predictive Value)라고도 함. Positive로 검출된 결과가 얼마나 정확한지를 나타냄
  • 재현율 : 실제 Positive 샘플 중 분류 모델이 Positive로 판정한 비율, TPR & Sensitivity라고도 함. 분류모델이 실제 Positive 클래스를 얼마나 빠지지 않고 잘 잡아내는지를 나타냄

ROC Curve

: Fall-out과 recall의 관계를 그린 곡선

  • 커브가 왼쪽 위 모서리에 가까울수록 분류기 성능이 좋다고 판단
  • TPR = 1, FPR = 0인 경우 가장 이상적(Perfect Classification)

AUC(Area Under Curve)

  • ROC curve의 아래 면적
  • 최대값은 1, fall-out에 비해 recall이 클수록 1에 가깝다.

모델의 평가가 좋다 = AUC의 넓이가 넓다.

P-R Curve

: 정밀도 precision와 재현율 recall의 관계를 나타내는 그래프

재현율이 0에 가까울 때 모델 A의 정밀도는 0.9, 모델 B의 정밀도는 1이다.
--> 모델 B에서 Top K의 샘플들은 모두 실제 양성 샘플이고, 모델 A는 몇 개 샘플을 잘못 예측할 가능성이 있다.

P-R Curve의 전체적인 표현을 확인해야 모델에 대한 전면적인 평가가 가능

'AI' 카테고리의 다른 글

train & test & validation data set  (1) 2023.10.21
batch size & epoch & iteration  (0) 2023.10.20
K-Fold Cross Validation  (0) 2023.10.20
Loss Function  (0) 2023.10.20
Entropy  (1) 2023.10.20