본문 바로가기

Lecture ML

머신러닝 강좌 #10] 피마 인디언 당뇨병 예측 실습과 마무리

반응형

피마 인디언 당뇨병(Pima Indian Diabetes) 데이터 세트를 이용해 당뇨병 여부를 판단하는 머신러닝 예측 모델을 수립하는 연습을 해보겠습니다.

 

관련 소스는 아래와 같습니다.

 

http://localhost:8888/notebooks/Lecture_ML/Lecture_9_PimaIndian.ipynb

 


이진 분류의 레이블 값이 불균형하게 분포될 경우(즉 0이 매우 많고, 1이 매우 적을 경우 또는 반대의 경우) 단순히 예측 결과와 실제 결과가 일치하는 지표인 정확도만으로는 머신러닝 모델의 예측 성능을 평가할 수 없습니다.

 

오차행렬은 Negative와 Positive값을 가지는 실제 클래스 값과 예측 클래스 값이 True와 False에 따라 TN, FP, FN, TP로 매칭되는 4분면 행렬을 기반으로 예측 성능을 평가합니다. 정확도, 정밀도, 재현율 수치는 TN, FP, FN, TP값을 다양하게 결합해 만들어지며, 이를 통해 분류 모델 예측 성능의 오류가 어떠한 모습으로 발생하는지 알 수 있는 것입니다.

 

정밀도와 재현율은 Positive데이터 세트의 예측 성능에 좀 더 초점을 맞춘 평가 지표입니다. 특히 재현율이 상대적으로 더 중요한 지표인 경우는 암 양성 예측 모델과 같이 실제 Positive양성인 데이터 예측을 Negative로 잘못 판단하게 되면 업무상 큰 영향이 발생하는 경우입니다. 

 

F1스코어는 정밀도와 재현율을 결합한 평가 지표이며, 정밀도와 재현율이 어느 한쪽으로 치우치지 않을 때 높은 지표값을 가지게 됩니다. ROC-AUC는 일반적으로 이진 분류의 성능 평가를 위해 가장 많이 사용되는 지표입니다. AUC(Area Under Curve)값은 ROC곡선 밑의 면적을 구한 것으로서 일반적으로 1에 가까울수록 좋은 수치입니다.

반응형