본문 바로가기
Analysis

머신러닝 평가 지표: 모델 성능의 네 가지 차원

by Pebble`s 2025. 4. 9.

머신러닝 평가 지표: 모델 성능의 네 가지 차원

기계학습 모델을 개발하고 평가할 때 단순히 정확도만으로는 충분하지 않습니다. 특히 불균형 데이터를 다룰 때는 더욱 그렇습니다. 이러한 이유로 데이터 과학자들은 모델의 성능을 다각도로 평가하기 위해 여러 지표를 사용합니다. 오늘은 기계학습에서 가장 중요한 네 가지 평가 지표인 Accuracy(정확도), Precision(정밀도), Recall(재현율), 그리고 F1-score에 대해 알아보겠습니다.

 

평가 지표 예시

Accuracy(정확도): 전체적인 정확성의 척도

정확도는 가장 직관적인 평가 지표로, 모델이 올바르게 예측한 비율을 나타냅니다.

정의

  • 전체 예측 중 올바른 예측의 비율
  • (True Positive + True Negative) / (전체 샘플 수)

특징

  • 이해하기 쉽고 직관적인 지표
  • 균형 잡힌 데이터셋에서는 유용한 지표
  • 불균형 데이터셋에서는 오해의 소지가 있음

예시

스팸 메일 분류기에서 100개의 이메일 중 95개를 올바르게 분류했다면, 정확도는 95%입니다.

Precision(정밀도): 양성 예측의 정확성

정밀도는 모델이 양성으로 예측한 것들 중 실제로 양성인 비율을 측정합니다.

정의

  • 양성으로 예측한 것 중 실제 양성의 비율
  • True Positive / (True Positive + False Positive)

특징

  • 거짓 양성(False Positive)을 최소화하는 것이 중요할 때 유용
  • 높은 정밀도는 양성으로 예측했을 때 높은 신뢰도를 의미

예시

스팸 필터가 스팸으로 분류한 50개의 이메일 중 45개가 실제 스팸이라면, 정밀도는 90%입니다.

Recall(재현율): 실제 양성의 포착 능력

재현율은 실제 양성 중에서 모델이 양성으로 예측한 비율을 측정합니다.

정의

  • 실제 양성 중 양성으로 예측한 비율
  • True Positive / (True Positive + False Negative)

특징

  • 거짓 음성(False Negative)을 최소화하는 것이 중요할 때 유용
  • 양성 사례를 놓치지 않는 것이 중요한 경우에 중요한 지표

예시

실제 스팸 이메일 60개 중 스팸 필터가 45개를 감지했다면, 재현율은 75%입니다.

F1-score: 정밀도와 재현율의 조화 평균

F1-score는 정밀도와 재현율의 균형을 측정하는 지표입니다.

정의

  • 정밀도와 재현율의 조화 평균
  • 2 * (Precision * Recall) / (Precision + Recall)

특징

  • 정밀도와 재현율 사이의 균형을 고려
  • 불균형 데이터셋에서 모델 성능을 평가하는 데 유용
  • 극단적인 값보다는 균형 잡힌 성능을 선호

예시

정밀도가 90%(0.9), 재현율이 75%(0.75)라면, F1-score는 2 * (0.9 * 0.75) / (0.9 + 0.75) = 0.82 또는 82%입니다.

평가 지표 선택의 중요성

상황과 문제에 따라 어떤 평가 지표가 더 중요한지 달라집니다:

  1. 정확도(Accuracy) - 균형 잡힌 데이터셋, 거짓 양성과 거짓 음성의 비용이 유사할 때 적합
  2. 정밀도(Precision) - 거짓 양성의 비용이 높을 때 중요 (예: 스팸 필터링, 정상 이메일이 스팸으로 분류되는 것은 큰 문제)
  3. 재현율(Recall) - 거짓 음성의 비용이 높을 때 중요 (예: 의료 진단, 암을 놓치는 것은 심각한 결과를 초래)
  4. F1-score - 정밀도와 재현율 사이의 균형이 필요할 때, 특히 불균형 데이터셋에서 중요

실제 적용 사례

의료 진단

  • 암 진단: 높은 재현율이 중요 (암을 놓치는 것은 생명을 위협)
  • 하지만 정밀도도 무시할 수 없음 (불필요한 치료는 비용과 고통을 유발)

사기 탐지

  • 금융 사기: 높은 재현율로 실제 사기를 놓치지 않는 것이 중요
  • 동시에 정밀도도 중요 (정상 거래를 사기로 오판하면 고객 불편 초래)

정보 검색

  • 검색 엔진: 정밀도와 재현율의 균형이 중요
  • F1-score가 종합적인 성능 평가에 유용

평가 지표 개선 전략

정확도 개선

  • 더 많은 훈련 데이터 수집
  • 특성 엔지니어링 및 선택
  • 모델 복잡성 조정

정밀도 개선

  • 분류 임계값 상향 조정
  • 거짓 양성을 줄이는 규칙 추가
  • 특성 품질 향상

재현율 개선

  • 분류 임계값 하향 조정
  • 데이터 증강 기법 적용
  • 학습 데이터에서 소수 클래스 가중치 증가

F1-score 개선

  • 정밀도와 재현율의 균형을 맞추는 임계값 찾기
  • 비용 민감 학습 방법 적용
  • 앙상블 방법 활용

결론

기계학습 모델의 성능을 평가할 때는 단일 지표에만 의존하지 말고, 문제의 특성과 목표에 맞는 다양한 지표를 고려해야 합니다. Accuracy, Precision, Recall, F1-score는 각각 모델 성능의 다른 측면을 보여주며, 이들을 종합적으로 분석함으로써 모델의 강점과 약점을 더 명확하게 이해할 수 있습니다.

궁극적으로, 평가 지표의 선택은 비즈니스 목표와 문제의 특성에 따라 달라져야 합니다. 어떤 유형의 오류가 더 큰 비용을 초래하는지, 그리고 어떤 지표가 실제 응용 시나리오에서 더 중요한지를 고려하여 모델을 개발하고 평가해야 합니다.