728x90
반응형

평가지표: 머신러닝 모델의 성능 측정 핵심 기법

1. 개요

  • 머신러닝 모델의 성능을 객관적으로 측정하기 위한 평가지표(Evaluation Metrics)는 모델 개발 및 선택 과정에서 필수적인 요소임.
  • 평가지표는 모델의 목적과 특성에 따라 크게 예측모델(회귀)용과 분류모델용으로 구분됨.
  • 적절한 평가지표 선택은 비즈니스 요구사항과 문제 특성에 맞게 이루어져야 함.
  • 단일 지표에만 의존하지 않고 여러 지표를 종합적으로 고려하는 것이 바람직함.

2. 예측모델(회귀모델) 평가지표

2.1. MAE (Mean Absolute Error)

  • 실제값과 예측값 차이의 절대값 평균을 계산함.
  • 수식: MAE = (1/n) Σ |y_i - ŷ_i|
  • 특징:
    • 이상치에 상대적으로 덜 민감함.
    • 오차의 절대적 크기를 직관적으로 이해하기 쉬움.
    • 원본 데이터와 동일한 단위를 가짐.
  • 실제 적용 사례: 주택 가격 예측 모델에서 평균 예측 오차를 금액으로 직접 확인할 때 유용함.

2.2. MSE (Mean Squared Error)

  • 실제값과 예측값 차이의 제곱 평균을 계산함.
  • 수식: MSE = (1/n) Σ (y_i - ŷ_i)²
  • 특징:
    • 오차를 제곱하므로 큰 오차에 더 큰 가중치를 부여함.
    • 이상치에 매우 민감함.
    • 원본 데이터 단위의 제곱 형태로 표현됨.
  • 실제 적용 사례: 금융 시계열 예측에서 큰 예측 오차를 더 강하게 페널티로 부여할 때 효과적임.

2.3. RMSE (Root Mean Squared Error)

  • MSE의 제곱근 값으로, 원본 데이터와 동일한 단위로 변환함.
  • 수식: RMSE = √MSE = √[(1/n) Σ (y_i - ŷ_i)²]
  • 특징:
    • MSE의 장점을 유지하면서 해석이 직관적임.
    • 원본 데이터와 동일한 단위를 가짐.
    • 통계적 의미에서 표준편차와 관련이 있어 해석이 용이함.
  • 실제 적용 사례: 기상 예측 모델에서 온도, 강수량 등의 예측 오차를 측정할 때 자주 사용됨.

2.4. R² (결정계수)

  • 모델이 설명하는 분산의 비율을 나타냄.
  • 수식: R² = 1 - (SSE/SST) = 1 - [Σ(y_i - ŷ_i)² / Σ(y_i - ȳ)²]
  • 특징:
    • 0~1 사이의 값을 가지며, 1에 가까울수록 좋은 모델임 (음수 값도 가능).
    • 모델이 데이터의 변동성을 얼마나 잘 설명하는지 나타냄.
    • 단위가 없어 다른 모델과 비교하기 쉬움.
  • 실제 적용 사례: 마케팅 효과 분석에서 캠페인이 매출 변동의 몇 퍼센트를 설명하는지 확인할 때 활용됨.
graph LR
    A[예측모델 평가지표] --> B[MAE: 절대오차평균]
    A --> C[MSE: 오차제곱평균]
    A --> D[RMSE: MSE의 제곱근]
    A --> E[R²: 결정계수]

    B -->|특징| B1[이상치에 덜 민감]
    C -->|특징| C1[큰 오차에 가중치]
    D -->|특징| D1[직관적 해석 가능]
    E -->|특징| E1[모델 설명력 측정]

3. 분류모델 평가지표

3.1. 혼동 행렬(Confusion Matrix) 기반 지표

  • 분류 모델의 예측 결과를 네 가지 범주로 구분함:
    • 참 양성(TP): 실제 양성을 양성으로 정확히 예측
    • 거짓 양성(FP): 실제 음성을 양성으로 잘못 예측
    • 참 음성(TN): 실제 음성을 음성으로 정확히 예측
    • 거짓 음성(FN): 실제 양성을 음성으로 잘못 예측
graph TD
    subgraph 혼동행렬
    A[예측\실제] --- B[양성]
    A --- C[음성]
    D[양성] --- E[TP: 참 양성]
    D --- F[FP: 거짓 양성]
    G[음성] --- H[FN: 거짓 음성]
    G --- I[TN: 참 음성]
    end

3.1.1. 정확도(Accuracy)

  • 전체 예측 중 올바르게 예측한 비율을 측정함.
  • 수식: Accuracy = (TP + TN) / (TP + TN + FP + FN)
  • 특징:
    • 가장 직관적인 지표이나 불균형 클래스에 취약함.
    • 모든 클래스의 중요도가 동일할 때 적합함.
  • 실제 적용 사례: 스팸 메일 필터링에서 클래스 분포가 균형적일 때 사용함.

3.1.2. 정밀도(Precision)

  • 양성으로 예측한 것 중 실제 양성인 비율을 측정함.
  • 수식: Precision = TP / (TP + FP)
  • 특징:
    • 거짓 양성(False Positive)을 최소화하는 것이 중요할 때 유용함.
    • 양성 예측의 신뢰도를 측정함.
  • 실제 적용 사례: 의료 진단에서 불필요한 치료나 추가 검사를 줄이기 위해 중요함.

3.1.3. 재현율/민감도(Recall/Sensitivity)

  • 실제 양성 중 양성으로 정확히 예측한 비율을 측정함.
  • 수식: Recall = TP / (TP + FN)
  • 특징:
    • 거짓 음성(False Negative)을 최소화하는 것이 중요할 때 유용함.
    • 양성 케이스를 얼마나 잘 잡아내는지 측정함.
  • 실제 적용 사례: 암 진단과 같은 중대한 질병 탐지에서 위험 사례를 놓치지 않기 위해 중요함.

3.1.4. F1-Score

  • 정밀도와 재현율의 조화 평균을 계산함.
  • 수식: F1 = 2 _ (Precision _ Recall) / (Precision + Recall)
  • 특징:
    • 정밀도와 재현율 사이의 균형을 잡아줌.
    • 불균형 데이터셋에서 모델 성능을 단일 지표로 평가할 때 유용함.
  • 실제 적용 사례: 부정 거래 탐지 시스템에서 균형 잡힌 성능 측정에 활용됨.

3.2. ROC-AUC (Receiver Operating Characteristic - Area Under Curve)

  • 다양한 임계값에서의 참 양성률(TPR)과 거짓 양성률(FPR)을 플롯한 곡선 아래 면적임.
  • TPR(참 양성률) = Recall = TP / (TP + FN)
  • FPR(거짓 양성률) = FP / (FP + TN)
  • AUC 값의 범위: 0.5(무작위 예측) ~ 1.0(완벽한 예측)
  • 특징:
    • 분류 임계값에 독립적인 평가가 가능함.
    • 클래스 불균형에 상대적으로 강건함.
    • 모델의 분류 성능을 전체적으로 평가함.
  • 실제 적용 사례: 신용 평가 모델에서 다양한 임계값에 따른 성능 변화를 종합적으로 평가하기 위해 사용됨.
graph LR
    A[분류모델 평가지표] --> B[정확도: 전체 예측 정확도]
    A --> C[정밀도: 양성 예측의 정확도]
    A --> D[재현율: 양성 감지 비율]
    A --> E[F1-Score: 정밀도와 재현율의 조화평균]
    A --> F[ROC-AUC: 분류기 성능 곡선]

    B -->|공식| B1[TP+TN/TP+TN+FP+FN]
    C -->|공식| C1[TP/TP+FP]
    D -->|공식| D1[TP/TP+FN]
    E -->|공식| E1[2*P*R/P+R]
    F -->|의미| F1[임계값 독립적 평가]

4. 평가지표 선택 시 고려사항

4.1. 비즈니스 목표 반영

  • 비즈니스 문제의 특성과 목표에 맞는 평가지표를 선택해야 함.
  • 예: 사기 탐지 시스템에서는 재현율이 중요할 수 있으며, 스팸 필터에서는 정밀도가 중요할 수 있음.

4.2. 데이터 특성 고려

  • 불균형 데이터셋의 경우 정확도보다 F1-Score나 ROC-AUC가 더 적합함.
  • 이상치가 있는 경우 MSE보다 MAE가, 상대적 성능 측정이 필요한 경우 R²가 적합함.

4.3. 모델 비교 및 선택

  • 동일한 평가지표를 사용하여 여러 모델을 비교해야 함.
  • 단일 지표에만 의존하지 않고 여러 지표를 종합적으로 고려해야 함.

4.4. 모델 튜닝 방향성

  • 특정 평가지표에 초점을 맞춘 모델 튜닝은 다른 지표의 성능을 저하시킬 수 있음.
  • 트레이드오프를 이해하고 적절한 균형점을 찾는 것이 중요함.

5. 실무 적용 시나리오

5.1. 금융 산업

  • 대출 상환 예측: RMSE와 R²를 통해 예측 정확도 평가
  • 부정 거래 탐지: 재현율과 ROC-AUC를 중점적으로 고려
  • 고객 이탈 예측: F1-Score와 정밀도를 균형 있게 활용

5.2. 의료 산업

  • 질병 진단: 재현율(민감도)과 특이도를 함께 고려
  • 환자 재입원 위험 예측: RMSE와 R²를 활용하여 예측 정확도 평가
  • 의료 영상 분류: ROC-AUC와 F1-Score로 성능 측정

5.3. 마케팅 분야

  • 고객 세그먼트 예측: 정확도와 정밀도를 중심으로 평가
  • 클릭률(CTR) 예측: MAE와 RMSE를 통한 오차 측정
  • 캠페인 효과 분석: R²를 통한 모델 설명력 평가

6. 종합 정리

  • 평가지표는 모델 성능의 객관적 측정 도구로, 문제 특성에 맞게 선택해야 함.
  • 예측모델(회귀)의 경우 MAE, MSE, RMSE, R²를 상황에 맞게 활용함.
  • 분류모델의 경우 정확도, 정밀도, 재현율, F1-Score, ROC-AUC 등을 고려함.
  • 단일 지표보다는 여러 지표를 종합적으로 고려하여 모델의 다양한 측면을 평가해야 함.
  • 평가지표는 모델 개발의 지침이 되며, 비즈니스 가치와 연계되어야 의미가 있음.
  • 실무에서는 통계적 지표와 함께 비즈니스 KPI도 함께 고려하는 것이 중요함.

Keywords

Machine Learning, 머신러닝, Evaluation Metrics, 평가지표, Regression, 회귀분석, Classification, 분류모델, ROC-AUC, Precision, 정밀도, Recall, 재현율

728x90
반응형

+ Recent posts