F1 점수: 머신러닝 모델의 성능을 평가하는 강력한 지표 - Part 1

Mozen

·

2023. 7. 16. 03:06

반응형

 

F1 점수는 머신러닝 모델의 성능을 평가하는 강력한 지표 중 하나입니다. F1 점수의 의의는 머신러닝 모델의 정확성과 재현율을 균형 있게 평가할 수 있다는 것입니다. 또한, 이진 분류 문제뿐만 아니라 다중 클래스 분류에서도 사용될 수 있습니다. 총 3부작에 걸쳐서 F1 점수에 대해 알아보고자 합니다. 목차는 다음과 같습니다.

[목차]
1. F1 점수 소개
  1.1. F1 점수의 개념과 정의 설명
  1.2. 이진 분류 문제에서의 활용
2. 정밀도(Precision)와 재현율(Recall)
  2.1. 정밀도와 재현율의 개념과 의미
  2.2. 정밀도와 재현율의 관계
3. F1 점수의 계산 방법
  3.1. 정밀도와 재현율의 조화 평균
  3.2. F1 점수의 범위와 의미 해석
4. F1 점수의 중요성
  4.1. F1 점수가 중요한 이유
  4.2. F1 점수의 역할
5. F1 점수의 활용 방법
  5.1. 모델 선택 및 비교에 사용되는 방법
  5.2. 다양한 임계값 설정에 따른 F1 점수 변화
6. 매크로 F1 점수와 마이크로 F1 점수
  6.1. 다중 클래스 분류에서의 F1 점수 계산 방법
  6.2. 매크로 F1 점수와 마이크로 F1 점수의 차이와 활용
7. F1 점수의 한계와 대안
  7.1. F1 점수의 한계와 주의사항
  7.2. 다른 성능 평가 지표와의 비교 및 보완
8. 결론

본 글에서는 '1. F1 점수 소개'와 '2. 정밀도(Precision)와 재현율(Recall)'을 다룹니다.

 

1. F1 점수 소개

반응형

  1.1. F1 점수의 개념과 정의 설명

    F1 점수는 머신러닝 모델의 성능을 평가하는 중요한 지표 중 하나입니다. 이 지표는 정밀도(Precision)와 재현율(Recall)의 조화 평균으로 계산됩니다. 이진 분류에서는 모델의 예측 결과를 "양성(Positivie)"과 "음성(Negative)"으로 분류합니다. 정밀도는 모델이 양성으로 예측한 샘플 중에서 실제로 양성인 샘플의 비율을 나타냅니다. 즉, 모델이 양성이라고 예측한 것 중에서 얼마나 정확히 맞추었는지를 측정합니다. 반면에 재현율은 실제로 양성인 샘플 중에서 모델이 양성으로 예측한 샘플의 비율을 나타냅니다. 즉, 모델이 실제 양성인 것을 얼마나 잘 감지했는지를 측정합니다.

    정밀도와 재현율은 서로 상충하는 관계를 가지고 있습니다. 정밀도를 높이기 위해서는 잘못된 양성 예측을 최소화해야 하지만, 이는 재현율을 낮출 수 있습니다. 재현율을 높이기 위해서는 실제 양성인 샘플을 놓치지 않아야 하지만, 이는 잘못된 양성 예측을 증가시킬 수 있습니다. F1 점수는 이러한 정밀도와 재현율 사이의 균형을 평가하기 위해 사용됩니다. F1 점수는 다음과 같은 공식으로 표현됩니다:

$$ F1 \quad score = 2\times\frac{precision\times recall}{precision+recall} $$

    F1 점수는 0부터 1까지의 범위를 가지며, 1에 가까울수록 모델의 성능이 좋습니다. 최댓값인 1은 정밀도와 재현율이 모두 1일 때 도달할 수 있습니다. 반대로, F1 점수가 0에 가까울수록 모델의 성능이 낮습니다. 이는 정밀도와 재현율 중 하나라도 0에 가까울 경우 발생할 수 있습니다. 모델의 임계값(threshold)을 조정하면 정밀도와 재현율을 조절할 수 있습니다. 

    F1 점수는 정확도(Accuracy)만으로 모델을 평가하는 것보다 더 나은 결과를 제공할 수 있습니다. 정확도는 전체 예측 중 올바르게 예측한 비율을 나타내는 지표이지만, 클래스 불균형 문제에서는 정확도만으로 모델의 성능을 정확하게 평가하기 어렵습니다. 그래서 F1 점수는 양성 예측의 정밀도와 재현율을 종합적으로 고려하여 모델의 성능을 평가하는 데 도움을 줍니다.

 

  1.2. 이진 분류 문제에서의 활용

    F1 점수는 이진 분류 문제에서 모델의 성능을 평가하는 데 중요한 역할을 합니다. 이를 통해 모델이 얼마나 정확하게 예측하고, 얼마나 잘 감지하는지를 종합적으로 평가할 수 있습니다. F1 점수는 다양한 분야에서 실용적으로 활용됩니다. 예를 들어, 의료 분야에서 암 진단 모델의 성능을 평가하거나, 금융 분야에서 사기 탐지 모델의 정확성과 감지력을 평가하는 데 사용됩니다. 또한, F1 점수는 임계값(threshold) 설정에 따라 모델의 성능이 변화하는 것을 분석하는 데에도 유용합니다. 임계값을 조정하면 정밀도와 재현율이 변화하고, 이에 따라 F1 점수도 변합니다. 최적의 임계값을 선택하여 모델의 예측 능력을 최대화할 수 있습니다. F1 점수는 모델의 성능을 평가하고 개선하는 데에 필수적인 지표입니다. 이진 분류 문제에서 모델의 정확성과 감지력을 종합적으로 평가하고, 임계값 조정에 따른 모델의 성능 변화를 분석할 수 있습니다. F1 점수를 활용하여 신뢰성 있는 예측 모델을 개발하고, 실제 문제에 대한 효과적인 의사 결정을 돕는 것이 중요합니다.

 

 

2. 정밀도(Precision)와 재현율(Recall)

 

  2.1. 정밀도와 재현율의 개념과 의미

    정밀도와 재현율은 이진 분류에서 중요한 평가 지표입니다. 이 두 지표는 서로 다른 관점에서 모델의 성능과 예측 결과를 평가하는 데에 사용됩니다. 정밀도는 모델이 양성으로 예측한 샘플 중에서 실제로 양성인 샘플의 비율을 나타냅니다. 다른 말로, 모델이 양성으로 예측한 것 중에서 얼마나 실제로 맞추었는지를 측정합니다. 정밀도가 높을수록 모델이 양성으로 예측한 샘플이 실제로 양성인 경우가 많아지므로 모델의 예측 정확성이 높다고 판단할 수 있습니다. 정밀도는 다음과 같이 계산됩니다.

 $$ precision = \frac {TP}{TP+FP} $$

여기서 TP는 True Positive로, 모델이 양성이라고 예측한 것 중에서 실제로 양성인 샘플의 수를 의미합니다. FP는 False Positive로, 모델이 양성이라고 잘못 예측한 것 중에서 실제로 음성인 샘플의 수를 의미합니다.

    

    재현율은 실제로 양성인 샘플 중에서 모델이 양성으로 예측한 샘플의 비율을 나타냅니다. 다른 말로, 실제로 맞추어야 할 양성인 샘플 중에서 모델이 얼마나 맞추었는지를 측정합니다. 재현율이 높을수록 모델이 실제로 양성인 샘플을 놓치지 않고 잘 감지한다고 할 수 있습니다. 재현율은 다음과 같이 계산됩니다.

 $$ precision = \frac {TP}{TP+FN} $$

여기서 FN은 False Negative로, 실제로 양성인 샘플 중에서 모델이 음성이라고 잘못 예측한 샘플의 수를 의미합니다.

 

    정밀도와 재현율은 모델의 성능을 다른 측면에서 평가합니다. 정밀도는 모델이 양성으로 예측한 것 중에서 얼마나 실제로 맞추었는지에 초점을 맞추며, 재현율은 실제로 양성인 것 중에서 모델이 얼마나 잘 감지했는지에 초점을 맞춥니다.

 

  2.2. 정밀도와 재현율의 관계

    정밀도와 재현율은 서로 상충 관계를 가질 수 있습니다. 모델의 임계값(threshold)을 조정하면 정밀도와 재현율을 조절할 수 있습니다. 임계값을 낮추면 모델은 더 많은 샘플을 양성으로 예측하며, 이는 재현율의 증가와 정밀도의 감소로 이어질 수 있습니다. 임계값을 높이면 모델은 더 적은 샘플을 양성으로 예측하며, 이는 재현율의 감소와 정밀도의 증가로 이어질 수 있습니다. 정밀도와 재현율은 모델의 성능을 평가할 때 함께 고려해야 할 중요한 지표입니다. 어떤 경우에는 정밀도가 중요한 지표일 수 있고, 다른 경우에는 재현율이 중요한 지표일 수도 있습니다. 따라서 모델의 목적과 상황에 따라 정밀도와 재현율 중 어느 지표를 더 강조해야 하는지를 결정해야 합니다.

 

 

    이상으로 '1. F1 점수 소개'와 '2. 정밀도(Precision)와 재현율(Recall)'을 알아보았습니다. 뒷부분은 다음 글에서 이어서 하도록 하겠습니다.

반응형