본문 바로가기
AI

정보량, 엔트로피, KL 다이버전스, 크로스 엔트로피의 연결 관계

by Quantrol 2025. 2. 20.
반응형

1. 정보량(Information)과 확률의 관계

정보량이란?

정보이론에서 정보(Information)란, 예측하기 어려운 사건이 발생할 때 얻을 수 있는 것을 의미합니다.

정보량 공식

우리는 어떤 사건이 발생했을 때, 그 사건이 얼마나 "놀라운지"에 따라 정보량을 측정할 수 있습니다.

🎲 예제: 주사위 던지기

  • 공정한 주사위를 던졌을 때, 특정 숫자가 나올 확률은 1/6.
  • 조작된 주사위라면 특정 숫자가 나올 확률이 90%일 수도 있음.

확률이 낮은 사건이 발생하면 더 많은 정보를 줍니다.
확률이 높은 사건은 이미 예측 가능하므로 정보가 적습니다.

이를 수식으로 표현하면:
정보량(I) = -log(p)

  • 확률 p가 클수록 I 값은 작아짐 → 정보량이 적음
  • 확률 p가 작을수록 I 값은 커짐 → 정보량이 많음

사건확률 (p)정보량 (-log p)

공정한 주사위에서 특정 숫자 1/6 2.58 bits
조작된 주사위에서 특정 숫자 0.9 0.15 bits

2. 엔트로피(Entropy): 평균적인 불확실성

엔트로피란?

한 사건이 아니라, 전체 확률 분포의 정보량을 어떻게 측정할까?
바로 **엔트로피(Entropy)**를 사용하면 됩니다.

엔트로피 공식

엔트로피는 모든 사건에 대한 정보량의 평균입니다.

엔트로피(H) = - Σ p * log(p)

🎲 예제: 공정한 vs 조작된 주사위

  • 공정한 주사위 → H가 큼 (모든 숫자가 나올 확률이 균등 → 예측 어려움)
  • 조작된 주사위 → H가 작음 (특정 숫자가 나올 확률이 높음 → 예측 쉬움)

불확실성이 높을수록 엔트로피가 큼.
예측이 쉬운 시스템(=조작된 주사위)은 엔트로피가 낮음.


3. KL 다이버전스: 모델과 실제 데이터의 차이

KL 다이버전스란?

우리가 만든 모델이 실제 데이터를 얼마나 잘 예측하는가?
이를 측정하는 지표가 **KL 다이버전스(Kullback-Leibler Divergence)**입니다.

KL 다이버전스 공식

KL 다이버전스는 실제 확률 분포 P(x)와 모델의 예측 확률 분포 Q(x)의 차이를 측정합니다.

KL 다이버전스 D_KL(P || Q) = Σ p * log (p / q)

  • P(x): 실제 데이터의 확률 분포 (Ground Truth)
  • Q(x): 모델이 예측한 확률 분포

예제: 기상청 예측 모델

  • 실제 날씨 확률 P(x):
    • 맑음: 50%, 비: 30%, 눈: 20%
  • 기상청 모델 Q(x):
    • 맑음: 70%, 비: 20%, 눈: 10%

KL 다이버전스 값이 클수록 모델과 실제 데이터가 많이 다름
KL 값이 0이면 모델이 완벽하게 맞음

사건실제 확률 P(x)모델 예측 Q(x)P/Q

맑음 0.5 0.7 0.71
0.3 0.2 1.5
0.2 0.1 2

💡 KL 다이버전스 최소화 → 모델을 실제 데이터에 가깝게 만들기!


4. 크로스 엔트로피: 딥러닝의 손실 함수

크로스 엔트로피란?

딥러닝에서 KL 다이버전스를 최적화할 때, 크로스 엔트로피를 쓰는 이유는 뭘까?

크로스 엔트로피 공식

KL 다이버전스를 변형하면:

KL 다이버전스 = - Σ p * log(q) + Σ p * log(p)

  • 첫 번째 항목: 크로스 엔트로피
  • 두 번째 항목: 실제 데이터의 엔트로피 (상수)

결론:
딥러닝에서 크로스 엔트로피를 최소화하면 KL 다이버전스도 최소화됨.

크로스 엔트로피 H(P, Q) = - Σ p * log(q)


5. 전체 개념 연결

개념설명직관적 예제

정보량 (-log p) 확률이 낮을수록 정보량이 많음 룰렛에서 0이 나올 확률
엔트로피 (H = -Σ p log p) 확률 분포의 평균적인 불확실성 공정한 vs 조작된 주사위
KL 다이버전스 (D_KL = Σ p log (p/q)) 모델과 실제 분포의 차이 기상청 날씨 예측
크로스 엔트로피 (H(P, Q) = -Σ p log q) KL 다이버전스를 최소화하는 손실 함수 딥러닝에서 분류 손실 함수로 사용

6. 최종 요약

  1. 정보량: 예측하기 어려운 사건일수록 정보량이 많음.
  2. 엔트로피: 전체 확률 분포의 불확실성(평균 정보량).
  3. KL 다이버전스: 모델이 실제 데이터 분포와 얼마나 다른지 측정.
  4. 크로스 엔트로피: KL 다이버전스를 최소화하는 손실 함수로 딥러닝에서 사용됨.

이제 정보이론과 딥러닝 모델 손실 함수의 연결까지 완벽히 이해! 🚀

 

반응형

'AI' 카테고리의 다른 글

왜 정보량(Information Content)은 로그(log)를 씌울까?  (0) 2025.02.20