본문 바로가기
AI

왜 정보량(Information Content)은 로그(log)를 씌울까?

by Quantrol 2025. 2. 20.
반응형

 

정보이론에서 정보량(Information Content)은 다음과 같이 정의됩니다.

I(x) = - log(pᵢ)

 

즉, 어떤 사건의 확률 pᵢ에 로그를 씌운 후, 부호를 바꾼 값이 정보량이 됩니다.
그렇다면, 왜 로그를 사용할까요?
이를 직관적 이유 + 수학적 이유로 나누어 설명하겠습니다.


🔹 1. 직관적 이유: 곱셈을 덧셈으로 변환

정보량의 핵심 원칙: 독립적인 사건이 발생할 때, 정보량은 "더할 수 있어야" 합니다.

🎲 예제 1: 동전을 두 번 던지는 경우

  • 한 번 던질 때 앞면이 나올 확률 → P(H) = 1/2
  • 두 번 던져서 모두 앞면이 나올 확률 → P(HH) = 1/2 × 1/2 = 1/4
  • 이때, 정보량 I(HH)는 다음과 같이 계산해야 합니다.

I(HH) = I(H) + I(H)

 

즉, 확률이 곱해질 때, 정보량은 더해져야 합니다.
그런데, 로그(log)는 곱셈을 덧셈으로 바꾸는 대표적인 함수입니다.

 

I(HH) = - log (P(H) × P(H))
= - log P(H) - log P(H)

 

결론:

  • 확률이 작은 사건이 연속으로 발생할수록 정보량은 누적되어야 합니다.
  • 곱셈 관계를 덧셈으로 바꾸는 기능이 필요하므로 → 로그(log)를 사용합니다!

🔹 2. 수학적 이유: 정보량이 가져야 할 성질을 만족

정보량이 갖춰야 하는 성질을 만족하는 유일한 함수가 로그(log)입니다.

 

정보량 함수 I(x)가 만족해야 하는 3가지 조건이 있습니다.

조건 1: 확률이 낮을수록 정보량이 커야 한다.

즉, 드문 사건일수록 더 많은 정보를 제공해야 합니다.

사건 확률 pᵢ 정보량 I(x) = - log(pᵢ)

확률 높음 p = 0.9 I(x) = 0.05
확률 낮음 p = 0.01 I(x) = 2

 

로그 함수는 확률이 낮을수록 더 큰 값을 주므로 적합합니다!


조건 2: 독립적인 사건이 발생할 때, 정보량은 더해야 한다.

예를 들어, 두 개의 독립적인 사건 A와 B가 있을 때:

P(A, B) = P(A) × P(B)

 

이때, 정보량은 다음과 같은 성질을 가져야 합니다.

I(A, B) = I(A) + I(B)

 

로그 함수는 이 성질을 만족하는 유일한 함수입니다!


조건 3: 확률이 1인 경우 정보량은 0이어야 한다.

어떤 사건이 확실히 일어날 때 정보량은 0이어야 합니다.

I(x) = - log(1) = 0

 

로그는 log(1) = 0이므로 이 조건을 만족합니다!


🔹 3. 결론: 왜 로그를 사용할까?

곱셈을 덧셈으로 변환 독립적인 사건의 정보량을 더하기 위해 필요
확률이 낮을수록 정보량 증가 희귀한 사건일수록 정보량이 커야 함
확실한 사건의 정보량은 0 log(1) = 0을 만족해야 함

 

로그 함수가 아니면 위 조건을 만족하는 함수가 없습니다!
따라서 정보량을 정의할 때 로그를 사용해야 합니다! 🚀

 

반응형