정보이론에서 정보량(Information Content)은 다음과 같이 정의됩니다.
I(x) = - log(pᵢ)
즉, 어떤 사건의 확률 pᵢ에 로그를 씌운 후, 부호를 바꾼 값이 정보량이 됩니다.
그렇다면, 왜 로그를 사용할까요?
이를 직관적 이유 + 수학적 이유로 나누어 설명하겠습니다.
🔹 1. 직관적 이유: 곱셈을 덧셈으로 변환
정보량의 핵심 원칙: 독립적인 사건이 발생할 때, 정보량은 "더할 수 있어야" 합니다.
🎲 예제 1: 동전을 두 번 던지는 경우
- 한 번 던질 때 앞면이 나올 확률 → P(H) = 1/2
- 두 번 던져서 모두 앞면이 나올 확률 → P(HH) = 1/2 × 1/2 = 1/4
- 이때, 정보량 I(HH)는 다음과 같이 계산해야 합니다.
I(HH) = I(H) + I(H)
즉, 확률이 곱해질 때, 정보량은 더해져야 합니다.
그런데, 로그(log)는 곱셈을 덧셈으로 바꾸는 대표적인 함수입니다.
I(HH) = - log (P(H) × P(H))
= - log P(H) - log P(H)
✅ 결론:
- 확률이 작은 사건이 연속으로 발생할수록 정보량은 누적되어야 합니다.
- 곱셈 관계를 덧셈으로 바꾸는 기능이 필요하므로 → 로그(log)를 사용합니다!
🔹 2. 수학적 이유: 정보량이 가져야 할 성질을 만족
정보량이 갖춰야 하는 성질을 만족하는 유일한 함수가 로그(log)입니다.
정보량 함수 I(x)가 만족해야 하는 3가지 조건이 있습니다.
조건 1: 확률이 낮을수록 정보량이 커야 한다.
즉, 드문 사건일수록 더 많은 정보를 제공해야 합니다.
사건 확률 pᵢ 정보량 I(x) = - log(pᵢ)
확률 높음 | p = 0.9 | I(x) = 0.05 |
확률 낮음 | p = 0.01 | I(x) = 2 |
✅ 로그 함수는 확률이 낮을수록 더 큰 값을 주므로 적합합니다!
조건 2: 독립적인 사건이 발생할 때, 정보량은 더해야 한다.
예를 들어, 두 개의 독립적인 사건 A와 B가 있을 때:
P(A, B) = P(A) × P(B)
이때, 정보량은 다음과 같은 성질을 가져야 합니다.
I(A, B) = I(A) + I(B)
✅ 로그 함수는 이 성질을 만족하는 유일한 함수입니다!
조건 3: 확률이 1인 경우 정보량은 0이어야 한다.
어떤 사건이 확실히 일어날 때 정보량은 0이어야 합니다.
I(x) = - log(1) = 0
✅ 로그는 log(1) = 0이므로 이 조건을 만족합니다!
🔹 3. 결론: 왜 로그를 사용할까?
곱셈을 덧셈으로 변환 | 독립적인 사건의 정보량을 더하기 위해 필요 |
확률이 낮을수록 정보량 증가 | 희귀한 사건일수록 정보량이 커야 함 |
확실한 사건의 정보량은 0 | log(1) = 0을 만족해야 함 |
✅ 로그 함수가 아니면 위 조건을 만족하는 함수가 없습니다!
✅ 따라서 정보량을 정의할 때 로그를 사용해야 합니다! 🚀
'AI' 카테고리의 다른 글
정보량, 엔트로피, KL 다이버전스, 크로스 엔트로피의 연결 관계 (0) | 2025.02.20 |
---|