什么是熵
分类:数据分析
熵(entropy)是一个信息论与概率论中的重要概念,表示系统的混乱程度或不确定性。熵越高,表示系统越混乱或不确定性越大。熵的定义:设有n个可能的事件或状态{s1, s2, ..., sn},其相应的概率分别为{p1, p2, ..., pn}。则该系统的熵定义为:
H = -k * (p1*logp1 + p2*logp2 + ... + pn*logpn)
其中,k是一个常数,一般取k=1/ln(n)。
熵具有以下性质:
1. 熵必须大于或等于0,等于0时系统完全有序。
2. 当所有事件发生的概率相等时,熵达到最大值,系统最混乱。
3. 概率分布越接近均匀,熵越大;概率集中在某些事件上时,熵越小。
4. 在所有具有同样平均信息量的系统中,熵最大的那个系统不确定性最大。
例如:有两个可能的事件{s1, s2},它们的概率分别为{0.7, 0.3}。
则该系统的熵为:
H = -1/ln(2) * (0.7*ln(0.7) + 0.3*ln(0.3)) = 0.88
如果两个事件的概率都为0.5,则熵为1,达到最大值。熵在信息论与概率论中有着重要作用,用于衡量信息的数量、系统的混乱程度和不确定性大小。在其它领域,如统计力学中也有重要应用。我希望这能给您一个关于熵的基本认识。如果您在理解上有任何困难或疑问,欢迎在评论中提出。我们共同努力,共同进步!