After_rain / 2023-09-05 / 原文

熵的定义:无损编码事件信息的最小平均编码长度

事件\(P_i\)

编码长度\(-log_2P_i\)

发生概率\(P_i\)

一个分布的熵的总和

\[-\sum_iP_ilog_2(P_i) \]

考虑只有预估的概率分布\(Q\)

考虑\(Q\)对于将要发生的\(P\)进行编码的最小平均长度

即是:

\[-\sum_iP_ilog_2(Q_i) \]

因此要最小化这个交叉熵损失,即是最大化\(P\),\(Q\)的相似程度


二分类的熵:

\[-[P_Alog_2Q_A + P_Blog_2Q_B]\\ P_A + P_B = 1\\ Q_A + Q_B = 1\\ -[P_Alog_2Q_A + P_Blog_2Q_B] = -[P_Alog_2Q_A + (1-P_A)log_2(1-Q_A)] \]