熵
熵的定义:无损编码事件信息的最小平均编码长度
事件\(P_i\)
编码长度\(-log_2P_i\)
发生概率\(P_i\)
一个分布的熵的总和
\[-\sum_iP_ilog_2(P_i)
\]
考虑只有预估的概率分布\(Q\)
考虑\(Q\)对于将要发生的\(P\)进行编码的最小平均长度
即是:
\[-\sum_iP_ilog_2(Q_i)
\]
因此要最小化这个交叉熵损失,即是最大化\(P\),\(Q\)的相似程度
二分类的熵:
\[-[P_Alog_2Q_A + P_Blog_2Q_B]\\
P_A + P_B = 1\\
Q_A + Q_B = 1\\
-[P_Alog_2Q_A + P_Blog_2Q_B] = -[P_Alog_2Q_A + (1-P_A)log_2(1-Q_A)]
\]