这一章主要是讨论概率论和信息论相关的内容。 概率论是一种用来表示不确定状态的数学方法。在人工智能当中,概率论的应用主要在两个方面:
概率论的laws告诉我们AI系统如何去完成推论,也就是用来设计AI的推论结构;
可以采用概率论和统计理论来理论的分析所提出的人工智能系统的性能。 信息理论的作用就是让我们来量化一个概率分布当中的不确定性。
在机器学习当中,算法必须总是处理不确定量以及随机量,同时硬件中的错误也会经常发生。不确定性的来源有三个:
A random variable is a variable that can take on different values randomly.
主要是和条件概率相关的一些事情
并没有仔细看这一章,应该是连续变量和离散变量之间的区别(以后修正)
信息理论是应用数学的一个分支,主要是来围绕着定量的分析a signal中包含了多少信息。最开始是用来研究通过噪声通道发送离散字母的信息发送问题,例如通过无线电的通信。在这个context中,信息论能告诉我们怎么就优化编码,计算预期的消息长度并从特定采样的概率分布使用不同的编码方案,在机器学习当中,可以将信息论应用于连续变量,消息的长度解释(message length interpretations)并未应用于这些变量的情况下**
采用这种正式的直觉(intuition)
为了满足这三个性质,所以呢定义了self-information I(X)=-LogP(x)(自信息(英语:self-information),又译为信息本体,由克劳德·香农提出,用来衡量单一事件发生时所包含的信息量多寡)。用nat作为单位,1nat就是观测可能性为1/e的事件所包含的信息量。可以用Shannon entropy(香农熵)来衡量概率分布当中的不确定性大小。当变量是连续变量时,香龙熵就变成了(differencial entropy)微分熵。如果说遇到了两个分布,那么用Kullback-Leibler (KL) divergence来衡量两个分布之间的不同。
机器学习通常涉及非常大量的随机变量的概率分布。通常,这些概率分布会涉及相对较少变量的直接相互作用。采用一个单一的函数来描述整个联合概率分布式非常有效的(不论是计算效率还是统计效率)。当我们用一个graph来表征概率分布的factorization,就可以称之为structured probabilistic model 结构化概率模型 or graphical model 图论模型。结构概率模型分为两种:直接和间接。这两种方法都是用一个图,每个图的节点表示一个变量,连接点之间的边表示这两个随机变量之间的直接相关的概率分布。