香农说,要有熵。于是开启了信息时代。 (2)
随机变量的均值
假设有个随机变量 X,它的取值范围 S={1, 2, …, M},它的概率分布函数是某个定义在S上的函数 P(x)。那么这个随机变量的均值 (更文化点的说法叫数学期望值)就是这样一个东东:
1*P(1)+2*P(2)+3*P(3)+ … +M*P(M).
在上面老千掷硬币的例子中,随机变量 X 的均值就是 1*(1/3)+0*(2/3)=1/3。简单吧。
很多同学可能都有直觉,能感觉到如果把产生这个随机变量 X 的随机实验做很多次,把得到的数字取平均,那么这个平均数差不多就是 X 的均值。这个概念,叫做大数定理,跟俺要讲的熵有着本质的联系,俺这里不敢唐突,稍后会带同学们仔细品味。
独立随机变量
很多时候俺们关心的不止一个随机变量,而是很多随机变量。比如,俺们同时关心两个随机变量 X 和 Y,X 的取值范围是 {1, 2}, Y 的取值范围是 {1, 2, 3}。那么俺们可以把这两个随机变量看作一个随机变量对,写作 (X, Y), 而把它的取值范围理解为所有可能的(X,Y)取值的组合,也就是 {(1, 1), (1, 2), (1, 3), (2, 1), (2, 2), (2, 3)}。把这个集合叫作S,那么这对随机变量就是通过一个定义在S上的概率分布函数 P(x, y) 来描述的。 当这个随机变量对的分布满足 P(x, y)=P(x)P(y) 的时候,俺们就称这两个随机变量是相互独立的。 两个随机变量相互独立简单的说就是产生这两个随机变量的随机实验之间毫无关系,互不影响。比如,一般认为掷硬币两次是两个毫不相干的实验,那么在上面老千掷硬币的例子里,如果老千掷了两次硬币,可能出现的结果是集合{(0, 0), (0, 1), (1, 0), (1, 1)}, 而这个集合中的四种结果出现的概率分别为
P(0, 0) = P(0)P(0) = (2/3)(2/3)=4/9
P(0, 1) = P(0)P(1) = (2/3)(1/3)=2/9
P(1, 0) = P(1)P(0) = (1/3)(2/3)=2/9
P(1, 1) = P(1)P(1) = (1/3)(1/3)=1/9独立随机变量的概念当然可以推广到更多的随机变量上。如果有 n 个随机变量,它们的取值无非就对应了一个长度为 n 的序列。所有这样序列的集合就是这组随机变量的取值范围。如果这些随机变量是相互独立的,那么每个序列出现的概率无非就是把这个序列中每个数出现的概率乘在一起。比如,上面的老千连续掷了10次硬币,那么出现1101011110的概率就是
(1/3)(1/3)(2/3)(1/3)(2/3)(1/3)(1/3)(1/3)(1/3)(2/3)=(1/3)^7 * (2/3)^3哎,累死俺了,这个也要讲,学霸们可能要打瞌睡了。不好意思,俺怕讲得太快,有的同学要去看韩剧了。哎,致敬也是体力活啊!
均值和大数定理大数定理的英文是 the laws of large number, 它的中文翻译通常是“大数定律”而不是大数定理。但俺却偏要叫它大数定理!
定律或是英文里的 law 都是指不需要证明但可以被验证的理论假设。比如牛顿的万有引力定律。从数学上说,不需要证明就被接受的假设被认为是公理。但是这个大数定理并非公理,它是被严格证明出来的(证明也不复杂,只要用马尔可夫不等式或切比晒夫不等式就行了),因此准确的数学语言应该叫它“定理”。管他叫“定律”会让人以为这个东东就是假设出来的公理,从而产生歧义,当年也不知道谁这么没涵养管它叫“law”。所以,不管你们服不服,俺都要管它叫大数定理。
大数定理大概说了这样一个意思。假设有某个随机实验会产生一个随机变量 X。如果你重复做这个随机实验 n 次, 你就会得到一个随机变量序列 X1, X2, X3, …, Xn。这里假定这些随机变量相互独立(即这些随机实验互不影响)而且 n 是个很大的数(比如,一万,十万,百万),那么把这 n 个数加起来除以 n (即取平均),得到的数 ( 即 (X1+X2+…+Xn)/n )几乎总是很接近随机变量 X 的均值。同学们注意一下俺这里“几乎总是”和“很接近”的用词哈。虽然俺是个马虎的人,这里的遣词造句是极其考究,极负责任,极具情怀的。
咱们用老千掷硬币的例子先看看大数定理到底说了些啥子嘛。假设那个老千掷了 n 次硬币,那么他就得到了 n 个在{0, 1} 里取值的数。因为这 n 个数都是随机的,这 n 个数的均值当然也是个随机变量,就是说也有一个概率分布函数,有一定的不确定性。大数定理告诉俺们,当 n 很大的时候,这 n 个数的平均值“几乎总是很接近”1/3。“几乎总是”和“很接近”是可以在数学上严格定义的,不过当俺讲完它们的定义的时候,估计所有同学都要看韩剧去了。这样说吧,比如咱们把“很接近1/3”理解为跟 1/3 相差不到 0.05,那么可以证明(其实下面给出的这些概率数字很保守,但俺码字已经快要吐血,正在后悔俺为什么要揽下这么个差事,所以就随便套了一下切比晒夫不等式得出下面这些“至少有”的结论):
当 n=1000 时,至少有 91.1% 的概率这个平均值很接近1/3。
当 n=10000 时,至少有 99.1% 的概率这个平均值很接近1/3。
当 n=100000 时,至少有 99.9% 的概率这个平均值很接近1/3。如果把“很接近1/3”理解为跟 1/3 相差不到 0.02,那么:
当 n=1000 时,至少有 44.4% 的概率这个平均值很接近1/3。
当 n=10000 时,至少有 94.4% 的概率这个平均值很接近1/3。
当 n=100000 时,至少有 99.4% 的概率这个平均值很接近1/3。
当 n=1000000 时,至少有 99.9% 的概率这个平均值很接近1/3。现在展开你想象的翅膀,你应该看到当 n 变成无穷大的时候,这个平均值就不再是“几乎总是很接近1/3”,而是“就是1/3”了!
至此同学们可能已经体会出俺极其考究、极负责任的“几乎总是很接近”了吧。这里的情怀还是让俺带你们领略一下吧。老千掷出的序列当然是随机的、不确定的、没有规律的。这个序列的平均数虽然也在1/3周围随机跳动,但却随着 n 的增大越发确定起来。当n很小、她就在你跟前的时候,变化多端、捉摸不定的她让你无法看清;当 n 增大的时候,她渐行渐远,但她在风中颤动的身影却在你记忆的相机里慢慢聚焦,越来越清晰;直到她消逝在无限的远方,她竟定格成一幅永恒而又无比真切的画面。。。
学霸们可能会觉得俺太矫情了:不就一个简单的大数定理吗,有必要这么忽悠吗?其实俺也觉得自己有些矫情。但看完本文之后,俺请你再回头体会一下大数定理的情怀。
(待续)
OTTAWAZINE特约撰稿人:学霸老张