TwitterFacebook

香农说,要有熵。于是开启了信息时代。(1)

  • 2016年四月三十日是克劳德.香农(Claude Shannon)的一百周年诞辰。虽然香农被学术届尊为信息时代之父,听说过这位科学巨人名字的想必比知道宋仲基的人少得多。当然,热爱韩星的同学也都是很有文化的,他们也都会把爱因斯坦视为上个世纪最伟大最杰出的科学家,他们在茶余饭后也会聊聊爱老伯的相对论和最近时髦的引力波。只是他们可能不知道,香农对人类的贡献绝对可以和爱老伯媲美。不管你们信不信,俺在这里毫不夸张而且很淡定地告诉同学们,要是没有香农,到今天咱们应该还没有见过手机或Internet,也没有用过微信或Facebook,更不能在网上看韩剧、看不雅视频或秀美图selfie。在很多学者心中,其实香农比爱老伯更伟大。南加州大学(University of Southern California) 电子工程系教授巴特.嗑死磕(Bart Kosko)说:爱因斯坦相对论之革命性在于它颠覆了之前的牛顿力学,而香农信息论之革命性在于它前无古人- 香农对信息的认知开人类之先河,没有什么挡在前面需要被颠覆的;香农提出了全新的数学工具,就是所谓的信息论,并用这个工具回答了人类从未思考过的问题。磕死磕说,在这个意义上,香农的发现像牛顿的引力定律一样基本。言下之意就是,香农跟牛顿一样牛,而牛顿比爱老伯牛,所以香农比爱老伯牛。

    那么香农的信息论到底是个什么东东呢?简单地说,信息论是个博大精深的应用数学分支。香农当年创建信息论的时候是为了探讨信息的本质和通信的理论极限问题,比如什么是信息,怎样从数学上定义衡量信息,数据压缩和数据传输可达到的极限在哪里,等等。但信息论的应用远不止于通信领域。在香农之后,信息论被当作一套通用的数学工具,在很多信息科学领域都有应用。比如信息论可以用来做统计分析,可以用来开发人工智能,可以用来优化投资策略等。听到这个投资二字,很多炒股同学的眼睛可能都忽然一亮,随即又被怀疑的不屑浸润,慢慢黯淡了下来。对,俺没忽悠你,去网上下一篇已故信息论大牛斯坦福大学教授托马斯.科福(Thomas Cover)1991年的文章“普适投资策略”(universal portforlios)看看吧,那也是信息论里的经典。

    在学术圈子里,人们往往对香农高山仰止,觉得信息论深不可测,当然那些绝世宗师和自信心爆棚的除外哈。俺在信息论的圈子里也算混了些时日,然而每每说起信息论三个字仍然是一边怯怯地心虚着,一边崇敬地仰望着。不过当下是个不管老几都可以向经典致敬的年代,所以俺也要装棵葱,向香农致敬一下子。于是俺决定提笔码这篇字,试图用最少的数学科普一下信息论里最基础的概念,熵(entropy)。


  • “二十个问题”游戏

    先从一个貌似不相干的西方曾经流行的游戏,“二十个问题”(the twenty-question game) 说起。游戏是这样的。俺心里想一样东西,你可以问俺二十个问题,然后猜俺心里想的东西。你的问题必须是“是不是”这种形式的。比如,这个东西是不是可以放进冰箱里?这个东西是不是活的?这个东西是不是能吃?诸如此类。对于你问的每一个问题,俺必须如实地回答“是”或者“不是”。你在二十个问题之内猜到了我想的东西就算赢。

    这个二十个问题的游戏曾经很受欢迎,还被做成过电子玩具。

  •  这个游戏的关键是在于如何有效地问你的问题。如果你问“明天是不是下雨”,那你肯定脑子进水了,可以不用往下看了。如果你第一个问题问的是“这东西是不是 iPhone 6”,这样的问法显然也效率不高,因为俺一旦说“NO”,你只从大量的可能性中排除了一种可能,还是要面对剩下巨大的猜测空间。

    这个游戏可以大致等价于这样一个数字游戏。假设M是个大于1的正整数,俺俩在玩游戏之前就商议确定好。俺在1到M之间任意想一个整数,你的任务是用最少的“是不是”形式的问题问出这个数是多少。

    对于这个数字版的“二十个问题”游戏,聪明的宝宝都会发现类似这样的结论:M的数值越大,需要的问题越多。但爱钻研的同学可能会想到另一个问题:对于一个给定的问问题策略,所需问题的“多”或“少”又是用什么来衡量的呢?比方说,M=8,而你的问法是依次问如下问题:“这个数是不是1”,“这个数是不是2”,“这个数是不是3”,一直到“这个数是不是7”(如果问完“这个数是不是7” 你觉得还需要问“这个数是不是8”的话,那请你去看韩剧吧)。在这种情况下,如果俺想的数字是1,你只需要一个问题就可以知道答案;而如果俺想的数字是8,你必须在问完7个问题之后才能知道答案。换句话说,即使问问题的策略确定,因为俺心里那个神秘数字的不确定性,你所需要的问题数目也是不确定的。因此我们需要把这个数字版“二十个问题”游戏更准确地描述出来,或者说,把在什么意义上“最少”的定义出来。

    让俺先喘口气,喝口水,扯点概率论,回头再看这个问题。

  • 随机变量

    咱们也别讲究数学的严谨了吧,直接讲这个叫随机变量的东东。

    随机变量描述的是一个随机实验可能出现的结果以及每种可能结果的可能性,也就是概率。先看一个例子。

    例[老千掷硬币]假设某老千每次投掷硬币的结果有1/3可能性出正面,2/3的可能性出反面。那么掷一次硬币就是一个随机实验,掷硬币的结果就是一个随机变量,我们这里记作大写的 X。如果把正面记作1,反面记作0,那么这个随机变量 X 可以通过一个函数P(x)来描述:函数的变量 (小写的)x 的取值范围是集合{0,1},这个集合此后记作 S;函数在0和1的取值分别为:P(1)=1/3,P(0)=2/3。

    从这个例子可以看出,一个随机变量 X 无非是通过在某个集合S上定义的一个函数P(x)来描述的,而这个函数不能取负值,而且必须在对其变量 x 求和的时候结果为1(在老千掷硬币的例子中即:P(0)+P(1)=1)。这个函数通常被称为随机变量X的概率分布。

    当然,同样是掷硬币,可以定义出很多不同的随机变量(即不同的概率分布函数P(x))来。普通人掷硬币对应的随机变量基本就是P(0)=P(1)=1/2。赌神掷硬币对应的随机变量可能是P(0)=1, P(1)=0。

    生活中的随机变量比比皆是。比如,在掷骰子的时候,骰子掷出的结果这个随机变量对应于一个定义在S={1,2,…,6} 上的概率分布函数 P(x),通常认为P(1)=P(2)=…=P(6)=1/6。再比如明天会不会下雨(天气预报不准的啦),会有几个人给俺这篇吐血之作点赞或转发(不晓得多少人更喜欢韩剧的啦)这些不确定的事情里都可以定义出随机变量来。记得不知道哪一位伟人曾经说过,“随机变量是到处都有的。对于我们的脑袋,不是缺少随机变量,而是缺少发现。”

    在前面说的那个数字版“二十个问题”游戏中,俺心里想的神秘数字对你来说也是一个随机变量,它的概率分布P(x) 是定义在S={1,2,…,M} 上的函数。如果我选数字是“完全随机的”,那么,这个函数就是P(1)=P(2)=…=P(M)=1/M。这种分布通常被称为均匀分布。当然,取决于俺按什么偏好选数字,这个函数也可以取其他形式:如果俺就是喜欢2,也许俺会以更高的概率取2。

    (待续)

 

OTTAWAZINE特约撰稿人:学霸老张

分类标签

合作伙伴

旗下产品

成为粉丝

相关信息

加入我们