arrow
第九卷, 第六期
严加安院士:概率破玄机 统计解迷离

来源:中国科学报


作者:严加安
概率论起源于中世纪的欧洲,那时盛行掷骰子赌博, 提出了许多有趣的概率问题。当时法国的帕斯卡、费尔马和旅居巴黎的荷兰数学家惠更斯都对此类问题感兴趣,他们用组合数学研究了许多与掷骰子有关的概率计算问题。20世纪30年代柯尔莫哥洛夫提出概率公理化,随后概率论迅速发展成为数学领域里一个独立分支。

统计学是一门具有方法论性质的应用性科学,它在概率论基础上,发展出一系列的原理和方法,研究如何采集和整理反映事物总体信息的数字资料,并依据这些复杂的数据(称为样本)对总体的特征和现象背后隐藏的规律进行分析和推断。

法国数学家拉普拉斯有句名言:“生活中最重要的问题,绝大部分其实只是概率问题。”我长期从事概率论和随机分析研究,对概率统计学科的本质有些领悟,曾写过下面这首“悟道诗”:

随机非随意, 概率破玄机。

无序隐有序, 统计解迷离。

本文试图通过若干日常生活中的一些例子来向大家展示概率是如何破玄机和统计是如何解迷离的。

什么是随机和随意

在社会和自然界中,我们经常遇到一些事件,因为有很多不确定的偶然因素很难判断它会发生或不发生,这样的事件就是所谓的随机事件或偶然事件。

概率则是对随机事件发生的可能性大小的一个度量。必然要发生的事件的概率规定为1,不可能发生的事件的概率规定为0, 其他随机事件发生的概率介乎0与1之间。

例如,抛一枚匀质的硬币,出现正面或反面的概率均为二分之一;掷一个匀质的骰子,每个面出现朝上的概率均为六分之一。在这两个例子中,每个简单事件(或“场景”)都是等可能发生的。一个复合事件(如掷骰子出现的点数是偶数)发生的概率就等于使得该复合事件发生的场景数目与可能场景总数之比。

什么是随意?随意就是带有主观意识的一种随机。

比方说,我们知道掷一枚匀质硬币出现正面或反面的概率都是1/2。如果让某人臆想一个相继掷50次硬币的可能结果,并用1和0分别表示出现“正面”和“反面”,在一张纸上写下来,由于他考虑到接连多次出现正面或反面的可能性较小,在他写1和0时,可能有意识避免连写三个或四个以上的1或0,这样产生的0-1序列就是“随意的”,它看似随机,但与真实做一次掷50次硬币记录下的结果在统计特性上是有区别的。

随机现象背后是隐藏某些规律的,概率论的一项基本任务就是揭示这些规律。

“三枚银币”骗局

某人在街头设一赌局。他向观众出示了放在帽子里的三枚银币(记为甲、乙、丙),银币甲的两面涂了黑色,银币丙的两面涂了红色,银币乙一面涂了黑色,另一面涂了红色。

游戏规则是:他让一个观众从帽子里任意取出一枚银币放到桌面上(这里不用“投掷银币”是为了避免暴露银币两面的颜色),然后由设局人猜银币另一面的颜色,如果猜中了,该参与者付给他1元钱,如果猜错了,他付给该参与者1元钱。

试问:这一赌局是公平的吗?从直觉上看,无论取出的银币所展示的一面是黑色或红色,另一面是红色或黑色的概率都是1/2,这一赌局似乎是公平的。但实际上不公平,设局者只要每次“猜”背面和正面是同一颜色,他的胜算概率是2/3,因为从这三张牌随机选取一枚银币,其两面涂相同颜色的概率就是2/3。如果有许多人参与赌局,大概有1/3的人会赢钱,2/3的人会输钱。

下面进一步用“场景分析”来戳穿“三枚银币”骗局。假定参与者取出并放到桌面上的银币展示面是黑色,则这枚银币只可能是银币甲或乙。“银币展示面是黑色”这一随机事件有三种等可能场景:银币甲的“某一面”和“另一面”,或银币乙的“涂黑一面”。因此,这枚银币是银币甲的概率是2/3。展示面是红色情形完全类似。因此,每次“猜”另一面和展示面是同一颜色的胜算概率是2/3。

在猜奖游戏中改猜是否增大中奖概率

这一问题出自美国的一个电视游戏节目,问题的名字来自该节目的主持人蒙提?霍尔。上世纪90年代曾在美国引起广泛和热烈的讨论。

假定在台上有三扇关闭的门,其中一扇门后面有一辆汽车,另外两扇门后面各有一只山羊。主持人是知道哪扇门后面有汽车的。当竞猜者选定了一扇门但尚未开启它的时候,节目主持人去开启剩下两扇门中的一扇,露出的是山羊。主持人会问参赛者要不要改猜另一扇未开启的门。

而问题是:改猜另一扇未开启的门是否比不改猜赢得汽车的概率要大?正确的答案是:改猜能增大赢得汽车的概率,从原来的1/3增大为2/3。这是因为竞猜者选定的一扇门后面有汽车的概率是1/3,在未选定的两扇门后面有汽车的概率是2/3,主持人开启其中一扇门把这门后面有汽车给排除了,所以另一扇未开启的门后面有汽车的概率是2/3。

也许有人对此答案提出质疑,认为在剩下未开启的两扇门后有汽车的概率都是1/2,因此不需要改猜。为消除这一质疑,不妨假定有10扇门的情形,其中一扇门后面有一辆汽车,另外9扇门后面各有一只山羊。当竞猜者猜了一扇门但尚未开启时,主持人去开启剩下9扇门中的8扇,露出的全是山羊。显然:原先猜的那扇门后面有一辆汽车的概率只是1/10,这时改猜另一扇未开启的门赢得汽车的概率是9/10。

如何设计对敏感问题的社会调查

设想要对研究生论文抄袭现象进行社会调查。如果直接就此问题进行问卷调查,就是说要你直说你是否抄袭,即使这样的调查是无记名的,也会使被调查者感到尴尬。

设计如下方案可使被调查者愿意作出真实的回答:在一个箱子里放进1个红球和1个白球。被调查者在摸到球后记住颜色并立刻将球放回,然后根据球的颜色是红和白分别回答如下问题:你的生日是否在7月1日以前?你作论文时是否有过抄袭行为?回答时只要在一张预备好的白纸上打√ 或打×,分别表示是或否。假定被调查者有150人,统计出共有60个√。

问题是:有抄袭行为的比率大概是多少?已知:P(红)=0.5,P(√|红)=0.5,P(√)=0.4,求条件概率 P(√|白),用概率论中的贝叶斯公式算出的答案是30%。这一例子是对“无序隐有序,统计解迷离”的一个很好解读。

“辛普森悖论”

分组对比中占优总体上一定占优吗?答案是:不一定!下面是一个例子。假定有两种药(A和B),要通过分组临床试验对比其疗效。以下是试验结果的统计表:从甲乙两组试验结果看,药物A的疗效都优于药物B,但总体来看,药物B的疗效反而优于药物A(如表所示)。

早在20世纪初,当人们为探究两种因数是否具有某种相关性而进行分组研究时就发现了这种现象:在分组比较中都占优势的一方,在总评中反而是失势。直到1951年英国统计学家辛普森在他发表的论文中才正式对这一现象给予理论解释。后人就把这一现象称为“辛普森悖论”。

“统计平均”的陷阱

下面这个例子在现实生活中更加典型,它是“辛普森悖论”的一种表现形式。假定有一公司现有员工100人,另有一研究所,职工150人。在一次普查体检中,发现公司有糖尿病患者16人,研究所有糖尿病患者36人。从糖尿病患者的患病率来看,研究所的情况比公司严重,其患病率分别是24%和16%。但实际情况恰恰相反,这怎么可能呢?

现在我们换一种统计方式来考察结果,分成年轻人(24~45岁)和中、老年人(46~65岁)两个组来计算患病率。该公司有90位年轻人,其中患糖尿病12人(患病率13.3%),有中老年人10人,其中患糖尿病4人(患病率40%);该研究所有50位年轻人,患糖尿病4人(患病率8%),有中、老年人100人,其中患糖尿病32人(患病率32%)。

后一种统计方式的结果表明,公司的人,无论是年轻人还是中老年人,患糖尿病的比例都显著高于研究所的相应人群,这可能和他们经常加班和中午吃盒饭有关。这一分组统计结果比总体统计结果更有说服力。