您现在的位置: 首页 > 网站导航收录 > 百科知识百科知识
贝特朗悖论(贝特朗悖论之争的终结)
概率,参赛者,定律贝特朗悖论(贝特朗悖论之争的终结)
发布时间:2020-12-06加入收藏来源:互联网点击:
本福特的发现便是如此:以1开头的数字比较多,这也算是一个定律吗?本福特发现这种现象不仅仅存在于对数表中,也存在于其它多种数据中。
于是,本福特检查了大量数据而证实了这点【4】。
本福特定律是一个乍听起来有点奇怪并违反直觉的现象。
我们举一个例子说明它。
设想某银行有1000多个储存账户,金额不等。
比如说,张本有存款23587元、老李1345元、小何35670元、刘红9000元、王军450元……等等。
奇怪的本福特定律不感兴趣存款金额本身,而感兴趣这些数值的开头第一位有效数字是什么,指的是这个数的第一个非零数字。
例如8.1、81、0.81的第一位有效数字都是8。
比如说,刚才几个人存款数的第一位数字分别是2、1、3、9、4。
所以,本福特定律也叫“首位数字定律”。
一个数的第一位(非零)数字可能是1到9之间的任何一个。
现在,如果我问,在刚才那个银行的上千个存款数据中,第一位数字是1的概率是多大?
不需要经过很多思考,大部分人都会很快地回答:应该是1/9吧。
因为从1-9,9个数字排在第一位的概率是相等的,每一个数字出现的概率都是1/9,大约11%左右。
图4:本福德定律(首位数定律)及其应用实例
这听起来十分正常的思维方法却与许多自然得到的数据所遵循的规律不一样。
人们发现,很多情况下,第一个数字是1的概率要比靠直觉预料的11%大得多。
数字越大,出现在第一位的概率就越小,数字9出现于第一位的概率只有4.5%左右。
各个数字出现在第一位的概率遵循如图4左图所示的概率分布。
本福德和纽康都从数据中总结出首位数字为n的概率公式是:
P(n)=logd(1+1/n)
其中d取决于数据使用的进位制,对十进制数据而言,d=10。
因此,根据本福德定律,首位数是1的概率最大,log102=0.301,十成中占了三成;首位数是2的概率log10(3/2)=0.1761;然后逐次减小,首位数是9的概率最小,只有4.6%。
图4右图所示的是符合本福德首位数法则的几个例子:人口统计、基本物理常数、斐波那契数、阶乘。
本福德收集并研究了20229个统计数据,分成20组,包括诸如河流面积、人口统计、分子及原子重量、物理常数等多种来源的资料。
数据来源虽然千差万别,却基本上符合本福德的对数法则,见图5所示的数据表。
表中的最后一列数值,是根据本福特的对数规律公式计算得到的每个数字出现于首位的概率,读者可以将它与真实数据相比较。
本福特定律适用范围异常广泛,自然界和日常生活中获得的大多数数据都符合这个规律。
尽管如此,但毕竟还是有其应用范围,主要是受限于如下几个因素:
1.这些数据必须跨度足够大,样本数量足够多,数值大小相差几个数量级;
2. 人为规则的数据不满足本福特定律。
比如说,按照某种人为规则设计选定的电话号码、身份证号码、发票编号,为造假而人工修改过的实验数据等,都不符合本福特法则。
彩票上的随机数据也不符合第一数字定律。
图5:本福德从大量数据中得到的首位数字概率表
如何理解本福德定律
尽管本福德和纽康都总结出了首位数字的对数规律,但并未给出证明,直到1995年美国学者Ted Hill才从理论上对该定律作出了解释,进行了严谨的数学证明【5】。
虽然本福德定律在许多方面都得到了验证和应用,但对于这种数字奇异现象人们依旧是迷惑不解。
到底应该如何直观理解本福德定律?为什么大多数数据的首位数字不是均匀分布而是对数分布的?
有人探求数“数”的方法,来直观理解本福德定律。
他们的意思是说,当你计算数字时,顺序总是从1开始,1,2,3,...,9,如果到9就终结的话,所有数起首的机会都相同,但9之后的两位数10至19,以1起首的数则大大多于其他数字。
之后,在9起首的数出现之前,必然会经过一堆以2,3,4,...,8起首的数。
如果这样的数法有个终结点,然后又重新从1开始的话,以1起首的数的出现率一般都应该比较大。
可以用这种理解方法来解释街道号码(地址)一类的数据。
一般来说,每条街道的号码都是从1算起,街道长度有限,号码排到某一个数就终止了。
另一条街又有它自己的从1开始的号码排列,这样的话,看起来,1开头的号码是要多一些的。
但这种解释也太不“数学”了!
况且,这种理解无法说明另外一类数据为什么也符合本福德原则。
比如说,“物理常数”的集合、出生率、亡率等,就不是从1开始计算到有限长度就截止的那种数据了。
另一种解释是认为“首位数字定律”的根源是由于数据的指数增长。
指数增长的序列,数值小的时候增长较慢,由最初的数字1增长到另一个数字2,需要更多时间,所以出现率就更高了。
举个例子来深入说明这个道理。
考虑你有100美元存到银行里,年利是10%,25年中,你每年的存款金额将是($,只保留了整数部分):
100、110、121、133、146、161、177、195、214、236、259、285、314、345、380、418、459、505、556、612、673、740、814、895、985
这是一个指数增长的序列。
在这组数据的25个数中,首位数字为1的有8个(32%);2的4个;3的3个……9的只有1个(4%)。
那是因为从首位为1增加到首位为2,经过了更长的时间(8年),从首位为2,只经过4年就变成了首位为3,而首位为9的话,下一年就不是9了。
所以,指数增长规律的数列的确符合本福德法则。
读者也许会有疑问:你上面的数列选择从100开始,1打头的比较多,如果从别的数字开始,规律是否会改变呢?
读者可以试验一下,从别的数开始得到的数据列,也一样符合本福德法则。
此外,你还可以将美元换算成人民币,得到的数据仍然会遵循本福德法则,这也说明本福德定律具有“尺度不变”。
帮助侦破“数据造假”
不管你如何诠释本福德定律,它是一个客观存在,并且十分有用!
由于大多数财务方面的数据,都满足本福德定律。
因此,它可以用作检查财务数据是否造假。
美国华盛顿州侦破过一个当时最大的投资诈骗案,金额高达1亿美元。
诈骗主谋凱文·劳伦斯及其同伙,以创办高技术含量的连锁健身俱乐部为名,向5000多个投资者筹集了大量资金。
然后,他们挪用公款用作自身享乐,为他们自己买豪宅、豪华汽车、珠宝等。
为了掩饰他们的不法行为,他们将资金在海外公司和银行间进行频繁转账,并且人为做假账,给投资者造成生意兴隆的错觉。
所幸当时有一位会计师(Darrell Dorrell )感觉不对头,他将70000多个与支票和汇款有关的数据收集起来,将这些数据首位数字发生的概率与本福德定律相比较,发现这些数据通过不了第一数字法则的检验。
最后经过了3年的司法调查,终于拆穿了这个投资骗局。
2002年,劳伦斯被判20年牢狱。
上一篇:林达尔均衡(什么是林达尔均衡)
下一篇:返回列表
相关链接 |
||
网友回复(共有 0 条回复) |