2020年07月17日 星期五
一个有趣又实用的统计方法:Benford定律
□ 张泽玥
西蒙·纽康(1835年-1909年),生于加拿大新斯科舍省,毕业于哈佛大学,天文学家。
图A
图B
图C

    Benford定律(Benford's law)广泛应用于数据统计、财务审计、医学甚至选举,它也被称为第一数字定律,是一条十分简单且实用的定律。

    Benford定律的主要内容是,在a进制中,以数字n开头的数出现的概率为 图A 。而我们一般生活中使用的是十进制,那每个数字开头的概率就为 图B 。比如:5开头的概率为 图C 。这个定律看起来十分简单,但是验证起来却是有很大难度的。如果大家对严格证明有兴趣,可以查看Hill,T. P. “A Statistical Derivation of the Significant-Digit Law”,Stat. Sci. 1996.

    那么,这样一个应用广泛且十分简单的定律是如何产生的呢?虽然它名为Benford定律,但这个规律最开始是由天文数学家西蒙·纽康(Simon Newcomb)发现的。19世纪的时候没有电脑,大量的复杂计算需要查看数学手册上的对数表。当时的纽康担任的是计算员,基本上天天都要使用数学用表。1881年,纽康发现对数表在1开头的那几页比较旧,而后面的却越来越新。由此可以得出开头几页被翻阅较多,从而推论以1为首的数字出现的频率更高。1937年,物理学家法兰克·本福特(Frank Benford)统计了大量的人口数量、新闻报纸、读者文摘、河流长度与面积、死亡率、数学常数和原子重量等,再次发现了这个现象,并且通过大量的数据来验证这一个观点,这便得出了现在的Benford定律。

    Benford定律在经济领域的应用十分广泛,它甚至被称为“异常侦探模型”或“数字舞弊识别方法”。1992年,Mark J.Nigrini在他的博士论文“The Detection of Income Tax Evasion Through an Analysis of Digital Frequencies”中提出,可以用Benford定律检验是否有伪账。一般来说,自然情况下得到的账目表是符合Benford定律的,而通过某些手段做出的假账由于是人为操作的,很难满足Benford定律。例如2016年的金亚科技财务造假事件,很明显地可以看出,金亚科技财务中各种开头的数字并不符合Benford定律并且有大量偏差。还有,著名的安然公司造假案也是一样的情况。但是,其他众多集团,例如贵州茅台、暴风集团,他们的财务数据是较为符合Benford定律。这些案件都可以向我们证明Benford定律的作用巨大。而它最大的优势在于简单、可操作性更强,只用对数据进行简单的统计与分类便可以得到对应的结论。这在计算机技术发达的今天,可以说是易如反掌。

    但是,我们需要注意的是,并不是只要与Benford定律产生偏差就是做了假。因为,Benford定律有其特殊的使用条件。它需要数据跨度足够大,也需要数据数量足够多。如果数据的数量达不到一定的值,很容易会产生偏差,得出错误的结论。而且,在财务记录本身就会具有很多的人为干扰在里面,例如付款限额、审批限额等限额以及产品的固定的价格都容易造成某些数字开头的数据出现频率的升高。所以,并不是只有完全完美的契合Benford定律的账目才是没有造假,有一定的偏差也是正常现象。

    此外,对于样本数据很大的数据,Benford定律也仍然有一定的缺陷。因为Benford定律只统计各种数字开头的数据占总数据的比例,而不反映单独数据的情况,所以很难勘察到偏差较大的数据。如果样本中出现了异常的超大金额的现象,则Benford定律并不能很直观的体现出来。

    当然,尽管Benford定律存在一些缺陷与不足,但是它还是可以很方便快捷地对是否造假这个问题做出一定的回答。人们仍然在探索Benford定律在其他领域的作用,也期待Benford定律更加广泛地应用到各个领域中去。

    (作者系南京大学匡亚明学院)

京ICP备06005116