一的力量:如何利用「班佛定律」偵破數字詐欺?

一的力量:如何利用「班佛定律」偵破數字詐欺?
Photo Credit: Depositphotos

我們想讓你知道的是

這個世界時不時就會有某些簡單的想法席捲全世界,班佛定律就是其中之一。班佛定律說的是,計算一組數字中不同位數的數字,藉此查看它們的分布有多麼隨機。正如羅伯特.馬修斯在本文所說的,這個簡單的想法讓某些人鋃鐺入獄,因為他們冒險打破了班佛定律。

文:羅伯特.馬修斯(Robert Matthews)

一的力量

當亞歷克斯請他的小叔幫他處理期末報告時,他完全不知道自己即將揭開一樁黑暗的秘密。亞歷克斯是加拿大哈利法克斯市新斯科舍的聖瑪麗大學的會計系學生,他需要一些商業人士的幫忙,而他小叔的五金行顯然是他可以求助的對象。

從今年的銷售數字看,亞歷克斯認為五金行沒什麼明顯奇怪的地方。不過,他還是為了作業做了他該做的事,並且根據他的會計教授馬克.尼格里尼(Mark Nigrini)的要求,做了一個奇怪的小小例行公事。他把銷售數字全部看過,把以1開頭的數字都記錄下來。結果,1開頭的數字占了整體數字的93%。他把作業交出去後,就沒再想這件事了。

之後尼格里尼批改作業,他看了這數字一眼,發現了一個讓人尷尬的事情。在看過亞歷克斯幫小叔的帳目所做的分析之後,他的疑慮更深了。在這些銷售數字中,沒有一個數字是從2-7開始的,而且只有四個數字是8開頭,二十一個數字是9開頭。經過幾次檢查後,尼格里尼的心裡很篤定:亞歷克斯的小叔是個詐欺犯,他系統性地做假帳,以避免銀行經理和稅務稽查員的注意。

他可真有本事啊!乍看之下,這些銷售數據沒什麼可疑的,沒有會引起稅務當局注意的驟升或驟降。但這也正是問題所在:這些數字太規律了。這就是為什麼這些數字,不符合尼格里尼要求亞歷克斯做的例行公事。

尼格里尼知道的事,顯然是亞歷克斯的小叔不知道的,那就是店裡的銷售數字,應該要符合人們在一百多年前意外發現的數學規則,這規則被稱為「班佛定律」。世上有多到讓人驚嘆的現象都遵循這個定律,從股市價格到人口普查數據,到化學物的熱量都是。即使是從報紙上抽出的數字,也會遵守這個定律,也就是大約有30%的數字會以1開始,18%的數字會以2開始,而以9開始的數字會下降到4.6%。

這是一個讓人意想不到的定律,起初很多人根本不相信這是真的。多年來,在人們視這個定律為數學上的怪事後,現在所有人都相信班佛定律,無論是法醫、會計師還是電腦設計師,他們都認為班佛定律可以幫他們用非常輕鬆的方式,解決一些棘手的問題。

發現這個定律的故事,和這定律本身一樣奇怪。1881年,美國天文學家西蒙.紐康(Simon Newcomb)在《美國數學期刊》發表了一篇文章,文中提到他注意到和對數有關的書籍有個奇怪現象,後來科學家廣泛運用他的發現進行計算——這些書的第一頁,變髒的速度似乎比最後一頁快很多。

顯而易見的解釋,聽起來讓人困惑。由於某些原因,人們對1開頭的數字所進行的計算,比對8和9開頭的數字更多。紐康提出的一個小方程式,很適合用在這個模式:自然界對數字的安排似乎有一個傾向,那就是以D位數為起頭的數字比例,會等於以10為底的1 + (1/D)對數。

紐康在論文裡並沒有提出特別有說服力的理由,說明為什麼這個公式會有用,所以他的文章並未引起人們太多的興趣,而「骯髒頁面效應」(Grubby Pages Effect)則被人們遺忘了半個多世紀。但在1938年,美國通用電氣公司的物理學家法蘭克.班佛(Frank Benford)再次發現了這種效應,並提出與紐康相同的定律。然而,班佛更進一步蒐集了超過兩萬個數字,這些數字從河流排水區列出的數據,到舊雜誌裡文章出現都有。班佛表示,這些數字都遵循了相同的基本定律:大約有30%的數字以1開始,18%的數字以2開始,依此類推。

和紐康一樣,班佛對定律的存在,也沒有任何很好的解釋。即使如此,他因為提供了十分豐富的證據,證明了這種現象的真實性和特殊性,而使得他的名字從那時開始,一直和這個定律連在一起。

必須再等上將近四分之一個世紀,才終於有人對一個關鍵問題提出合理的答案,這個問題是:為什麼這定律適用於來自不同地方許許多多的數字?第一個大進展發生在1961年,當時在新澤西州新布藍茲維羅格斯大學的羅傑.平卡姆(Roger Pinkham)提出了精鍊的水平思考。平卡姆說,假設世界上真有一個用來管理數字的普遍定律,可以用來描述自然現象,像是河流的排水區域和化學物質,那麼無論我們用什麼單位來計算,這樣的定律都必須有效。甚至是左柏(Zob)星球的居民,如果他們用某一種叫做剛帝克斯(grondekis)的單位來衡量面積,那麼我們也必須在那裡的排水區域中,發現與用公頃測量時得到的一模一樣的數字分配。但如果八十七點三三一公頃等於一個剛帝克斯的話,這怎麼可能呢?

平卡姆說,答案是要確保數字的分配不受單位變化的影響。假設有一百萬條不同的河流,你知道它們以公頃為單位計算出的排水面積,而把這些面積轉換成用剛帝克斯來表示,將會改變個別面積的數字。但總體而言,數字的分配仍會和先前一樣。這個特性就是所謂的「標度不變性」。

平卡姆在數學上表示,班佛定律的標度的確是不變的。然而非常重要的是,班佛定律是唯一能將數字分配得具有這種屬性的方法;換句話說,任何一個能描述數字出現頻率的「定律」,若能具有普遍性,那麼它就非班佛定律莫屬了。