人工智慧與大數據(上):用數據解決問題的「老方法」和「新手段」

人工智慧與大數據(上):用數據解決問題的「老方法」和「新手段」
Photo Credit: KamiPhuc @ Flickr CC By 2.0
我們想讓你知道的是

數據量的湧現讓「使用數據解決問題」再次獲得了質的提升,這種新的「使用數據解決問題」的手段,就被稱為「大數據思維」。

唸給你聽
powered by Cyberon

近些年來,「人工智慧」和「大數據」這一些科技名詞被宣傳得沸沸揚揚,有些人對這些新技術感到樂觀,有些人對這些新技術感到恐懼。還有大多數人雖然知道了、稍微了解了其背後隱藏的潛力與可能性,知道人工智慧可以打敗圍棋冠軍,但實在想不出它跟自己到底有什麼關係,跟自己的未來有什麼關係。

這星期解讀的是《智能時代》(台版名為《超級智能時代》),作者吳軍是個通才,很早就加入了谷歌工作,身兼自然語言處理專家、風險投資人、作家等身份,出版過多本著作,主題從文明史到科技史,從數學到人工智慧。《智能時代》這本書,可說是吳軍在前沿科技領域的見識,結合他對歷史的研究的結晶。

但與其說這本書談的是智慧,不如說這本書談的是數據對人類和文明的作用,對個人和企業成功的作用。

數據是文明的基石

一談到數據,我們首先就想到記錄在電腦裡的電子數據,但事實上,電子數據只是數據的其中一種形式而已。人類其實在很早期就已經開始使用數據了,吳軍在書中提到一個例子:

早期人類得到的數據是從哪裡來的?

其中一個重要的來源是對現象的觀察。從觀察中總結出數據,是人類和動物的重要區別,後者雖具有觀察能力,卻無法總結出數據,但是人類有這個能力。而得到數據和使用數據的能力,是衡量文明發展水準的標準之一。

我們的文明從一開始就伴隨著對數據的使用,可以說數據是文明的基石。人類最初希望瞭解到的是周圍的世界,這樣可以更好地生活。早在埃及法老們開始修建金字塔的幾千年之前,閃米特人和當地的土著就在尼羅河畔辛勤耕耘了。

為什麼他們會選擇在那個地方定居呢?除了氣候溫暖之外,最重要的原因是每年尼羅河都會發洪水,洪水退去之後留下大片肥沃的土地供他們耕耘收穫。

為了準確預測洪水到來和退去的時間,以及洪水的大小,當時的埃及人開始觀察天象,並且在觀察數據的基礎上開創了天文學。他們根據天狼星和太陽同時出現的位置來判斷一年中農耕的時間和節氣,然後準確地判斷洪水可能到達的邊界和時間。

古埃及人觀察到一年的時間不是正好365天,而是多了一點,但在古埃及的曆法中又沒有閏年,於是他們用了一個非常長的「季度」長達365 x 4 + 1 = 1461天,因為每隔這麼多天,太陽和天狼星就一起升起。

事實證明,以天狼星和太陽同時出現作為參照系比以太陽作為參照系更準確些。這實際上也說明了好的模型要和數據相吻合的道理,因此古埃及人已經有了從數據中總結數學模型的基本能力。

透過上述天文學的起源和發展曆程,我們可以清晰地瞭解到數據在人類發展過程中所產生的巨大作用。

人類另一個古老的文明中心是美索不達米亞平原,那裡的蘇美爾人對天文學有了進一步的發展,他們根據觀察發現月亮每隔28~29天就完成從新月到滿月再回到新月的週期。

他們同時觀察到每年有四季之分,每過12~13個月亮的週期,太陽就回到原來的位置,這樣他們就發明了太陰曆,曆法實際上就是對天文現象的一個數據化描述。蘇美爾人還觀測到了五大行星(金、木、水、火、土,因為肉眼看不到天王星和海王星)運行的軌跡不是簡單地圍繞地球轉,而是波浪形的。西方語言中行星(planet)一詞的意思就是漂移的星球。

他們還觀測到行星在近日點運動比遠日點快,以及金星大約每4年在天上畫一個五角星,他們記錄了這些。在美索不達米亞文明中,當地的數學家一直試圖利用他們所獲得的天文觀測數據建立起我們今天所說的數學模型,來完成從數據到知識的過程。利用這些模型,美索不達米亞人能夠計算出月亮和五大行星的運行週期,並且能夠預測日食和月食。

從這些例子可以看出,人類的文明過程其實伴隨著如下所示的這樣一個過程:

獲取數據-->分析數據-->建立模型-->預測未知

由此可見,數據在人類文明中起到了基石的作用。

使用數據解決問題並不是近代才出現的事情,人類在很久以前,就已經開始使用數據解決問題了。

上面提到,人類對自然現象進行了觀察,總結並記錄數據,然後以這些數據推導、建立出模型來描述自然規律,從而更精準的預測未來。這裡,你可以把「自然現象」換成「任何現象」——所有你可以觀察並進行總結記錄的東西,都可算作是數據,都可以用來解決問題。

我們在日常中就經常使用數據來解決問題,你會有意或無意的注意到老闆通常會什麼時候進入辦公室,會留意老闆星期幾會比較早到,星期幾會比較遲到,然後你會有意或無意的根據這一些數據來調整上班時的活動,在某個鐘點比較勤勞,某個鐘點比較不勤勞。

你也會觀察你的伴侶對什麼事情敏感,對什麼事情不敏感,在什麼時候心情會比較好,在什麼時候會特別暴躁,然後你會在適當的時候跟他/她提出放在你心中許久的某個要求。

當然,這種人人都會的收集數據的手段,是相對「古老」的。在我們身處的這個時代,有新的手段。

在思維方式上,抄捷徑

人類很早就已經懂得使用數據解決問題,而這一「使用數據解決問題」的能力隨著人類文明演進逐漸提升,並發展出科學、統計學之類的知識體系。

這些學科的其中一個重要特點,就是科學家們所提出的理論模型,是需要建立在與真實世界相契合的數據之上的。所以當科學家提出一個假設時,他們會透過設計實驗和統計學的手段,在真實世界中找到支持或推翻假設的數據。某種程度來說,科學的方法論其實就是一種獲取和分析數據的手段。

比起相對原始的獲取數據的手段,亦即你有意無意的觀察你老闆或伴侶並獲取數據的手段,科學方法論的興起無疑讓人類「使用數據解決問題」的能力獲得了質的提升,人類的思維方式產生了改變。

而在近年,隨著「資訊時代」的來臨,電子數據開始大量湧現,而如果說數據是文明的基石,那麼數據大量湧現也許就暗示著文明正在加速演進。

數據量的湧現讓「使用數據解決問題」再次獲得了質的提升,這種新的「使用數據解決問題」的手段,就被稱為「大數據思維」:

(已經相當熟悉大數據思維和人工智慧的可以跳著看)

大數據思維不是抽象的,而是有一整套方法讓人們能夠通過數據尋找相關性,最後解決各種各樣的難題。當人們改變思維方式後,很多過去難以解決的問題在大數據時代可以迎刃而解。

在美國,毒品問題是一大社會毒瘤。按照一般人的想法,切斷毒源就可以從根子上解決這個問題,因此過去美國把緝毒的重點放在切斷來自南美洲的毒品供應上。儘管美國在這方面做得不錯,但是仍然無法禁止毒品的氾濫,其中一個重要的原因就是很多提煉毒品所需的植物,比如大麻,種起來非常容易,甚至可以在自己家裡種。

在馬里蘭州的巴爾的摩市東部,有一些廢棄的房屋,當地一些窮人就進去把四周的門窗釘死,然後在裡面偷偷用LED(發光二極體)燈種植大麻,由於周圍的社區比較亂,很少有外人去那裡,因此那兒就成了毒品種植者的天堂。對這一類街區進行重點排查是否就能解決問題呢?答案並不是那麼簡單。

在環境優美生活水準高的西雅圖地區,有一家人花了50萬美元買下了一棟豪宅,周圍是種滿了玫瑰的花園,平時很少有人來。這棟四臥兩廳的大宅子其實沒有人住,佔據它的是裡面658株盆栽的大麻。房主每年賣大麻的收入,不僅足夠付房子的分期付款和電費,而且還讓他擴夠了首付又買了一棟房子。

類似的情況在美國各州和力嗱大不少地區都有發生。據估計,僅加拿大的不列顛哥倫比亞省,每年這種盆栽大麻的收入就高達65億美元,在當地是僅次於石油的第二大生意。由於種植毒品的人分佈的地域非常廣,而且做事隱秘,定位這樣種植毒品的房屋的成本非常高。

再加上美國憲法的第四修正案規定「人人具有保障人身、住所、檔及財物的安全,不受無理之搜查和扣押的權利」,員警在沒有證據時不得隨便進入這些房屋進行搜查。

因此,過去員警雖然知道一些嫌犯可能在種植毒品,也只能望洋興嘆,這使得美國的毒品屢禁不止。但是到了大數據時代,私自種植毒品者的好日子就快到頭了。2010年,美國各大媒體報導了這樣一則新聞:

在南卡羅來納州的多賈斯特縣(Dorchester County),員警通過智慧電錶收集上來的各戶用電情況分析,抓住了一個在家裡種大麻的人。

無獨有偶,這則消息出來以後不久,媒體陸續報導出在美國其他州,員警也用類似的方法抓到在房間裡種大麻的人,截至2011年,僅俄亥俄一個州,員警就抓到了60個這樣的犯罪嫌疑人。為什麼最近這些年員警抓嫌疑犯的效率一下子變得如此之高呢?

因為以前供電公司使用的是老式的電錶,只能記錄每家每月的用電量,而從十幾年前開始,美國逐漸采用智慧電錶取代傳統的電錶,這樣不僅能夠記錄用電量,還能記錄用電模式。

種植大麻的房子用電模式和一般居家是不同的,只要把每家每戶的用電模式和典型的居家用電模式進行比對,就能圈定一些犯罪嫌疑人。

對於查處毒品種植的案例,我們看到了大數據思維的三個亮點:第一是用統計規律和個案對比,做到精准定位。第二是社會其實已經默認了在取證時利用相關性代替直接證據。第三是執法的成本,或者更廣泛地講,運營的成本,在大數據時代會大幅下降。

大數據思維除了可以用來解決社會問題之外,還可以用來解決商業問題,事實上,商業是最廣泛使用大數據思維的領域之一。

大數據在商業的應用可分兩種,線上和線下——我們都知道,諸如亞馬遜、淘寶之類的電商會透過收集、分析用戶的數據來了解每一個個體,把你最可能會購買的商品推薦到你眼前,以增加營業額。但除了這類線上的數據應用,線下的用戶數據收集也悄悄的開始進行了,書中提到了著名奢侈品Prada的案例:

普拉達(Prada)是義大利著名的奢侈品品牌,有著100多年的歷史,它的產品主要包括服裝、皮具和皮鞋等。通常購買奢侈品的過程和一般商品不同,購買者不僅需要購得一件奢侈品,而且希望享受購物的過程。

這些體驗常常只有在顧客密度不高的專賣店才能享受到,因此隨著業務的增長,普拉達在全球開了250家專賣店。和很多奢侈品一樣,普拉達的銷售有一半來自它的專賣店,而不是高端百貨店或者網站直銷。

奢侈品銷售還有一個特點,就是它的銷量要看是否贏得了消費群體的喜爰,而與價格關系不是很大,因此很難通過降價促銷來提高業績。至於能否臝得人數並不多的消費群體的喜爰,在過去主要是看設計師的經驗和專賣店行銷的水準。

不過,經驗和行銷水準在過去常常靠不住,或者說不可能靠得住。據《奢侈的!》(Deluxe: How Luxury Lost Its Luster)一書的作者、專門研究奢侈品的獲獎作家戴娜·托馬斯(Dana Thomas)女士介紹,這些奢侈品時裝的銷售好壞常常看運氣。

雖然在外界看來大牌時裝設計師有很高的藝術水準和經驗,而且他們也是非常盡心盡力地設計好每一款產品,但是市場反應如何他們完全不知道。

至於銷售水準也是如此,雖然這些奢侈品品牌在設計和佈置專賣店時非常盡心盡力,比如某家大牌公司在北京新開一家專賣店之前,1:1的模型就做了3個,但是其實沒有人事先確定專賣店的設計應該是什麼樣的,裡面的時裝應該如何擺放。

更糟糕的是,公司和設計師在過去甚至無法根據銷售的結果瞭解成功或者失敗的原因。比如一款時裝賣得不好,是設計的問題或製作的問題,還是在專賣店銷售的問題一一比如沒有把它放到明顯的位置,這些都無從得知,當然就談不上總結經驗教訓了,因此一切都是靠運氣。

但是,這些問題在大數據時代開始有了答案。早在2001年,普拉達就開始利用最新的IT技術來提升它的銷售。首先,它在商品的標籤裡嵌入一個很小的RFID晶片。

RFID是一種不需要電源的晶片,裡面存儲的資訊可以被專門的閱讀器發出的無線電波探測出來。根據《普拉達:欲望的科學》一文的描述,銷售人員揮動一下商品,RFID的閱讀器就可以識別這件商品並且給出它的詳細信息。

更重要的是,這個晶片可以把客戶正感興趣的這一件商品和他們可能感興趣的其他商品聯繫起來,這有點像亞馬遜的商品推薦。據普拉達的銷售副總裁丹·斯坦尼克(Dan Stanek)講,通常顧客和店員的交互越多,購買的可能性越大,因此相關的推薦非常有用,沒有這種智能晶片之前,其實店員不知道該推薦什麼給顧客。

當然,普拉達所做的遠不止嵌入一個小晶片做商品推薦,它還改造了專賣店的試衣間,這樣每一次顧客把時裝拿到試衣間試穿,店裡都能記錄下來。

普拉達的數據分析師根據這些數據就能知道如果一件時裝賣得不好,是因為放在店裡沒有人注意到(根本沒有拿去試穿),還是因為試穿後顧客不喜歡。根據這些資訊,公司就知道問題出在設計和製作上,還是出在銷售上。

普拉達的智能試衣間能夠做的事情遠不止收集試衣的次數和時間這些簡單的資訊,它有一個螢幕,能夠讓顧客從各個方位「看」到自己試穿上一件衣服或者戴上圍巾、皮具的效果。它還可以讓顧客看到自己試穿不同尺碼、不同顏色類似服裝的效果,這樣顧客不僅不需要拿一大堆衣服到試衣間,而且有欲望「試」不同的搭配。

在過去,如果這家專賣店沒有一些顏色和尺寸的搭配,顧客常常轉身就走了。現在,顧客可以通過試衣間的屏幕,大致瞭解自己試穿那些自己並沒有試的服裝的效果,如果他們喜歡,普拉達的專賣店可以從其他商店為顧客調來他們所喜歡的服裝。

利用大數據,普拉達的銷售額從2001年的15億美元左右,提高到2013年的40多億美元,這個增長速度要遠遠高於全球的經濟增長速度,也高於服裝行業總體水準。

值得一提的是,這種大數據思維並不像科學方法論所要求那般「大膽假設,小心求證」,普拉達的數據分析師並沒有提出了假設之後,才收集數據,而是在盡可能多維度的收集數據之後,直接發現答案

人工智慧與大數據(下):大數據允許我們在思維方式上「抄捷徑」

本文經4THINK授權刊登,原文刊載於此

責任編輯:朱家儀
核稿編輯:翁世航

或許你會想看
更多『評論』文章 更多『科技』文章 更多『Roxas 楊大輝』文章
Loader