大數據權威:真正的障礙不在技術而是態度

我們想讓你知道的是

為什麼H1N1疫情的預測是由Google率先提出?

唸給你聽
powerd by Cyberon

撰稿:何宛芳

近日台灣爸爸媽媽們都在為風聲鶴唳的腸病毒疫情煩惱,殊不知早在2009年美國就針對H1N1流感疫情發展出了預測機制。而且,這個流感疫情預測機制竟不是來自醫療體系,反而是八竿子打不著的Google?

首度來台的《大數據》一書作者麥爾荀伯格在11日的演講中,就以大數據(Big Data,又稱巨量資料)的真實案例作為開場,例子中的Google,先是找出全美使用者最常搜尋的五千億種關鍵字,再跟美國疾病管制局的流感傳播資料比對,找出搜尋關鍵字與流感傳播的相關性。

結果,Google這套流感預測機制,不但在2009年精準地預測流感在各地區、城市的傳播情形,而且甚至還比美國疾病管制局的系統快了兩週。

麥爾荀伯格指出,隨著大量的資料從類比(諸如紙張)形式轉為數位形式、儲存成本降低與運算能力的提升,在網際網路發展了20年間,人類所產出的資料已經成長了100倍,我們所面對的已經是一個「巨量資料」的時代。

「當一張照片變成一秒鐘拍16張照片時,就成了動畫,」麥爾荀伯格舉例說明,大數據不但是前所未見,由量變產生質變,甚至也將改變人們思考事情的脈絡與研究方法。

別問Why,請問What

過去人類非常執著於找到事物間的因果關係,晚上拉了肚子立刻就會聯想到晚餐是不是吃壞肚子,而忽略了事情往往比我們想像得複雜多了。然而,在大數據時代裡,因為可以準備大量資料來回應單一問題,「相關性」就可以取代過往人們習慣於研究的「因果關係」。

舉例來說,連鎖超市發現了每在颶風來襲前,店內的草莓吐司餅乾(pop tarts)就會有一波熱賣。到底「為什麼」有這樣的巧合,對店家來說其實並不重要,只要能夠確認這樣的相關性,他們就能在颶風來臨前透過更好的陳列,達成更好的銷售。

「我們只要瞭解到底相關性是怎麼一回事就好了,」麥爾荀伯格說明,在網路世界裡運用巨量資料找到「相關性」的範例比比皆是,亞馬遜(Amazon.com)的推薦購買功能,就是其中的佼佼者。

還有一個令人印象深刻的案例:多倫多大學團隊與IBM合作,將巨量資料應用在早產兒的照護機制中。

早產兒容易受到感染,出現症狀才用藥往往已過了治療時機,然而,這項計畫則透過在早產兒身上放置感應器,大量採集早產兒包括心跳等精密數據,整理出疾病發展的「模式」(patterns),讓醫生能夠及早用藥避免症狀擴延;而且最有趣的是,「這項計畫的主持人,甚至還不是醫生,而是資訊工程博士。」

大數據的價值在於「再利用」,變化才是常態

然而,麥爾荀伯格也提醒,運用大數據的重點也在於持續不斷地重跑數據,因為世界是不停地變動,唯有持續不斷的更新資料,才能得到最適切的相關性。前文所提到的Google流感預測機制,就曾因為沒有持續更新數據導致預測失準、飽受批評,最後在2012年重新調整資料後,才又扳回一城。

麥爾荀伯格進一步強調:「資料的價值在於我們儘可能的重新使用他們。」

一家整理交通路況的公司Inrix,發現了購物商場附近交通堵塞與銷售之間的關係,這家公司就靠著購買這些在堵車地帶附近店家的股票,而大賺一筆,「對他們來說,他們就把『再利用』轉換成了『營收』。」

「真實的世界遠比我們所想的複雜,但也更加有趣,對於我們身處的世界,我們也一定要更加謙卑,」不能再用過往快速、直覺的因果關係,企圖找到存在於複雜世界中的規則。而且,透過大數據觀察世界,也會發現「變化」才是常態。

「我們必須珍視變化,我們要擁抱變化,大數據只能告訴你發生了變化,它卻不能告訴我們如何應對變化,我希望能夠透過大數據讓大家知道,我們的社會永遠處在動態的變化,既然變化是無可避免,我們何不就擁抱它?為何不就將其視為新機會?但這也需要一個願意勇於冒險並自我重塑(reinvent)的社會,企業也要願意自我重塑,」麥爾荀伯格說。

障礙不在技術而是態度

只不過,他也在會後與新北市長朱立倫等人針對開放政府資料的相關對談中坦承,大數據的優勢雖然很明顯,但實際執行上,也的確會遭遇困難,無論在公部門、私部門,都會有類似的困境。

「企業的部門之間常常不願意相互開放資訊,深怕其他單位搶得機先……但是,若要得到大數據的功效,就必須要打破這些藩籬,無論是在公部門或是私部門這都是最困難的部分,最困難、最複雜的部分壓根就不是科技本身。若人們不想要一起合作、不能用一致的角度看待變化,就算有再多頻寬、伺服器、軟體也是枉然。」

最後,對此,他也提出他的解決之道:「我們不能只從科技的角度思考科技,只從大數據來看大數據,而要真正回到一般人的生活,理解民眾的偏好與需求。若我們能夠滿足需求,那麼就會得到來自群眾的支持。」

或許你會想看
更多『評論』文章 更多『名人』文章 更多『Readmoo閱讀最前線』文章
Loader