《資訊爆炸之後》:銀河般的資料創造出來後,科學已經大到我們無法知曉全貌

《資訊爆炸之後》:銀河般的資料創造出來後,科學已經大到我們無法知曉全貌
Photo Credit: iStock

我們想讓你知道的是

網際網路讓我們更容易分享自己數位儲藏室裡的東西。當資料量大到連網際網路都不好處理時,有些獨具創意的人會因此發明出新的分享方式。

文:溫柏格(David Weinberger)

大到沒辦法再用理論

一九六三年時,美國馬約診所的佛舍醫生在威望甚高的《科學》期刊上,發表了一封現在相當著名的信,抱怨科學家製造出太多的事實。這封信的標題是「磚場裡的混亂」,信中指出新一代的科學家拚命生產「磚塊」(也就是事實),卻不管這些磚塊要怎麼拼湊在一起。佛舍擔心,生產磚塊本身就已經成為一個目的。「於是,世界被磚塊淹沒了……找出適合某項工作的磚塊變成一件難事,因為必須從太多的磚塊裡尋找出來……完成一個有用的建築變成一件難事,因為當地基清晰可辨,馬上就會被埋在一大堆隨機生產出來的磚塊下。」

如果一九六三年的科學就已經像是一個混亂的磚場,那麼佛舍要是看到GBIF.org上的全球生物多樣性資訊機構,肯定會癱在地上號啕大哭。過去幾年來,全球生物多樣性資訊機構網羅了數以千計的事實磚塊收藏,從波蘭國家公共衛生研究院的細菌,到南極洲韋斯特福爾山脈的威德爾海豹,都有數量分布統計。GBIF.org的設計模式,正好就像佛舍所痛批的磚場― 只是呈現資訊,沒有任何假設、理論或架構;只不過它比佛舍所想像的還要大上好幾倍,因為這位可憐的醫生不可能想到磚場用網路連結起來後會是什麼樣子。

事實上,以事實為根據的網路化磚場是一個蓬勃發展的產業。舉例來說,「蛋白質體共享空間」網站上,有跟各種生物相關的蛋白質資訊。蛋白質體共享空間是一位研究生的一項獨立計畫,網站上分享了將近一千三百萬個檔案,總容量達十二.六TB之多。這些資料來自世界各地的科學家,並免費提供給任何人使用。另外,「史隆數位巡天」(該網站有個自命不凡的口號,是「替宇宙描繪地圖」)從分布於世界各地的二十五個機構裡蒐集天空地圖,並將之公開發布。耗時八年、於二○○八年完成的第一次調查,總共公布了兩億三千萬個天體的資訊,當中包括九十三萬個星系;由於每個星系又包含好幾百萬顆星星,這個磚場有一天可能會大到我們數不出來的規模。

這些新興的資料磚場之中,最有名的是「人類基因體計畫」。該計畫在二○○一年完成人類完整的「基因藍圖」草圖,不過光就數量而言,它已經被「國際核苷酸序列資料庫合作計畫」超越了;這個計畫截至二○○九年五月為止,已經收集了兩千五百億筆基因資料。科學資料目前已經多到讓「磚塊」這個譬喻看起來過時兩百年了,這背後有三個基本的原因。

首先,刪掉東西的經濟學已經變了。我們以前用可悲的老舊底片相機照的照片,就算是成本比現今的數位相片高上許多,絕大多數還是會丟掉,因為相冊很貴又占用空間,而且我們還要花費不少時間來決定要保留哪些相片。現在,與其瀏覽一張又一張的照片,把全部的照片丟到硬碟裡(或某個網站上),可能都不會那麼耗費成本。

這就是為什麼美國政府制定政策讓Data.gov網站在幾個月之後成立時,網站的管理人員沒有先仔細檢查所有資料,就直接讓這些資料上線。他們也沒有要求各個政府機關制定政策,用嚴格的標準來詮釋這些資料。他們所做的,只是把所有的資料丟到網站上而已。如果管理人員非要審閱資料,把所有不可靠或他們認為沒價值的東西丟掉不可,那麼Data.gov就會變成讓每個政府團隊不斷踢皮球,永遠都不可能完工的計畫了。

第二,分享的經濟學已經變了。美國國會圖書館的儲藏室裡有好幾千萬項收藏,因為物理的法則讓展示和保存實體物件困難重重(更別說分享這些實體物件了)。網際網路讓我們更容易分享自己數位儲藏室裡的東西。當資料量大到連網際網路都不好處理時,有些獨具創意的人會因此發明出新的分享方式。

舉例來說,蛋白質體共享空間所使用的Tranche系統,就創造了專屬的技術協定,讓動輒以TB計的資料可以透過網際網路分享,而且不會只有一個資料來源負責輸出所有的資訊;分享的過程本身就已經分攤到整個網路上面。新的「鍵連資料」格式,也讓我們更容易將資料分裝成許多小碎塊,並讓這些小碎塊可以被人發現和重新利用。透過網際網路存取和分享資料的能力,更會加強新的「刪東西經濟學」;本來不值得收藏的資料,現在具有新的潛在價值,因為其他人可以找到和分享這些資料。

第三,電腦的聰明度已經大幅躍進。創用CC科學副執行長(以前叫作「科學共享空間」,下文會再提到)威班克斯說:「以前要畫出一個基因的圖譜,要花上一年的時間。現在,一個人用自己的桌上型電腦,一天就可以畫三萬個圖譜了。一個兩千美元的微陣列儀器,就能讓人看到人類基因體隨著時間變化的反應。」第一位罹患H1N1「豬流感」的病人確診之後沒幾天,一千六百九十九個鹼基組成的H1序列就已經分析完成,並上傳到全球的資料庫了。即使是個人桌上型電腦都具有相當強大的處理能力,這讓大家儲存和分享的資料具有更高的潛在價值。

磚場的規模現在已經變得跟整個銀河一樣大了,可是佛舍還會聽到更多的壞消息。問題不光只是磚頭式的事實太多、蓋大樓用的理論太少而已,而是銀河般的資料創造出來後,讓科學有時候太豐富、太複雜,沒辦法簡化為理論。由於科學已經大到我們無法知曉全貌,我們對於「知曉全貌」一事也有了不同的想法。

舉例來說,任何生物的生物系統都複雜得超乎想像。就算是細胞,這個生命最基本的元素,本身也是一個系統。一個稱為「系統生物學」的新興學門,研究的就是外在刺激如何透過細胞膜傳送「訊號」。有些刺激會造成相對簡單的回應,但又有些刺激會造成一連串的反應。若要理解這些訊號,不能把它們各自分開來看。就算只是一個細胞,整體的反應都超出用這些細胞組成的人類所能理解的範圍。

二○○二年時,北野宏明在《科學》期刊上發表一篇系統生物學的專題報導(這也代表這個新興領域的重要性受到公認)。他寫道:「這個領域現在之所以讓人再次加以重視,主要是因為分子生物學的進展……讓我們可以收集系統表現的完整資料,並得到跟背後的分子有關的資訊。」當然,我們現在有辦法收集完整的資料,完全是因為電腦變得這麼強大的緣故。在以書籍為主的時代裡,系統生物學根本就不可能存在。

由於我們現在能夠存取這麼多的資料,一種新型態的科學於焉誕生。這種科學不僅能夠研究「一個細胞或生物體個別的特性」(這裡引述北野宏明的話),更能研究那些不在個別部分出現的特性。舉例來說,我們身為生物體的一個驚人特性,就是我們相當強韌― 我們的身體會一而再、再而三地復原(當然,一直到它沒辦法復原為止)。韌性是一個系統的特性,而非構成這個系統的個別元件的特性;這些個別元件可能並不強韌,而且有些會像保護蟻后的螞蟻一樣,可能會「自我犧牲」,讓整個系統有辦法存活。事實上,「生命」本身就是整個系統所具備的特性。

現在的問題(或至少說是改變)是,就算系統只跟一個簡單的細胞一樣複雜,我們人類也沒有辦法理解。這並不是說我們在等人發明一套絕妙的理論,讓我們可以就此釐清所有的細節分別有什麼樣的地位。事實上,這個理論早就已經根深柢固了:細胞系統包含一套詳盡的交互作用,這些交互作用可以視為各種訊號和回應。可是,這些互動機制的數量和複雜度,超出了人類大腦能夠理解的範圍。

這種系統的科學,必須仰賴電腦來儲存所有的細節,並檢視它們如何互動。系統生物學家會建構電腦模型,用軟體來模擬幾百萬個元件互動時會發生什麼事情。這有點像是預測天氣,但跟預測天氣比起來,系統生物學更仰賴特定事件,也比較不會仰賴一般的通則。

我們常常無法掌握這般複雜的模型(不論是細胞生物學、天氣、經濟體系,或甚至是高速公路路況),因為世界比我們的模型所能掌握的還要複雜。不過,有時候它們可以準確預測系統會怎麼運作。就最複雜的層面而言,這些是湧現與複雜的科學:如果只看個別元件,會看不出這些科學所研究的系統特性為何,而這些特性只有藉由觀察究竟發生了哪些事情,才能做出準確的預測。

書籍介紹

本文摘錄自《資訊爆炸之後:網路思想先驅溫柏格解構資訊爆炸、知識轉型與資訊焦慮》,貓頭鷹出版
作者:溫柏格(David Weinberger)
譯者:王年愷

網路思想先驅溫柏格的知識大預言

  • 前版書名:Too Big To Know:網路思想先驅溫柏格重新定義知識的意義與力量

數位革命的知識形態
數位革命改變了人類文明,知識的結構也已徹底改變。

過去,知識經過編輯過濾,裁切成有限的內容收錄進書本中,被刪除的內容並不會被看見;如今,知識離開了紙張,不再有界限,也沒有根基。知識已經「網路化」了。網路思想先驅溫柏格在本書中清楚說明,在商業、科學、教育和政府領域裡,網路化的知識究竟如何影響我們的思考與決策。

傳播演化的困境

印刷術的誕生讓知識和資訊得以透過書籍快速的流通,而在網際網路誕生之後,知識傳播在速度和便利性上都獲得了巨大的提升。然而這樣爆炸性的成長開始讓很多人感到焦慮不安:這麼多資訊,怎麼可能吸收、更別提消化得完?於是諸如搜尋引擎的篩選和過濾變得更加重要,為我們省下更多時間判讀與選擇。

資訊的共享與合作

網際網路帶來的另外一個面向是讓資訊的產出更加容易,現在我們可以直接在社群網站、維基百科、YouTube留下自己的想法或者新的發現,更可以透過這樣的直接產出促進討論、進而合作建構「網路化的知識」。網路化的知識不僅開放而且多元,使得我們獲取知識的方式與以往完全不同。

本書撼動了我們對「知識」的基本概念,讓人看見在一切交相互聯、大到無法掌握的世界裡,擺脫了紙本並自由延伸的網路化知識,如何讓我們更接近知識的真相。

getImage-2
Photo Credit: 貓頭鷹出版

責任編輯:潘柏翰
核稿編輯:翁世航


Tags: