《數據與人性》:康乃狄克州小鎮「綿羊普查」研究,成為一舉兩得的數據救援

《數據與人性》:康乃狄克州小鎮「綿羊普查」研究,成為一舉兩得的數據救援
Photo Credit: iStock

我們想讓你知道的是

在綿羊普查中我們務必要了解,無論是/否蒐集數據的兩極化選擇,或如何儲存數據等更幽微的決定,會深深影響1787年康乃狄克州坎特伯里的資料版本如何與同時空的現實世界匹配。

文:傑爾・索普(Jer Thorp)

剪過毛的成羊數

知識變成程式碼時,狀態就改變了;好比水變成冰時,就成了新東西,有新的特質。我們使用它,但以人的角度而言,我們不再了解它。——艾倫.鄔曼(Ellen Ullman),電腦程式設計師暨作家

數據開始蒐集的那一刻,稱為數據的創生時刻。這種說法是貼切的,但不是從聖經的觀點來看,而是從生物觀點:數據開始蒐集之後,會發生許多混亂分裂、冒泡變形的情況。等我們著手處理數據的片段(或數據對我們起作用),可能已認不出這數據與當初蒐集的簡陋紀錄有何相同之處。大部分的轉變是出於數位化的需求。

這份現實世界的紀錄要經過重新格式化、修剪、語法分析,才能輸入計算機,這時它就會改變,通常會影響到如何訴說故事及如何做決定。同時,由於紀錄會經過清理、重構,放進無數的運算當中,於是這來自現實世界的事物本身可能也改變,使我們和我們的資料庫必須構思決策,以求精準(與及時)表示出來。

別忘了,任何給定事物中能如戲法般變出的數據數量幾乎是無限的。不妨在路邊撿個普通的灰石頭,玩第二章做過的鳥類數據遊戲。你很快會集結出一組描述符及值:大小、重量、顏色、質地、形狀和材料。若把那塊石頭拿到實驗室,可以讓這些數據變得更精準,而運用超出人類感官系統的儀表,還能列出更多紀錄:溫度、化學成分、碳定年。

接下來,資訊會碎形開展,其中每一項紀錄都會依序顯現出本身的數據:測量時間、用來記錄的儀器、執行任務的人、進行分析的地點。每一項新的後設資料紀錄又會帶出本身的數據:任務執行者的年齡、儀器型號、室溫。資料產生資料,又產生後設資料,過程重複、重複、再重複。數據就這樣源源不絕產生。

試著決定究竟要記錄事物的何種層面時,資料和後設資料永無止境的鏡像反射,可能令人疲憊。想像一下,圖書館編目人員正捧著一本別人剛捐贈的舊書,館員在編目時可鍵入的相關條目很多,因為書本身就格外容易產生數據。頁數、裝幀類型、文本使用的字型、書衣——所有這些都是在開始看作者可能要說什麼之前,就會看到的東西。

為了讓編目者保持理性,避免資料庫膨脹和書目卡爆量,圖書館已規定編目者要記錄哪些特定項目:書名、作者、出版者、年分——這些都是我們可能想在書目中找到的資料。編目者無法自行增列允許範圍之外的數據,例如手上那本書聞起來有淡淡的營火煙味;這對資料庫而言是不相干的。

嚴格來說,國會圖書館正如字面所言,宗旨是服務國會議員。美國國會圖書館擁有世界上最大的藏書量、一千四百萬張照片、五百五十萬張地圖、幾英里長的手稿、七把史特拉底瓦里提琴、惠特曼(Walt Whitman)的拐杖、林肯遇刺時口袋裡的東西都存放於此,若國會議員提出需求即可取得(至少理論上如此)。但是這宗旨就像在說,身體的目的是產生唾液,或者布魯克林區康尼島(Coney Island)是熱狗攤。

國會圖書館實際上是美國的國家圖書館,其壯觀的檔案、編目和圖書館員的配備絕大多數是為了服務民眾。過去一百五十年,這些民眾多半是學術研究者,前來圖書館二十一間閱覽室閱讀,用最安靜的鉛筆書寫。2016年起,曾任巴爾的摩公共圖書館館長的卡拉.海登博士(Dr. Carla Hayden)接任國會圖書館館長一職,之後這機構就慢慢朝新航道逆風轉向——遠離安靜的研究,朝向更熱鬧、更愛社交的學習類型前進。

2017年和2018年,我泰半時間都在這間圖書館找東西,構思新搜尋法,與圖書館員、檔案管理員、歷史學家談談他們已發現的東西。我在國會圖書館擔任第一任駐館創新者(他們編出的職稱),任務是要想新方法,提升大眾與圖書館龐大館藏的互動。我刻意不用計算機的思維來處理這個問題,而是盡量多與圖書館職員談話。我以錄製 Podcast節目《檔案庫裡的藝術家》(Artist in the Archive)的名義,當面和圖書館員、檔案管理員、保存者、研究員、技術人員和行政人員聊聊。

不知為何,對話總會回到數據創生時刻,亦即書、地圖或錄音資料產生編目資料的時刻。在這一刻,物件成為可找到之物的生命大致展開。如果編目者有點時間,又做事徹底,這物件就可能得到一份紀錄,有利未來搜尋。如果條目列出的日期準、地點精確,又多一行描述文字,則能大幅提升物件被找到的特殊優勢,更有機會被納入研究,訴說過往的故事。相對地,許多東西變成數據時只有稀少資訊,最後只存在於搜尋結果的最後一頁。

有時候,某項物件會很幸運,從模糊的搜尋結果中被拯救出來。一則1863年的簡報就是這麼幸運。一百五十六年來,這則剪報被誤標成林肯《解放奴隸宣言》的阿拉伯語版。2019年,科威特一名志工抄錄者在國會圖書館群眾外包平台上看到這則剪報,於是寄了訊息給圖書館,指出這文本其實不是阿拉伯文,可能是亞美尼亞文。

圖書館員研究之後,判斷這文本是新亞蘭語(Neo-Aramaic),亦即伊朗烏爾米耶(Urmia)的亞述人與迦勒底基督教徒所說的語言。隔天,這則剪報的編目紀錄就改變了,成為「新亞蘭語」第一項搜尋結果。一個半世紀後,它才剛展開搜尋得到的館藏生命。

接下來,是綿羊普查。

茱莉.米勒(Julie Miller)剛開始在國會圖書館手稿部任職時,就著手調查她專長的檔案領域——早期美國史。這項任務可是很艱鉅的:圖書館手稿部有超過六千萬個物件,分別屬於一萬三千多筆館藏。保守估計,如果每看一份文件花十分鐘,所有手稿館藏可能需要上千年才能完整探索。既然人生只有一回,米勒決定採取調查法,運用圖書館的線上目錄瀏覽館藏。

不知為何,一份奇特的文件吸引了她的目光。那份文件標題為〈麻州綿羊普查,1787〉。除此之外,沒有任何相關資訊說明這份文件是什麼或從何而來。米勒前往檔案館找這份文件。它在一份平面檔案中,放在整齊堆在金屬架上、綿延得幾乎看不到盡頭的檔案箱中。這是一張堅硬的紙張,大約103平方公分。在前面有手寫的表格,三十欄、三十列,是在Excel問世前的兩個世紀做出來的。背面以相當華麗的字跡註記:「2號。1787年列表。」

雖然紙張已有損壞,許多欄位的標題難以辨認,但米勒從仍可讀的部分清楚了解到,這所謂的普查其實是稅務文件。她研究當地的報紙和系譜資料庫,發現文件上的名字並非來自麻州,而是康乃狄克州小鎮坎特伯里(Canterbury)。在1787年夏天的某個時間點,一名官員被指派到這小鎮,計算居民人數,並評估會徵得多少稅收。「當時沒有所得稅,」米勒說明:「因此他們是依照人數來徵稅,也就是人頭稅。」

這份文件有詳細的家戶紀錄:它把「人頭」(也就是人)分成二十五歲到七十歲,以及十六歲到二十一歲,不同年齡組別會徵收不同稅額。有些欄位是記錄每人擁有的牲口數量(豬、閹役牛、公牛、閹肉牛、母牛和小母牛),以及土地的面積和類別。這份文件只記錄特殊的個人物品:時鐘和銀手錶。「只有三個人擁有時鐘,」米勒說道:「這很有趣。你以為人人都有時鐘,但是在18世紀,時鐘是很前衛的科技裝置,擁有的人不多。事實上,時鐘沒有太多用途,反而是地位象徵。」

美國在1787年尚未徵收所得稅,表格不會列出收入,但會特地提出鐘錶的問題,原因在於鐘錶代表財富。這些問題本身及所記錄的數據,讓我們洞悉這個時間與地點獨特的政治。舉例而言,綿羊有專屬的欄位來登記數量,這告訴我們,綿羊數量有不同的意義,因此收稅者才會特地問關於綿羊的問題。原來綿羊在1787年是可以扣稅的。

「這個時期,新英格蘭開始思考如何參與工業革命,」米勒告訴我。喬治.華盛頓成為總統之後不久,就曾造訪新英格蘭早期的紡織廠。他與財政部長亞歷山大.漢彌爾頓(Alexander Hamilton)在剛萌芽的紡織業看到光明前景。織品生產需要紡織廠,紡織廠需要羊毛,羊毛需要綿羊。這種產業要到1820年代才會在康乃狄克州站穩腳跟,但我們卻能在這份文件的最後一欄看見產業開始發展的跡象:「剪過毛的成羊數」。米勒說道:「綿羊主可能有意願成為羊毛先鋒,加入可能獲利的新產業。」

米勒的「綿羊普查」研究成為一舉兩得的數據救援。如今這份文件不僅存在於正確標題下(康乃狄克,稅務紀錄,1787)而得以找到,研究者也可一瞥坎特伯里人的日常生活。「量化資料通常是從未學寫字的人唯一留下的書面紀錄,這些人包括奴隸、窮人,在早期美國還包括許多女性,」米勒寫道:「事實上,各式各樣的人在日常生活中並不會留下特殊的歷史印記,而關於這些人現存的唯一資訊,就是量化資料。換言之,多數人都這樣。」

說明某資料不是阿拉伯語版的解放奴隸宣言、不是綿羊普查,代表著這兩項物件都找到出路,擺脫資料模糊度。但在圖書館的館藏裡,仍有數百萬物件永遠無法這麼幸運,那些物件缺少日期、描述或標題表,或者不準確。在把資料視為最優先的系統中,這些物件是沒有能見度的,其包含的資訊和可能訴說的故事也將乏人問津。在綿羊普查中我們務必要了解,無論是/否蒐集數據的兩極化選擇,或如何儲存數據等更幽微的決定,會深深影響1787年康乃狄克州坎特伯里的資料版本如何與同時空的現實世界匹配。


2015年,軟體開發者雅各.哈里斯(Jacob Harris)在一篇文章中探討了資料真實性與現實世界這種不匹配(mismatch)的現象。他想像,有人要求程式設計師建立一個資料庫,追蹤虛構國度「贊達」(Zenda)的囚犯。這些開發人員處理問題時,就和你、我或其他任何面對這個問題的人如出一轍,先建立資料結構——綱要(schema)——這個結構是符合他們對現實生活的評估。程式設計師的資料庫記錄了贊達囚犯的姓名和出生日期,以及每個人目前是否在押的真(true)/假(false)值。

這個觀念是在囚犯釋放時,「關=true」會變成「關=false」。這種true/false 值稱為布林值(Boolean),對程式設計師來說非常方便,原因有二。首先,它們在計算機記憶體中占的空間非常小;其次,操作起來很簡便。布林邏輯——這些true/false值能相加、相乘或相除的方式——是計算機程式碼的核心所在。

幾乎任何計算機程式都有評估布林值的指令,就像閱讀多重冒險結局的書籍時,讀者會遇到要做選擇的時刻,不同選擇帶來不同結局;而計算機會依據這些true/false值的組合來評估,做出不同的事。如果關=true,大門會上鎖。如果關=false,大門會打開。在多數資料應用程式中,常運用布林值來找資料庫中匹配的資訊子集——SELECT * FROM 囚犯 WHERE 關=true。

哈里斯筆下的開發人員很快明白,雖然「關」的布林值對資料庫來說很方便,卻與監獄的現實情況無法吻合。比方說,如果一名囚犯已遭逮捕卻尚未入獄,該怎麼辦?另一方面,如果他們已獲判無罪,卻尚未獲釋呢?程式設計師的第一直覺是增加更多布林值:「被逮捕」(captured)、「被關押」(captive)、「獲判無罪」(acquitted)、「釋放」(release)。開發者往椅背一靠,相信已把現實建立模型,建立好的true/false串接會訴說所有囚犯的故事。然後,令他們沮喪的是:一名囚犯獲判無罪,之後釋放,後來又被逮捕。這時可憐的布林值該怎麼做?

哈里斯的文章要說的是,看似無關緊要的程式碼決定如何顯著影響數據的溝通能力。確切地說,這裡談的是計算機加諸於數據上的精準度,會如何與哈里斯所稱的真實世界「混濁現實」相衝突。他的文章強調了一個常遭忽視的關鍵點:雖然計算偏誤可能來自重大決策,但也可能是來自小小的決定。儘管我們對機器學習系統的編寫方式亟需具批判思考,但需要留意程序細節的影響——比如資料點是否被儲存為布林值,或者一個數字,或是一段文字。

我讀了這篇文章之後懷疑,哈里斯筆下的贊達監獄例子,可能暗指現實世界的某個體系;假設中的程式設計師所面對的布林難題,或許來自哈里斯在《紐約時報》新聞編輯室任職時碰到的實際問題。終於,在他離開《紐約時報》兩年,努力為公部門處理數據時,推文承認這件事。幾個月後,我和他坐下來聊布林值和資料結構,以及世界上最惡名昭彰的軍事監獄。

2008年11月,《紐約時報》刊登〈關塔那摩判決摘要〉(The Guantánamo Docket)。這是一個互動式資料庫,包含大約七百八十名曾經(或依然)囚禁在古巴南岸關塔那摩灣(Guantánamo Bay)拘留營的人的資訊。九一一以來,這項資訊一直是缺失資料集,分類在不公開發布的資訊類別。2010年2月,情況出現變化:切爾西.曼寧(Chelsea Manning)向維基解密洩漏了七十五萬份文件,包括近八百個和關塔那摩灣有關的檔案。這些「關塔那摩監獄檔案」(Gitmo Files)包含拘留者的評估、面談和內部備忘錄。自從曼寧洩密之後,〈關塔那摩判決摘要〉已透過記者的調查和《資訊自由法》取得的文件而不斷更新。

正如哈里斯對我的說明,〈關塔那摩判決摘要〉資料庫的建立,幾乎和虛構的贊達一樣——依據初始假設,先建立簡單結構,再予以重新打造和重組。新聞編輯室有截稿壓力,開發者通常還沒學會走就得會跑會跳。「你對數據不是那麼了解,因為你才剛被塞了龐大的CSV(逗號分隔值)文字檔,就要趕快上傳,或有一堆紀錄必須速速瀏覽。你是在截稿期限下工作,沒有時間慢慢看。」

「你先從最容易取得的案例著手,」哈里斯繼續說道:「之後開始尋找比較難找的東西。你可能有你所知最常見的囚犯紀錄,也就是曾在媒體上列出的囚犯之類。」此時,開發者唯一真正的選擇是依照他們能看到的數據,建立資料結構。運氣好的話,任何數據不那麼符合資料結構的囚犯案例,就會被標示成邊緣案例:怪異的單獨特例,無法代表大部分的預期資料。「之後你開始尋找其他名字,」哈里斯告訴我:「以你能得到的東西而言,那些通常是混濁得多的數據,但也是之後更常遇見的數據。你不知道什麼時候才會明白這是唯一的邊緣案例,還是以後會有幾十個、幾百個、幾千個?」

舉例來說,假設有一筆關塔那摩囚犯的紀錄。沒有列出這名囚犯確切的出生日期,只有年。他要怎麼符合綱要中所要求的生日月日年的輸入格式(MM-DD-YYYY),例如06-24-1982?「你會把他們的出生日期寫成1月1日,當作是那一年的特定日期?或重寫資料庫,把日期分解成三個部分:年、月、日?」第一種方法當然比較簡單,但這需要未來資料庫的使用者知道1月1日代表「未知」。若這囚犯確實是在新年出生的寶寶怎麼辦?於是漫長的三方角力展開了:程式設計師的時間、計算機的要求,以及實際存在的現實世界。

「你期盼有一天能丟掉這資料庫,然後從一個讓它一切正常的資料庫重新開始,」哈里斯說道:「但你知道你未來必須維護這個資料庫。」因此,與其重新改寫程式碼,以求更吻合現實,更常見的做法是重新改寫數據,以符合計算機期望值。在新聞編輯室的現實世界,大部分是符合程式設計和資料科學外的更廣大世界,然而關塔那摩的報導每天都在上演,資料庫和其僵化的結構主導了現實世界的哪些數據被儲存為位元和位元組、布林值、浮點數和字串,還有哪些部分要丟棄,好把資料修改成符合計算機的「千篇一律邏輯」。


「我認為很多計算機系統和很多資料輸入系統都有用,」哈里斯在訪談即將結束時告訴我:「因為它們訓練我們像計算機一樣思考。」了解到這一點,促使我們在看〈關塔那摩判決摘要〉時,思考故事的哪些部分可能是因為資料庫需求和程式設計師的決定,而被轉換到運算邊緣。

的確,我們可以在閱讀新聞報導或聽政治人物演說時問這個問題:在一則數據故事中缺失了什麼,因為這東西本身是在計算機不可妥協的思考方式之外?哈里斯指出,性別就是一例,並指出性別如何在過去被程式設計師當作資料來處理:男/女二元。「如果你不屬於其中一種分類,那就糟了。基本上你是在告訴那些人,你不算個重要的人。」

我們在前幾章了解到,數據可以賦予特權,而缺少數據會把一件事物推向邊緣。我們從過去以來的紀錄中看到,一件事物資料化的過程以及用來保有資訊的結構侷限,會深深影響那件事能如何加入資料庫和搜尋引擎、新聞文章、法庭聽證。

這種影響——資料被修剪或改變,以符合機器的期望值——可以稱為綱要偏誤。對於建立資料系統的參與者來說,綱要是一種藍圖,說明哪些類型的資訊會被儲存、存成何種形式,以及哪些類型的資訊會被拒絕的地圖。在認知科學中,基模(schema)是一種思維模式,是有預設立場的思考框架,會引導人如何看待世界:如果你觀察到某事物完美符合你的基模,它就會輕鬆有效地納入你的記憶中。

另一方面,與基模不合的事物通常不會被注意或記憶,或者會依照你已經建構的框架來調整,以符合你的預期。許多安排我們數據生活的機器都是以同樣的方式運作,較留意完美符合其綱要的事物,忽略那些不符合的——或改變它,使之符合。

了解綱要的偏誤會如何放大格外重要。要了解新聞編輯室的程式開發者所做的決定,會如何影響資料點的儲存方式、視覺化的製作方式、報導的訴說方式、大眾的理解方式。用以儲存資料的結構,會影響到事物如何被發現與遺失、歷史是如何書寫的,以及裡面包括誰。演算法有擴張傾向,會在這些省略處自行迴圈,直到成為夠大的坑洞,影響人們如何在數據中生活與失去生活。

書籍介紹

本文摘錄自《數據與人性:當代數據藝術先鋒最深刻的第一手觀察,探索科學、人文、藝術交織的資訊大未來》,臉譜出版
作者:傑爾・索普(Jer Thorp)
譯者:呂奕欣

  • momo網路書店
  • Readmoo讀墨電子書
  • Pubu電子書城結帳時輸入TNL83,可享全站83折優惠(成人商品、實體商品、限定商品不包含在內,不得與其他優惠併用)
  • 透過以上連結購書,《關鍵評論網》將由此獲得分潤收益。

用數據藝術說故事,解構資訊時代的暗黑力量

我數據你,你數據我。他們數據我們,我們數據他們。
我們全都數據在一起

在數據中活出人性,從龐大的資料量中解讀出全新洞見

生活在二十一世紀的數據世界裡,就是不斷讓人搜尋、排序、分類、統計、出售與監控。他人會探勘與處理「我們」的數據,以求獲利、取得權力和政治利益。在本書中,著名數據藝術家傑爾・索普提出這個時代至關緊要的問題:活在數據世界裡的我們,如何才能不再處於被動狀態,而是成為積極主動的公民?

這是一部發人深省的著作,書中提到河馬攻擊事件、造訪冰川和學校體育館的經歷,還參觀了龐大的米堆和仍危機四伏的地雷區,從中串起數據的故事。索普運用數據藝術家的身分,探索我們當前及未來與數據的關係,超越眼前的事實和數字,尋找更新、更具體的方式與數據互動。我們永遠可以創造出新的故事,訴說如何使用數據。

索普在書中運用創意十足、饒富詩意且資訊豐富的影像,不僅重新定義何謂數據,也重新想像數據能如何真正屬於公眾、誰能握有數據發言權,還有該如何運用數據的力量來創造更正義與民主的未來,造福個人和群體。

獻給在某天醒來,思考自己為什麼時時刻刻被手機、社群媒體平台和城市追蹤,並自問如何走到這一步的人!

前所未見的數據思考角度,精采的視覺化圖像深入導覽

活在數據裡
進行資料視覺化嘗試設定色彩計畫讓像素自由,利用不同文字組合訴說視覺故事,思考數據是什麼、能做什麼,希望創造以人為本的數據新世界

我數據你,你數據我
探索data的詞源、意義、隨時間的演變,從神學與數學到統計學與計算機科學;從文字數據的呈現,說明詞與詞之間的親疏遠近,探討社會問題

數據的暗物質
從九一一國家紀念博物館上的姓名排列演算分析,討論數據的社會網絡;深入分析數據蒐集的議題,探究缺失資料的成因與影響,數據蒐集絕非天真無邪

搭獨木舟與跟隨車隊
學習蒐集數據的倫理原則,思考蒐集的數據會對誰有利、蒐集數據的好處是否多於潛在傷害;資料系統看似在雲端,其實是位於真正的地方並仰賴真正的人

酒精飲料喝到醉
「資料是新石油」,從廣告投放的數據研究判斷你是哪種人,臉部辨識科技把數據整合起來,卻也增加每個資料集的系統不完備性

剪過毛的成羊數
以駐館藝術家身分改善美國國會圖書館的使用方式,探討數據的儲存結構如何影響它們被發現或遺失,以及故事如何敘述,甚至影響人們活在數據裡的方式

getImage
Photo Credit: 臉譜出版

責任編輯:潘柏翰
核稿編輯:翁世航


Tags: