Data for Good:我們希望演算法做對什麼?

Data for Good:我們希望演算法做對什麼?
Photo Credit: Shutterstock / 達志影像

我們想讓你知道的是

當我們意識到,數據工作實為一處於統治矩陣的權力事業時,接連而來的,就是我們該以什麼樣的方式去挑戰和改變這樣的權力運作?或者更精確的問,我們希望數據工作的目標,是去反映出既存的權力樣態,還是更進一步的採取行動來為社會謀善?

文:余貞誼(高雄醫學大學性別研究所 助理教授)

Robert Kowalski於1979年以簡潔的運算式——Algorithm = Logic + Control——說明演算法的組成和運作:邏輯元素指的是一種用來解決問題的知識,它確立這個演算法要做什麼(What is to be done);控制元素指的是決定用以解決問題的策略(How it is to be done),並以此來形塑演算法的效能。

從這雙元素的相互配合中,實可見電腦運算如Bassett(2012:120-121)所言,是一種科技—文化政治(techno-cultural politics)。要理解軟體是如何運作的,並不只需要考慮其邏輯符碼,還要探索控制層面,即決定它怎麼界定問題、衡鑑問題、以及解決問題的方法,才能看見軟體運作、影響的程度和侷限。

知曉演算法的運作組成,同時也意味著,把任務交託給演算法,並不等於讓人類責任止步。反之,演算法中始終鑲嵌著的科技文化政治(如:我們如何意識到這是個需要解決的問題?在思考解決方案過程中挾帶著什麼樣的假設與視角?),會參與形塑出演算法的效用和潛能,進而改變或強化社會的秩序。因此,對於演算法的評估,除了考慮其效能之外,無可迴避的也需審視,它是否對社會有益?

Data for Good?

然而,什麼才叫做對社會有益?深度學習研究團隊Google Brain的研究員Sara Hooker(2018)指出,用數據謀善(data for good)的說法,對技術實踐者來說並不精確,因為其並未說明所謂的「好」究竟是什麼。一般普遍認定為好的數據計畫的四個標準,包括數據計畫的最終接受者是非營利組織或政府單位、由熟練的志願者開發和交付數據產品、免費為組織/個人提供數據工具、提供教育訓練來增進弱勢社群的數據能力等,並不足以清楚說明或反映其真實效用。

比如,倚賴志願者雖是架接技術鴻溝的有力方式,但志願者能夠投注的時間經常是不穩定的,導致其生產出來的數據產品未必能直接或永續採用,且能夠引起志願者興趣的議題分布也不均等(如最新穎的題材最容易受到青睞);或者即便大公司為非營利組織提供了免費的數據工具,但這些組織往往也欠缺相應的技術能力,因而無法激發出更有意義的參與模式。

針對Hooker呼籲需有更嚴謹的語言來描述何謂好的數據工作,D’Ignazio與Klein(2020:41-44)推進數據計畫的倫理理想,轉而以「用數據來共同解放」(data for co-liberation)作為數據計畫的終極目標,認為好的數據工作需要體認到數據和演算法是如何根植在統治的矩陣之中(如表1),才有可能讓數據工作去挑戰權力結構和系統的根源,以帶來終結壓迫的解放結果。

  • 表 1:統治矩陣的四個領域(D’Ignazio & Klein,2020:42)
結構領域
組織壓迫和政策
規訓領域
治理者和管理者壓迫:
法律和政策透過科層加以應用和執行
霸權領域
流通的壓迫理念:
文化和媒體
人際領域
壓迫的個人經驗

數據計畫根植於統治矩陣,所謂何意?D’Ignazio與Klein(2020:28)從PredPol的故事開始說起。PredPol是一個以過往的犯罪數據做為訓練數據來預測巡邏警力該如何有效配置的演算法。這會有什麼問題嗎?兩位作者先帶領我們停下來思考「數據」一詞。她們認為,「數據」此詞具有一種修辭的目的,意指將具有爭議的資訊轉化為一種證據的基礎,以做出後續的宣稱。

在這個演算法例子中,犯罪資料之所以能成為可被信任的數據,是由規訓領域加以支撐(因我們信賴法治科層系統的正當性)。然而,這些犯罪數據的由來,往往是因為有色人種被污名化為潛在罪犯,因而其所處的街區總是不成比例的被安置較多警力而造成的(亦即,犯罪率較低的區域,不是源於其沒有發生犯罪行為,而是由於佈置較少的巡邏警力,因而這些犯罪行為較不容易被警察看見、納入紀錄)。

因此,這些犯罪數據的產製事實上是根植於霸權領域的歧視理念。而當我們以此數據做為預測系統的訓練集,就會形成如O’Neil所說的惡性循環迴圈(pernicious feedback loop)(轉引自D’Ignazio與Klein,2020:28),既反映了過去的種族歧視行動,也放大了種族歧視的效應,使其轉進結構領域和人際領域,再度造成了壓迫力量。

用數據來挑戰權力

當我們意識到,數據工作實為一處於統治矩陣的權力事業時,接連而來的,就是我們該以什麼樣的方式去挑戰和改變這樣的權力運作?或者更精確的問,我們希望數據工作的目標,是去反映出既存的權力樣態,還是更進一步的採取行動來為社會謀善?而所謂謀善行動是否毫無疑義的具有共識?我們可以從許多有啟發的例子來思考這個問題。

從目前的數據工作計畫來看,我們可以將其性質約略分成照妖鏡和過濾器。前者如IBM於印度的Nishtha Madaan團隊(2018)對曼布克獎(Man Booker Prize)得獎小說中的性別刻板印象之分析。他們針對1969年至2017年間入圍該獎項的書籍(共275部小說),從Goodreads網站收集關於這些小說的描述和評論,發現其中普遍存在著性別偏見和刻板印象,比如女性角色被提及的次數少於男性角色;用來描述男性的形容詞是富有的,描述女性的則為美麗的、具有吸引力的;男性角色的人設是有權力的,女性角色則顯露為有所憂懼;男性角色的職業地位高於女性,多為醫生、科學家、董事長,女性則為教師、護士、妓女。


猜你喜歡


【影音】整理數十萬張空拍影像,就像一場馬拉松:看見・齊柏林基金會「數位典藏」計畫

【影音】整理數十萬張空拍影像,就像一場馬拉松:看見・齊柏林基金會「數位典藏」計畫
Photo Credit:TNL Brand Studio

我們想讓你知道的是

「透過影像為環境發聲」是齊柏林畢生在做的事,也是看見・齊柏林基金會要接力做下去的事。打造一座把台灣存起來的影像資料庫,讓齊柏林留下的影像資產得以傳承世代,「數位典藏」計畫需要你我一同支持響應。

2017年,《看見台灣》的導演齊柏林匆匆離開這個世界,留下無數珍貴空拍影像資產;這些跨越1990年代到2017年、長達25年台灣自然與人文地景變遷的真實紀錄,不只保留了台灣之美,更在學術研究、環保倡議和環境教育上有著無可取代的價值。然而,龐大的影像素材需要經過「數位典藏」才能被有效應用,因此「看見・齊柏林基金會」成立的初衷,就是為了承接數位典藏的使命,讓齊導畢生的心血,能夠世代傳承,發揮永續的影響力。經過兩年的摸索,基金會最終研擬出最合適的數位典藏計畫,不只將齊導作品數位化、分類歸檔,更要建置線上影像資料庫,並將繼續記錄台灣的使命傳承下去。

根據看見・齊柏林基金會統計,齊柏林導演在空中拍攝超過2500小時所累積的影像,約為10萬張空拍底片、50萬張數位照片,上千小時的空拍影片;要為如此龐大的影像資料建檔與整理,勢必耗費許多金錢、時間與人力。不過,只要能集結眾人之力,這一場數位典藏人員及專業志工接力的馬拉松,將會是美麗而撼動人心的一段旅程。

「數位典藏」做什麼?

數位典藏(digital archive),意思是將有保存價值的實體或非實體資料,透過數位化(諸如攝影、掃描、影音拍攝、全文輸入等)與加上屬性資料等詮釋資料(Metadata),建立數位檔案的形式,作為永久保管儲存。

而看見・齊柏林基金會的數位典藏計畫可分為三大工作線,分別為:

  • 傳統底片組:挑選底片→掃描成數位檔案→建立屬性資料→歸檔
  • 數位照片組:挑選照片→建立屬性資料→歸檔
  • 空拍影片組:挑選影片→建立屬性資料→歸檔

除了要將齊導留下來的影像作品數位化歸檔,數位典藏計畫還包括改版建置「iTaiwan8影像資料庫」,也就是建設完整的線上影像資料庫系統,讓齊導作品更便於靈活運用,也能讓更多世人看見。

飛行2500小時累積的空拍影像,怎麼整理?

  • 整理底片/數位掃描

數位典藏組專員詹宇雯的工作,是負責整理傳統底片。即便存放在防潮櫃中,傳統底片仍面臨逐漸老化褪色的壓力,需要與時間賽跑進行數位化保存;然而大多未經篩選的10萬張底片,有些因為直升機震動導致些微的畫面模糊,也有因飛行路線連續較重複的地景構圖,而詹宇雯的其中一項任務,就是拿著放大鏡一一檢視精挑,並標註定位和勘誤照片資訊。

「整理底片最常發生的問題就是人工出錯,因為以前留下的資料可能是齊導或其他志工整理出來、用手寫的,貼紙可能貼錯或資料寫錯。」詹宇雯說起某次經驗,當時有一張台北車站的照片被貼了很多年份,為了找出正確年份,她試圖辨識照片裡招牌跑馬燈上的氣溫、股市市值等資料,交叉比對推斷出正確年份。雖然偶有這種偵探辦案一樣的趣事,但大多數時候是耗費專注度與眼力的過程。

完成底片挑選的階段,接著進到底片掃描數位化。然而,這步驟並不容易,除了整體的影像品質控制與檔案管理,齊柏林導演留下的底片最遠距今至少11年,老化褪色的底片容易出現色彩偏誤,須進行色彩還原,再修掉畫面上的髒點、存成解析度高的數位影像才算完成。

image3
Photo Credit:TNL Brand Studio
整理傳統底片的過程,必須拿著放大鏡一一檢視精挑,標註定位和勘誤照片資訊。
  • 建立屬性資料

所謂「建立屬性資料」,其實就是為影像添增各種描述紀錄的資訊,有了這些資訊,龐大的影像資料才能被有效率的搜尋、管理。數位典藏組副組長陳宣穎表示,以齊導拍攝的影像為例,包含:拍攝主題、地點及詮釋地景的關鍵字都屬於此範疇;而其中投入最多時間的便是「定位」和「建立關鍵字」這兩項任務。

「定位」指的是找出拍攝主體所在地點和座標,有時可透過既有的飛行軌跡紀錄來推測,但更多時候是在沒有軌跡紀錄的狀態下,憑藉地理知識及照片上的蛛絲馬跡判讀位置。如果影像拍攝年代久遠,或是地景變化很大,就需要運用更多歷史圖資或佐證資料去搜索、推論。

「我們要一張一張照片判讀,建立屬性資料。像是早期的傳統相機沒有定位功能,常常看到照片中只有一大片山稜線,此時我們就要仔細比對地圖、衛星影像,想辦法查找,盡可能貼近正確。」陳宣穎說。

「建立關鍵字」看起來似乎相對輕鬆,然而事實上,光是決定有哪些關鍵字可以使用,就是一門功夫。第一步必須辨認影像中的景物,例如一塊農田種植的是什麼作物,就必須蒐集其他資料輔助判斷;其次,由於空拍照片尺度不一,在畫面中佔比多大的景物需要設立關鍵字,也需要經過討論訂定規則;最後,還必須從使用者的角度思考,依據一般人的搜尋習慣設立關鍵字。

因此,在建立屬性資料的過程中,看見・齊柏林基金會也特別諮詢多位專家,共同研究規劃出適合台灣空中影像的關鍵字建置邏輯,並以此基礎進行分門別類、校正檢核,確保影像被妥善歸納及運用。

image2
Photo Credit:TNL Brand Studio
建立屬性資料時需要大量對比地圖,並依照訂定好的規則建立屬性資料,使歸納邏輯一致。
  • 影音資料典藏

相較於照片整理,動態影片的典藏工程更為多元複雜。首先,要針對近千小時空拍影片進行盤點,接著進行特殊格式轉檔與備份,再逐步建立邏輯編碼、標示檔案管理方式,以推動後續屬性資料建立。

「影片整理最大的兩個挑戰,其一是影片內容橫跨的範圍很大,導演可能是台中起飛、屏東降落,因此要去判斷每個影片節點的地景定位;其二是飛機上升的垂直範圍很大、晃動又劇烈,有時候會遇到『果凍效應1』致使內容失真。」影音製作組專員鄭宇程說明,由於各時期的影片拍帶檔案格式、影像內容品質、影片時長都不同,大大增加了管理建檔難度。

image4
Photo Credit:TNL Brand Studio
影音資料的典藏,需要讀取大量的檔案,逐格檢視、分段建立屬性資料、調色等。

加入數位典藏的馬拉松,傳承接棒台灣之美

從一步步定義操作流程、統一色彩管理語言、購置影像處理設備等,到培訓志工與實習生、讓人力支援一步到位、避免巨量資料的協作過程中出現錯誤,都是數位典藏計畫的範疇。多元內容創意部副總監王俐文表示,「數位典藏」四個字說來簡單,但過程繁複龐雜,需要所有人一致的專注、耐心、細心、以及熱忱。

「iTaiwan8影像資料庫」作為看見・齊柏林基金會數位典藏計畫的目標之一,改版上線只是第一步,接下來除了完成龐大影像資料的典藏,更大的挑戰是要繼續記錄台灣,讓影像不會只停留在2017年。

「透過影像為環境發聲」是齊導畢生在做的事,也是基金會要接力做下去的事。而數位典藏計畫,就是齊導生命的延續,也是基金會動力的源頭。要打造一座把台灣存起來的影像資料庫並不容易,看見・齊柏林基金會亟需各界的支持,共同建置屬於台灣最美的影像資料庫。讓我們一起守護齊柏林留下的影像資產,讓土地脈動的珍貴影像得以傳承世代,發揮更多價值。

捐款支持看見・齊柏林基金會,透過影像為環境發聲


註1:果凍效應(rolling shutter)是數位相機CMOS感光元件的一種效應,當使用電子快門來拍攝高速移動的物件時,原本垂直的物件拍攝出的畫面卻為傾斜甚至變形。(資料來源:維基百科)


猜你喜歡