【關鍵眼中盯】四叉貓細究高虹安的「追殺留言」,打開了「大數據輿情」產業的潘朵拉盒子

【關鍵眼中盯】四叉貓細究高虹安的「追殺留言」,打開了「大數據輿情」產業的潘朵拉盒子
Photo Credit: 中央社

我們想讓你知道的是

因「追殺高虹安」粉專而引起一系列討論,四叉貓或許在無意間打開了「大數據輿情」的潘朵拉盒子——很多人都沒有想過,那些資料是怎麼蒐集、怎麼歸納的,卻完全依靠那個結果做決定......

近來成為九合一選戰新焦點的民眾黨新竹市長參選人高虹安,日前上了《美麗島電子報》董事長吳子嘉的節目,列出了包含林智群律師、無良公關公司、土星六號隻狼、我是Sabrina、孟買春秋、音地大帝、無良公關、細菌先生、鬥魂白鬍子以及補教人蔘等10個「追殺高虹安」粉專,表示自己「四天內遭到50萬筆留言追殺」。

相關訊息發布不久之後,許多人針對高虹安展示的資料提出質疑,其中堪稱「數位貂蟬」的四叉貓,就接連對攻擊留言沒有計算到網媒,以及攻擊留言的定義,接連發文批判。

側翼粉專有沒有影響力、背後有沒有「中央廚房」動員這些問題,或許都還可以看作政治口水,但在四叉貓的討論裡面,其實帶到一個網路大數據產業不願面對的真相:這些資料是怎麼抓取、怎麼定義的。

那些「大數據輿情報告」,都是怎麼來的?

筆者之前曾於相關產業任職,其間經手多個公機關與企業的「輿情案」,對市面上幾個主要大數據系統——從港商、國產、中華電信轉投資的——都熟悉操作或至少試用過,幾年間也靠他們寫了不少輿情報告。

「大數據」在輿情層面的運用,基本上就是在網媒、社群網站、討論區等來源爬取資料建立資料庫,使用者便可在裡面設定搜尋條件——像是關鍵字(例如「蔣萬安」,「林智堅+論文」這樣的組合技、或是為「核能」議題設定幾十個包山包海的關鍵字組等等)與來源,就可以看出哪些關鍵字熱度最高、哪些平台或粉專討論最多等資訊,當然也可以一條一條看搜尋結果。

006_應用效益_1
截圖自大數據系統
大數據平台的報表介面範例

這樣的功能,和用Google慢慢搜尋相比,當然可以省下很多爬取和統計的工,但如果一味相信機器生產出來的圖表,就可能會產生問題。

首先,來源資料庫得要精確,要能涵蓋所有討論到重點議題的內容,又得排除不相關的文章。然而中文博大精深,關鍵字不管設定得再廣再細,基本上一定都有誤差(例如,想知道台灣的疫苗狀況,把關鍵字設定「疫苗」,可能會納入許多巴西、美國等等的報導與討論,如果刻意設定「台灣+疫苗」,又不見得每一篇關於國內的疫苗報導,都會寫到台灣兩字。)

因此,不管你花再多心力設定關鍵字,最後仍需要人工去蕪存菁,但這是個耗時費力的工作,除非案子特殊,不然很少能維持這樣的資源投入,導致大部分大數據在源頭就是「Garbage in」,出來的結果自然也會歪斜。這還不包括那些爬蟲爬不到的私密社團。

再者,許多業主(包括這次的高虹安)都會想知道這些討論的「量」背後,「質」是什麼,是支持還是反對。如果資料量少,人工判讀倒還可以,但若有幾千幾萬則貼文,一般都會運用「情緒判讀」這樣的功能,讓電腦計算出正負向比例。

「情緒判讀」聽起來很神,但其實就是由人類設定好一些代表正反面的情緒字串,然後看那些貼文裡各有哪些字,加分減分算出結果。然而,就連人聽人講話都不一定有辦法判讀情緒,機器判讀的準確度當然更可能失準,筆者之前就常遇到機器判讀的情緒,點開來內容完全相反的狀況。

機器沒有幽默感,看不懂反串。不說別的,之前幾次選舉鄉民常留言的「唯一支持連勝文選總統」或「非韓不投」,合理推斷機器一定是判別為正向,但大家都知道背後的意思是什麼(因此過往報告的時候,筆者都會習慣手動挑選代表性的發文出來分析,對業主其實更有幫助)。

很多人應該不知道,自己看的資料可能大有問題

或許就是因為這樣子,就連在網路輿情圈打滾那麼久的四叉貓,仍然熱衷到選戰現場數椅子,他自己應該也知道,那些現場的觀察要比許多為了迎合大數據結果而硬寫的報告,要真實許多。

61756578_2268710326679404_47409059420931
Photo Credit: 劉宇
四叉貓於2014年現身連勝文的造勢活動

然而這些第一線人員眼下覺得滿是問題的資料產出,在大數據成顯學的空戰當道風潮裡,卻成為許多人與企業追求的絕對指標,媒體也會引用——或自己產製——這些資料,關係人趨之若鶩,看著數字好而開心,壞而提心吊膽。

今天因為這些團體強烈檢視高虹安,讓這樣的計算方式受到檢討,殊不知台灣各個地方——媒體、網路溫度計、企業公關甚至政府機關——都在參考這些「大數據」,都不知道自己看到的資料或許大有問題,而他們每天都在用這些資料做決定。

或許天下本無事,只是寫報告的人需要交差;或許怎麼做都對,只是掌權者需要一個依據下決定。這些爬蟲和資料整理的初衷,雖然對了解大致趨勢絕對有幫助,一時間或許也沒有更方便近用的標的,但當平台、企業、媒體各方如龍捲風般相互影響之際,我總覺得那些理應「反映世界」的大數據,正把我們帶得離真實世界越來越遠。

操作這些系統的「資料專家」不會不曉得這個狀況,包括曾在我前辦公室打地鋪的四叉貓在內,他們都不是局外人,而因高虹安而起的這番討論或許已打開「大數據輿情」的潘朵拉盒子,一旦大家開始認真檢視,對公關產業的影響,絕對不只會停留在這場選舉而已。

延伸閱讀

【加入關鍵評論網會員】每天精彩好文直送你的信箱,每週獨享編輯精選、時事精選、藝文週報等特製電子報。還可留言與作者、記者、編輯討論文章內容。立刻點擊免費加入會員!

核稿編輯:翁世航