文:王銘宏(逢甲大學資訊工程學系助理教授)

選舉一直是台灣最重要的民主雙年盛會之一。近年來,隨著線上平台的蓬勃發展與媒體露出,線上選舉活動已經成為打選戰相當被重視的一塊,各政黨及候選人也都試圖透過網路來更親近選民,宣傳自己,積極一點則是期待透過網路,帶動議題,而終極目標當然是爭取更多選票或是打擊對手。

筆者從主流媒體或網路討論中,都常聽聞有所謂「網軍」的存在,然而大多是透過主觀判斷,或沒有積極證據的推論,例如依據特定使用者發言內容與其政治傾向,但尚未有從巨觀來看各使用者之行為的系統化研究。因此,本研究希望透過電腦技術與資料分析,提供更多客觀的數據來了解這些使用者是否有符合網軍的行為特徵。

本研究(註1)蒐集了2018/01-2018/07共七個月的PTT八卦版所有文章資料,包含文章標題、內容、評論資訊、使用者資訊(ID,IP)等,並將這些資料進行分析,從兩個行為模式觀點來討論

網軍有明顯的政治偏好,回應多:職業網軍因為是被特定陣營聘僱的,不太可能同時有多個政治偏好。 網軍上線時間長、反應快:專職網軍因為是選戰人員,上線時間應比一般普通使用者長,同時對於文章的反應速度也會比普通人較快(文章出現能即時回應)。

若同時符合上述兩條件,則認定是網軍的機率便相當高。從七個月的資料集,我們取出標題與內文包含三位主要台北市長候選人本名(丁守中、柯文哲、姚文智,按姓氏筆畫排序)的文章,其中包含了超過13,000文章及超過90萬筆評論,詳細數據如下表一。

表一:資料集概要|Photo Credit:作者提供

網軍有明顯的政治偏好,回應多

由表一可以發現,柯文哲目前在網路聲量是最高的,相關文章的討論也最熱烈,並遠超過其他兩位候選人。值得注意的是,每位使用者平均發表柯文哲的文章數量,遠超過另外兩位候選人20%-50%,平均評論數量更達50%-250%。這些數據顯示,在柯文哲相關文章進行討論的使用者,遠比其他兩位候選人的文章更多且更積極。

圖一:候選人相關文章之前100活躍評論者,在評論文章數量與極性之分布|Photo Credit:作者提供

回到前段提出認定的網軍特點一:有明顯的政治偏好、回應多。我們在各候選人相關文章中取出評論文章數量前100名活躍的評論者,(註2)將他們回應這些候選人相關文章數量與極性作成圖一,另外也將在X及Y軸排名前20%的評論者用黃色菱形表示。(註3)在這裡的極性指的是推與噓的差(極性=推的數量-噓的數量),在PTT中,每篇評論可以選擇極性為推(贊同)、箭頭(中立)或是噓(反對)。就固有設計,預設的極性是推,因此噓的評論可視為積極表達反對意志的動作。

從圖一x軸與y軸數量級我們可以看出,即使只取前100活躍評論者,評論柯文哲的使用者依舊遠比其他兩位候選人的活躍。有趣的是,評論的活躍度與對於該候選人的極性,只有柯文哲為正相關,另兩位候選人為負相關。意即越活躍的使用者,越傾向對柯文哲的討論持正面極性,而保持中立或噓姚文智與丁守中的文章,其中可以有兩種解釋:

柯文哲能夠讓使用者積極表態,且這些使用者傾向對其討論文章持正面極性。相反的,姚文智及丁守中則讓使用者給予中立甚至負面極性。 這些活躍使用者是有目的的給予特定候選人正面極性與負面極性,因為評論相對於閱讀,對於使用者來說已經不像是臉書按讚這類的動作,還需要思考評論內容並張貼,評論行為可視為對該議題積極表態。

由圖一我們可以看到評論者代號010,給予柯文哲文章正極性(+132),同時給予另兩位候選人負極性(姚:-245;丁:-94);另外評論者代號050(柯:+156,姚:-29,丁:-20)。然而也有其他例子,評論者代號005(柯:-200,姚:+2,丁:-5),則是積極給予柯文哲負面評價。此類型使用者可視為活躍且有明確政治偏好,符合我們列出的特徵一。然而僅僅由特徵一不足以認定這類使用者為網軍,畢竟政治傾向明顯且熱於發表意見的人很多。接下來,我們將透過第二特徵,並提出另一個行為面向的分析來進行討論。

網軍上線時間長、反應快

網軍上線時間應會比一般人還要長、反應也更快。然而,從外部來看,我們並沒有辦法廣泛了解每個PTT用戶的上線與下線時間,因此我們從另一個線索:「文章反應時間」來進行探討。針對使用者u對於文章a的評論,其文章反應時間的計算方法如下:

文章反應時間T(u,a)=使用者u對於文章a的第一則回應時間-文章a的發表時間

算出來的數值代表每個使用者在看到某候選人相關文章出現後,該使用者所發表的第一則回應與文章發表時間的差距,由此方法衡量各使用者對於各候選人相關討論文章的回應速度。若使用者回應文章數量多,且當文章發布後,可以在相當短的時間內進行回應,文章反應速度快,我們認為可以視為使用者付出大量上線時間在PTT,而能即時進行相關討論的佐證。

圖二:候選人相關文章之前100活躍評論者,在評論文章數量與文章反應時間之分布|Photo Credit:作者提供

我們將使用者對於特定候選人的回應極性與反應時間(取各篇文章反應時間之中位數),做成圖二。圖二顯示,確實有數位使用者反應速度與評論數都較大多數的使用者突出,有至少50%的回應在文章發表30分鐘內就完成回覆,且這些使用者針對候選人相關文章總評論數高達數百甚至達數千,符合我們認為網軍需要文章反應速度快且回應多的特點。在讓我們回到網軍特點一:有明顯的政治偏好、回應多。我們列出部分對於特定候選人有特別政治極性,評論數量高,且反應速度快的使用者於表二。依據該表,我們將三種不同特性的活躍使用者列出其特色:

種類一:使用者010、063有至少50%的回應在文章發表後六分鐘內即進行回應,幾乎是文章發表後就能即時跟上並進行評論;而其總發表數量皆超過1000則,且對特定候選人相關文章持正面極性,另兩位候選人持負面極性。 種類二:使用者001、003則非常活躍進行文章評論,各發表超過10,000則與5,000則,並對於特定候選人相關文章有相當積極的正面回應行為,而對於其餘兩位候選人文章則明顯有回應數量落差。通常也能在10-18分鐘內就進行文章回應完成。 種類三:使用者052、050、005則對於特定候選人有明顯正面或反面的意見,但反應時間相較於前述四位使用者較長,約文章發表後數十分鐘進行回應。

表二:特定使用者其評論數、評論極性、反應時間整理|Photo Credit:作者提供

我們也透過人工判讀這些使用者的推噓文極性與實際發表內容之政治立場是否一致,避免極性與支持立場有不同的可能發生。結果這些使用者的推噓極性與其文字透露出來的政治立場一致。由此數據,筆者認為種類一與種類二使用者符合本研究企圖找出的網軍特色。

然而,證明特定使用者是網軍本身就是一個難題,除非有實體驗證程序,如專業偵查判斷,否則無法單純透過帳號的回應速度快與回應極性,就證實該帳號為網軍。但筆者希望透過大規模且長期的行為分析,提供不同面向的PTT使用者觀察角度,並透過資料來證實有多位使用者有本系列文章所提出的兩項網軍特性。筆者期望拋磚引玉,引起更多對於此議題從資料觀點的研究佐證,最終目標希望能讓台灣網路訊息的傳播能更透明與真實。

附記:(作者)感謝李映昕邀稿並給予意見,這篇文算是我在matters的第一篇文章,希望能激起更多對此議題的關心與討論,讓網路世界更透明。

註釋:

註1:本研究已被 The 7th International Conference on Complex Networks and Their Applications 國際研究會接受,將於2018/12/11-13於英國劍橋大學進行口頭發表。Ming-Hung Wang, Nhut-Lam Nguyen, & Chyi-Ren Dow (2018, December). Detecting Potential Cyber Armies of Election Campaigns Based on Behavioral Analysis. In 7th International Conference on Complex Networks and Their Applications.

註2:為了呈現每個候選人文章的熱門評論者,並展現各候選人文章的討論熱度,我們取前100名作圖;事實上,也可選擇不同數量評論者進行展示。

註3:為了將這些使用者中表現更突出的使用者標出,我們針對極性與評論文章數的前20%再另外標註為黃色菱形。

