「新聞」和「資料科學」迸出的火花,讓人人都有能力當記者

「新聞」和「資料科學」迸出的火花,讓人人都有能力當記者
Photo Credit:ICIJ
我們想讓你知道的是

新聞產業就要繼續沉淪下去嗎?不是的。除了運用過往新聞產業的查證技術,產製更多具備堅實證據基礎的新聞以外,具備新聞責任的記者和編輯,現在有了更強大的工具,從龐大的資訊中,挖掘出真實的故事。這個工具就是「資料科學」。

在所有文字內容中,「新聞」可能是最被要求「證據」和「真實性」的形式。不論是即時新聞還是專題報導,讀者都會預期內容要基於可證實的證據上。但在今天打開臉書,滑到的新聞,不是抄自未經查證的網民爆料,就是引用、濫用可疑的數據,得出記者自己想要的結論,與新聞的本質越離越遠。

那麼,新聞產業就要繼續沉淪下去嗎?不是的。除了運用過往新聞產業的查證技術,產製更多具備堅實證據基礎的新聞以外,具備新聞責任的記者和編輯,現在有了更強大的工具,從龐大的資訊中,挖掘出真實的故事。這個工具就是「資料科學」。

讀者可能會問:「資料科學不是理工科的事情嗎?怎麼會跟新聞扯上關係呢?」是的,看到「資料」這個詞,首先聯想到的是電腦程式生成、分析一般人看不懂的大量資料,「科學」更是與訪問、撰稿的記者難以連結。可是,我們在開頭講過,「新聞室最被要求證據和真實性的文字內容形式」,只要是能反映世界真實的證據,在新聞寫作上都派得上用場。

在資訊科技快速發展、每分每秒產生的資料量以指數成長的今天,記者如果還不懂怎麼利用資料寫新聞,就會離這個世紀越來越遠。例如,大家每天都會用到臉書,從臉書接觸社會的時間,可能比我們真的與人面對面交談的時間還要多。如果要在報導中觸碰到這個虛擬世界,就需要從臉書蒐集資料,了解臉書用戶(也就是大家)生活中最重要的一部分。

此外,政府越來越願意開放資料,讓非政府組織使用這些資料,也是記者在進行報導時能夠利用的寶庫。更簡單的說,在過去記者可能挨家挨戶找尋受訪者,在現在,懂得運用資料科學的記者,能夠從網路上找尋適合的資料,再用資料分析工具「訪問」這些資料,從中得出自己想要的資訊,從中生成的新聞有時甚至比從真人口中問出的故事還要精彩。

例如日前備受關注的「巴拿馬文件」,就是國際調查記者同盟(ICIJ)的記者,運用資料分析技術,從洩密者分享的大量電子郵件中,分析出世界各國的政治人物、富豪等權貴,如何運用海外公司避稅。如果只用過去新聞記者的探訪技巧,可能根本找不到任何願意受訪的對象。但懂得資料科學的記者,能讓無聲的資料「說話」,讓資料講出人不願說出的真相。

RTSDUSZ Panama Papers tax havens
Photo Credit: Reuters/達志影像
記者從「巴拿馬文件」中找到的十大避稅天堂

除了資料蒐集和分析之外,要怎麼讓資料說的故事更好理解,也是記者進行相關報導時需要注意的地方。這時候就是「資料視覺化」登場的時候了。在過去,記者只要稍微改寫受訪者的口述內容,就是一篇報導的文字了。但在「訪問」資料的時候,資料說的話比較不接近一般人能理解的形式,例如位數很大的數字、一堆名字等,記者需要長條圖、圓餅圖等圖表,將資料說的話變得清晰好理解。

此外,資料視覺化還能成為記者訪問資料的方法之一。關鍵評論網刊登的「『一個里專屬的捷運站?』 9張圖表帶你看小碧潭線的規劃到底合不合理」,就是把資料畫成圖表,從畫出來的圖表中,找尋資料隱藏的故事。如果只用Excel算一些平均數,可能就無法找出捷運資料中有趣的蛛絲馬跡了。

搭車時間
資料來源:台北捷運公司
「『一個里專屬的捷運站?』 9張圖表帶你看小碧潭線的規劃到底合不合理」的資訊圖表

但對一般讀者來說,資料科學最大的威力,可能是讓「人人都能當記者」。只要懂得如何使用資料分析工具,任何人都能從開放資料中寫報導,再透過臉書等社群分享,就算你沒有接受過文字記者的技能訓練,在報導真實性方面,甚至能夠贏過在爆料公社抄新聞的記者。

因此,下次如果在臉書滑到未基於真實證據的報導,不妨動動手指找資料,再Google一下要怎麼分析找到的資料,再把成果貼到該篇新聞的留言處,重重地打不負責任的記者的臉。或許,新聞和資料科學迸發出來的火花,在新聞產業以外的地方才燒得最旺呢!

核稿編輯:楊之瑜

13147374_1785554225000024_82870816799488

邁入第三屆的 2016 台灣資料科學年會將保持深獲好評的四天議程,除了有從資料科學的入門到專家,為不同程度參加者精心準備的全天實戰課程營,年會主議程更擴大到 40 場主題各異、產學兼具的密集演講,讓我們今年能歡迎更多的報名者參加。以此搭配新型態的交流活動設計,期待能使與會者間有更豐富且多元的平台,來分享資料科學最尖端的技術思維。報名連結於此