《IT知識,就是你的競爭力》:活用「大數據」上游工程,今後必須由人類負責操作

《IT知識,就是你的競爭力》:活用「大數據」上游工程,今後必須由人類負責操作
Photo Credit: Depositphotos
我們想讓你知道的是

活用大數據就是相當強大的機器學習,但機器學習與傳統的資料分析相比,有個明顯的弱點。那就是雖然能夠高精準地用大數據預測或分類,但卻無法說明原理。

唸給你聽
powered by Cyberon

文:GLOBIS商學院

技巧6:了解大數據的基礎

用大數據做決策的情況愈來愈普遍。
不過,運用在進階的決策或資料數少的決策必需注意。

學習重點

  • 大數據:幾乎能補充全部數字,龐大且快速變化的多樣性資料。
  • IoT:物聯網。透過小型化感測器(Sensor),能與各種事物連結。
  • 機器學習:AI(人工智慧)擅長的學習機制。
  • 預測:特別是有大數據時,AI就很好發揮,活用相關關係等。
大數據和小型數據有什麼不同?

用Google Trends搜尋「大數據」,發現從2012年開始,這個詞彙急速廣泛受到使用(這件事本身就是個大數據)。

IT知識_圖1
Photo Credit: 商業周刊提供

首先讓我們來看「大」數據與以往的「小」數據有什麼不同。

光是擁有大數據,別說是資產,連成本也會大幅增加。為了運用大數據的真正價值,必須進行與大數據相符的分析。

我接著說明機器學習(近似於AI),為了在商務上用大數據獲利,這是不可或缺的分析手法。

那麼,大數據到底是什麼呢?有好幾個定義可以說明。其中最知名的,就是美國的研究暨諮詢公司顧能(Gartner)所定義的3V。

  • Volume:龐大(big)的資料量
  • Velocity:資料的速度。就像GPS的定位資料一樣,會頻繁更新。
  • Variety:指資料種類的多樣性(不只是以往常見的定量資料,包括社群網站上的文字資料、圖像、影片、聲音等多種類的資料)。

其實我們所處理的資料正飛躍性的增加。2010年,谷歌前執行長艾利克.史密特(Eric Emerson Schmidt)曾經形容這種變化:「從文明初始至2003年的這段期間,人類所產生的資訊總量,現在只需花費兩天,人類就能製作出同樣分量的資訊。」

舉社群網站推特(Twitter)當例子,每秒就有七千多則推特的發文數,每天可高達6億6千多件。而谷歌每秒有6100件的搜尋次數,每天則高達53億件(此為2017年7月26日的資料)。

當感測器變得高精度且廉價之後,能夠取得的資訊量也爆炸性的成長。

例如,智慧型手機GPS,能夠因定位資料而隨時收集、更新資料(重點是持續更新)。

感測器本身的數量也隨著IoT(Internet of Things:物聯網)的進展,據說在2023年會有一兆個感測器的需求,而感測器就能即時收集大量的資料。

由IoT收集到的資料就用作大數據處理,IoT與大數據可說是一體兩面的關係。

在談論大數據特徵時,重點當然就是資料量的變化,而在商務的脈絡不可忽視資料的品質與以往相比也截然不同。

在商務上,為了讓顧客最後能下定決心購買產品或服務,理解顧客想法極其重要。以往,就算將顧客「資料化」(datafication),加上顧客屬性,例如顧客問卷調查或實際銷售等,只能透過有限資訊推測顧客。

不過,隨著大數據的登場,以往不可能確實掌握的顧客行動或想法的變動,能夠以貼近現實的形式化為資料。大數據是將這些資料活用在商務上最關鍵的一點。

資料量「龐大」的好處是什麼?

那麼,資料量增加的好處是什麼?一言以蔽之,就是資料量分析的品質能夠飛躍性的提升。

大數據在初期的威力是展現在2005年美國國家標準暨技術研究院NIST所舉辦、用電腦進行的翻譯競賽。

NIST所舉辦的機械翻譯(用軟體進行的自動翻譯)競賽原本是美國國防高等研究計劃署DARPA在2001年的一項企劃所展開的活動。

美國在2001年9月11日發生恐怖攻擊前一天的9月10日,監聽到「即將開始戰鬥」、「明天開始作戰」等通訊內容。不過,由於內容是阿拉伯文,等隔天9月11日開始翻譯時,已經無法阻擋事件發生。

由於如此慘痛的經驗,開始出現將戰場或其他地方所收集到的資訊快速翻譯成英語的技術需求。

谷歌的團隊在2005年第一次參加這場競賽,就以破天荒的表現拿下優勝。縱使這是阿拉伯文的翻譯競賽,實際上谷歌的團隊內,沒有一個人會說阿拉伯文。

他們對手所用的傳統型機器翻譯軟體,是以人類所思考的規則為基礎而分析文章。相較之下,谷歌使用大數據,利用統計方法的翻譯挑戰這場競賽。

統計上的機器翻譯表現,大致上能做出下列幾件事。

翻譯模型:以不同語言間的對譯資料為基礎,將阿拉伯文的文章(不通順地)替換成英語的文章。
語言模型:以英語的大量文章資料為基礎,將不通順的英語替換成順暢的英語。

谷歌用到高達兩億的聯合國文章對譯資料(阿拉伯文、英語),甚至用到一兆的英語資料。聯合國的官方語言有阿拉伯文、中文、英文、法文、俄文、西班牙文,會議等官方記錄都會翻譯成這些語言,妥善保存。谷歌就是運用這些資料。

相對於以傳統翻譯軟體的規則為基礎所演繹出的句子, 谷歌的研究使用大量以大數據資料為基礎的歸納法,因此精準度可說是突飛猛進。

活用大數據的機器學習

接著用與3V不同的角度來看待大數據及小數據不同的「活用資料的方式」。

在大數據出現之前,資料的收集和分析,只能從能夠取得的有限資料中推測出整體情況。這是近代統計學的重要主軸之一「推論統計」的領域。

大數據會如此受重視,是因為實務上要收集大量資料,一般都需要花費龐大的時間與金錢。例如,在日本每五年進行一次的國勢調查,基本上是以全日本民眾為調查對象的「元祖大數據」,而2005年的國勢調查預算大約為650億日圓(約合新台幣180億元)。

當時取得資料的成本相當高,資料相當稀少,幾乎不會收集全體資料,而是以較低成本抽取出一部分的資料(取樣)。如何從少數的樣本資料推測整體情況,就相當重要。民意調查中內閣支持率調查,就是這種調查的延伸。

但如果是大數據,面對的資料就並非取樣資料,而是整體資料。同時,取代過去的要角推測統計而備受矚目的就是機器學習,這是由資料中找出模式的分析手法。

大數據價值的本質,或許就在於這種機器學習做到的「找出資料中的模式」。而AI的主要能力—令人津津樂道的深度學習,也是機器學習的一種。

而資料採礦(Data Mining)的領域幾乎也有相同含義。

嚴格來說,機器學習< AI,不過最近媒體幾乎將兩者視為同樣意思(機器學習≒ AI)。

方才提到的自動翻譯就是這種機器學習。我在技巧5提到的迴歸分析,也是機器學習的一種方法。

機器學習擅長的兩件事是廣大的預測【註】及發現。在下一章技巧7的AI部分將詳述,在這裡先簡單介紹。

所謂預測,會由軟體找出過去龐大資料的關連性、模式,以演算法(程序)為基礎,針對新的資料進行預測。換句話說,就是用過去的知識來預測未來。

例如,在醫療機構用斷層掃描檢測出容易忽略的癌症;在高速公路的隧道內,透過敲打牆壁的聲音判斷耐久程度的錘擊試驗。即使是不熟練的人,也能正確探測出異常或故障。

或是行銷商品;判斷新的歌曲是否能夠熱賣;電腦將棋或圍棋預測最適合的一步棋等,應用在廣泛的領域上。

所謂的發現,指將和分析對象相似的資料分組,找出資料本質的結構,將其抽取出來。

例如商業的脈絡之下,分析顧客屬性及購買行動,對類似顧客群做市場劃分的歸類分析等行為,都符合這個主題。

機器學習無法說明原理?

活用大數據就是相當強大的機器學習,但機器學習與傳統的資料分析相比,有個明顯的弱點。那就是雖然能夠高精準地用大數據預測或分類,但卻無法說明原理。

「機器學習」不擅長說明。

例如使用機器學習,可以從龐大數量的照片中推測出當事人在笑還是在生氣等情緒,但是為什麼將人的情緒判斷為笑容,判斷的方法是什麼,機器學習的分析內容實在太過複雜,人類無法了解。

又或者在大學的推甄,分析結果顯示「名字的第一個英文字母為K、S或T,且中學、高中時代有接觸音樂或戲劇的人,入學後成績表現較佳」的趨勢,但機器學習卻無法說明為什麼會有如此的因果關係,也就是無法闡述原因和結果之間的關係。

從這裡來看,就像我不斷提到的,大數據比起「因果關係」,要更重視「相關性」。

一般而言,人類會尋求因果關係的說明。另一方面,機器學習在網路商店推薦商品,無法清楚說明推薦某商品的原因,但幾乎不會有消費者要求推薦的說明。

實際上,消費者中意推薦的商品就會購買,不中意就不買。能夠從購買紀錄的資料推測或許可能購買,實際上就能達到讓消費者購買的結果,在商務上就算無法說明因果關係也已經足夠,這種想法也就是事實。

大數據與人類所扮演的角色

在商務上階段性的進行決策,或策略上的決策等,需要更進一步說明因果關係的進階決策,而傳統的分析方法就是此時的主流。

另一方面,不需要說明,或者其重要性較低的領域,就像方才提到的網路商品的推薦,也就是定型、自動化的領域,會逐漸成為今後大數據與機器學習的主流。

只是,是否需要說明的界線,將會隨著時代變化,成為相對性的標準。人類在「要求說明」的另一面,同時也是「習慣」環境的動物。

即使一開始還會要求說明,等到大數據與機器學習的預測結果持續命中目標,判斷足以信賴的話,就不會繼續要求說明了。

實際上,愈年輕的世代,就愈不會懷疑機器的判斷。等到十幾年後,機器學習應用在某種程度的經營判斷,將逐漸趨向更高的層級。

另一方面,機器學習雖然會拼命分析接收到的資料,但並不會任意收集資料。畢竟如果人類沒有下指令,設定目的或實際資料,就無法分析。

也就是說,活用大數據的上游工程,今後必須由人類負責操作。

掌握目的的能力,甚至反推回需要什麼資料,這些人類的思考能力,在大數據的時代會比過去發揮更大功能。

關鍵字:3V、資料化、機器學習、推論統計、預測、發現

【註釋】:可如此區分:連續預測數值的情況是「迴歸」,預測項目的情況是「分類」,分類也可以用識別來形容。

書籍介紹

本文摘錄自《IT知識,就是你的競爭力:5小時特訓升級數位腦,讓你思考、決策、進化,都比別人快準好!》,商業周刊出版
*透過以上連結購書,《關鍵評論網》由此所得將全數捐贈兒福聯盟

作者:GLOBIS商學院
譯者:林佑純

大數據、演算法、AI、程式設計、物聯網……
學校沒教、你不能不會的關鍵科技新知與商務運用,
日本GLOBIS商學院讓你花5小時迅速掌握!

專業的IT知識,文科生也能看得懂!
一本書就能:知識打底×理解現況×職場運用
→進化你的價值,搶先一步勝出!

日新月異的科技發展所帶來的產業遊戲規則變化,讓所有商務人士惶惑不安、急著追趕。大數據、人工智慧、區塊鏈、物聯網與虛擬實境等流行關鍵字;或是網路經濟、平台商業模式、數據行銷等新模式,不斷衝擊現有的企業營運:再從產業發展來看,全球市值總額排名前五大的企業:蘋果、谷歌、微軟、亞馬遜、臉書來看,都是由科技業獨占鰲頭。如果不懂科技,恐怕將面臨淘汰。因此,作為職場工作者,傳統的商業知識、技能固然重要,但如果跟不上科技新知,難保自身競爭力。

但是,即使知道科技新知很重要,卻工作太忙無暇進修、專業術語障礙又難以跨越,該怎麼辦?《IT知識,就是你的競爭力》就是想幫讀者解決這個難題,讓你自修「職場基本功」。

本書用「文科生也看的懂」的淺顯但系統化的語言與概念,描繪當今職場所需的IT基礎知識、技能,以及提供有效率的學習方式。這裡的「IT基礎知識」,不是Excel的使用方法或應用程式的操作技巧,而是指科技新知對商務的影響與應用,供你在思考、判斷和決策時作為依據。

全書內容包括:第1章【電腦與資料的基本技巧】介紹電腦、資料,以及有關演算法的基本知識與技巧,諸如例如電腦如何處理檔案資料,演算法的重要性及其原理。第2章【擬定策略與市場行銷的基本技術】則是依序介紹現今在職場上必備的科技新知,並且解說技術的最新動向。第3章【領導力與組織的基本技能】談的是因應科技發展之下,組織架構的基本知識與技能。

getImage-5
Photo Credit: 商業周刊

責任編輯:潘柏翰
核稿編輯:翁世航

或許你會想看
更多『書摘』文章 更多『layout.economy』文章 更多『精選書摘』文章
Loader