「大數據」到底是什麼意思?事實上,它是一種精神

「大數據」到底是什麼意思?事實上,它是一種精神
Photo Credit: Escola Santa Anna @ Flickr CC BY ND 2.0

我們想讓你知道的是

大數據無統一定義,代表著傳統的儲存、分析技術難以應付的高維度資料。實際上大數據的特性包括了3V:Volume、Variety)與Velocity。近年又多了一 個V :真實性(Veracity)。

  1. 一場改變全球十億人口資訊服務的革命!Google、微軟爭相佈局的雲端運算服務

本篇是「機器學習專題」的第二篇文。

人們每天上傳至雲端的檔案數量,多達一億張相片、十億份文件……更別提數位影音、交易、生物醫療。每天全球所創造的資料量高達2.5艾位元組(exabyes,即1000,000,000,000,000,000)。

但資料量大就是大數據嗎?究竟什麼是大數據?又為何大數據會在近幾年突然興盛起來?時常耳聞的Hadoop、MapReduce、Spark等技術又是什麼呢?

今天,就讓我們來聊聊什麼是「大數據」(Big Data)。

大數據的源起

「儲存成本」與「資料取得成本」因科技進步而大幅下降,造就了這個年代大數據的興起。

30年前,1TB檔案存儲的成本為16億美金,如今一個1TB的硬碟不到100美金。同時間,全球各行業的資料量成長更是急速攀升;根據預估,從2013年至2020年間將成長10倍的資料量,資料總量將從4.4ZB增加至44ZB。

以天文學為例,2000年美國太空總署在新墨西哥州發起的史隆數位化巡天(Sloan Digital Sky Survey)專案啟動時,望遠鏡在短短幾周內收集到的資料,已經比天文學歷史上總共收集的資料還要多。

在生物醫學領域,新型的基因儀三天內即可測序1.8TB的量,使的以往傳統定序方法需花10年的工作,現在1天即可完成。在金融領域,以銀行卡、股票、外匯等金融業務為例,該類業務的交易峰值每秒可達萬筆之上。

Google每天要處理超過24千兆位元組的資料,這意味著其每天的資料處理量是美國國家圖書館所有紙質出版物所含資料量的上千倍。

Facebook每天處理500億張的上傳相片,每天人們在網站上點擊「讚」(Like)按鈕、或留言次數大約有數十億次。

YouTube的使用者人數已突破十億人,幾乎是全體網際網路使用者人數的三分之一,而全球的使用者每天在YouTube上觀看影片的總時數達上億小時。

在Twitter上,每秒鐘平均有6,000多條推文發布,每天平均約五億條推文。

千禧年開始,天文學、海洋學、生物工程、電腦科學,到智慧型手機的流行,科學家發現:仰賴於科技的進步(感測器、智慧型手機),資料的取得成本相比過去開始大幅地下降──過去十多年蒐集的資料,今朝一夕之間即能達成。

也因為取得數據不再是科學研究最大的困難,如何「儲存」、「挖掘」海量數據,並成功地「溝通」分析結果,成為新的瓶頸與研究重點。

接下來,我們將進一步介紹大數據的定義、特性,與發展重點。

什麼是大數據?

大數據意指資料的規模巨大,以致無法透過傳統的方式在一定時間內進行儲存、運算與分析。

至於「大」是多大,則各家定義不一,有兆位元組(TB)、千兆位元組(PB)、百萬兆位元組(EB)、甚至更大的規模單位;然而若真要找到符合這麼大規模數據量的企業倒也是不容易。事實上,根據451Research的資料科學家Matt Aslett,他將大數據定義為「以前因為科技所限而忽略的資料」,討論這些以前無法儲存、分析的資料。

如本文第一段所言,由於在近年來儲存成本降低與資料獲取量變大,因而能觀察到不曾注意過的商業趨勢,讓企業做出更全面的考量。無論企業規模大小,我們應注重的不僅是數據量本身,而應將「大數據」作為在科學研究與商業方法的運營心態:大數據需要全新的處理方式,以新型的儲存運算方法分析數據、產出溝通圖表,並將該分析結果視為一種戰略資產。

Lynn閒聊:

講白點:「大數據,是一種精神。」你要說它是一個Mindset、一個Fu、一個buzz word的口號都可以。

如果你公司裡的主管對於幾MB的資料稱為大數據……要說他錯也很難,大數據本來就沒甚麼定義。跟著我再唸一遍:大數據,是一種精神。不講潮一點就會跟不上時代。

Data一詞,台灣通常翻譯成「資料」,中國翻譯成「數據」。所以Database台灣叫資料庫,中國叫數據庫。

早期台灣學術界和工研院等政府機構,都把Big Data翻成巨量資料。後來中國炒作大數據這個概念炒得太凶、紅回台灣,變成一般民眾習於「大數據」這個詞,而非巨量資料或大資料。

(跟某些叫知識經濟或IP的東西,好像是差不多的套路呢……訂閱文章收錢可以炒作、著作權也可以炒作,通通都可以炒,我也是醉了)

現在Data Science、Data Scientist台灣還是叫資料科學、資料科學家,中國叫數據科學;但遇到Big Data就一起叫大數據。

大數據的特性?

目前大部份的機構將大數據的特性歸類為「3V」,包括資料量(Volume)、資料類型(Variety)與資料傳輸速度(Velocity)。

1
圖片來源:作者提供

一、資料量(VOLUME)

無論是天文學、生物醫療、金融、聯網物間連線、社群互動……每分每秒都正在生成龐大的數據量,如同上述所說的 TB、PB、EB規模單位。

二、資料多元性(VARIETY)

舉一個簡單的例子:

│資料類型│ 0 │ 0 │ 1 │ 0 │ 0 │ 1 │ 0 │ 0 │ 1 │ 0 │ 0 │ 1 │……

就算上述資料量高達1TB,採用傳統統計方法仍能很容易地找到資料規律。也因此,真正困難的問題在於分析多樣化的資料──從文字、位置、語音、影像、圖片、交易數據、類比訊號……等結構化與非結構化包羅萬象的資料,彼此間能進行交互分析、尋找數據間的關聯性。

三、資料即時性(VELOCITY)

大數據亦強調資料的時效性。隨著使用者每秒都在產生大量的數據回饋,過去三五年的資料已毫無用處。一旦資料串流到運算伺服器,企業便須立即進行分析、即時得到結果並立即做出反應修正,才能發揮資料的最大價值。

到目前為止,大數據的3V到底要多大或多即時,並沒有明確的共識或定義。(請再跟著我唸:大數據,是一種精神。)

近年來大數據的定義又從最早的3V變成了4V──第四個V代表Veracity,意指資料真實性。Veracity討論的問題包括:資料收集的時候是不是有資料造假、即使是真實資料,是否能夠準確的紀錄、資料中有沒有異常值、有異常值的話該怎麼處理等等。

目前台灣真正能符合大數據「3V」定義的企業微乎其微,在數據分析上更是幾乎不可能。


猜你喜歡


【一分鐘講堂】不只控糖護腎保心!放寬糖尿病藥物「腸泌素」給付,為什麼能減少健保支出?

【一分鐘講堂】不只控糖護腎保心!放寬糖尿病藥物「腸泌素」給付,為什麼能減少健保支出?

我們想讓你知道的是

台灣糖尿病人口超過250萬人,每年健保支出近310億元,衍生的慢性腎臟病、心臟病等共病,每年健保負擔費用也名列前茅。財團法人糖尿病關懷基金會呼籲,若能早期介入使用適當藥物控制血糖並保護器官,不但可降低糖友發生心腎病變的風險,長期還可大幅減輕健保負擔。

根據中華民國糖尿病學會統計,2000至2014年全台第2型糖尿病人口由84萬人逐步上升至220萬人,且以每年約15萬人的速度持續增加。若以此成長趨勢來看,保守估計台灣目前糖尿病人口約有250-300萬人左右,數量相當驚人。

而台灣糖尿病人口逐年攀升的結果,也反映於國內健保給付支出上。根據健保署統計,2019年用於糖尿病的醫療費用,包括藥物、總診療費、住院費、其他醫材等治療費用,總支出近310億元,名列健保十大支出第二名。

【糖尿病關懷基金會】腸泌素_一分鐘講堂_3

血糖失控影響全身器官!糖尿病心腎共病增健保財務負擔

除了糖尿病本身健保支出醫療費用極高外,財團法人糖尿病關懷基金會執行長,台大醫院內科部臨床教授李弘元醫師表示,「糖尿病同時也是很多疾病的根源,若血糖控制不佳,將進一步影響全身血管與器官。」

尤其糖尿病引起的腎病變,可謂造成國人洗腎最大元兇之一,而腎臟病更是健保「最燒錢」的疾病,根據健保署2019的統計,慢性腎病治療費用高居「10大燒錢國病」之冠,全年度支出高達533億元。

根據統計,台灣有超過三成的糖尿病患者同時併有心血管疾病,健保署同年統計也發現,慢性缺血性心臟病治療費用全年度達122.66億元。綜合上述可知,光是將糖尿病與慢性缺血性心臟病、慢性腎病的健保支出加總,費用就相當可觀,足見糖尿病防治刻不容緩!

想減少健保負擔?糖友控制血糖更要盡早保護器官預防共病

有鑑於此,想要減少健保負擔,及早介入糖尿病患用藥與治療,避免血糖失控引起後續共病的發生非常重要。李弘元醫師指出,「近年來國際上對於糖尿病治療觀念有大幅度的轉變,不再是單純控制血糖,更要盡早保護器官。」

美國糖尿病學會(ADA)最新公布的治療指引,便建議醫師應從糖尿病患者治療初期就評估心血管疾病與腎臟病等共病風險,而腸泌素(GLP-1 RA)與排糖藥(SGLT2抑制劑)即為指引建議優先考慮使用的藥物。

腸泌素不只穩定血糖、體重,研究:更能減少心腎共病風險

其中,腸泌素在穩定血糖、減重、減緩共病上都有優異表現。但到底什麼是腸泌素呢?李弘元醫師解釋,腸泌素是人體腸道原本就會分泌的一種蛋白質激素,能促進胰島細胞分泌胰島素,並抑制升糖素分泌,達到調控血糖的作用。

腸泌素同時還能進一步作用在人體胃部,抑制胃的排空(胃的排空速度變快便容易產生飢餓感);並促進大腦中樞神經產生飽足感,對於體型較胖(糖胖症)的糖友也有輔助控制體重的益處。

且國外大型研究數據顯示,在血糖控制相同的狀況下,相較其他控糖藥物者,選用腸泌素治療可減少14%的心血管疾病風險、21%的腎病變發生及12%死亡率。因此,腸泌素自然也成為近年來全世界的各大糖尿病學會指引建議的優先治療選擇。

台灣腸泌素藥物健保給付有多嚴格?為何糖友看得到用不到?

雖然腸泌素在臨床益處顯而易見,可受到健保財務吃緊,2019年起健保給付限縮影響,目前國內腸泌素健保給付僅限於糖化血色素達到8.5%,且時間持續長達6個月;或已發生如心肌梗塞、缺血性腦中風等重大心血管疾病者。

但因為多數醫師不會眼睜睜看著病人血糖持續居高不下,大部分在糖化血色素超標但未達8.5%之前就會調整藥物,導致健保給付門檻和臨床狀況有極大落差,使糖友們看得到卻用不到。

糖化血色素換算平均血糖值

  • 正常血糖控制目標:空腹血糖130 mg/dL、餐後血糖160-180 mg/dL、糖化血色素7%以下(根據不同年紀與臨床狀況,控制目標會有些微差異)。
  • 糖化血色素8.5%時:平均血糖在200 mg/dL以上,相當於空腹血糖接近200 mg/dL、餐後血糖250-260mg/dL,而這樣的數值離建議目標有一段距離。

李弘元醫師指出,如不符合上述健保給付標準者須自費使用腸泌素,每個月平均要花上3000至4000元的藥物支出,還不含門診掛號、診療、照護等相關費用,長期累積下來金額相當可觀。

因此在現行健保給付條件下,造成很多糖友即使血糖控制不佳,卻因經濟不允許,無法及早使用腸泌素治療,進一步增加衍生心腎共病的風險。此一結果不僅對糖友病情控制是一大打擊,長期也反而更無助於降低整體健保財務支出。

3年就回本!糖尿病關懷基金會:盼下修腸泌素健保給付條件打造雙贏局面

而對於此一現況,李弘元醫師強調,雖然他認同為維持台灣醫療體系長久運作,健保財務考量有其必要性。但就長遠目標來看,腸泌素現有的健保給付標準不僅在臨床實務上有違常理,更不符合國際現況。

李弘元醫師進一步分享,綜觀亞洲地區鄰近國家的藥物給付標準,在日本、韓國、中國大陸都沒有針對腸泌素訂定類似的使用限制;全世界目前也沒有任何一個國家像台灣一樣,必須糖化血色素超過8.5%以上,且持續長達半年才能開立。

同時,李弘元醫師表示,根據糖尿病學會與醫療經濟學專家的計算數據顯示,若能將腸泌素給付標準從糖化血色素8.5%下修到7.5%,雖然短期內藥費支出會增加,但在第三年起即可因減少重大心腎併發症支出,減輕約2300萬點健保支出,相當於前兩年增加藥費支出的總和;且於第四年與第五年分別可節省約6800萬與1億2400萬點,長期下來,有望減少的健保支出花費將相當可觀。

總結來說,如未來相關單位有機會放寬給付標準,幫助糖友盡早使用腸泌素介入治療,不僅有助節省健保開銷,對糖友來說也有器官保護、降低死亡率的益處,是患者與社會皆能受惠的雙贏局面。


猜你喜歡