《眼見為憑》:「有視力的電腦」如何完成臉部辨識?

《眼見為憑》:「有視力的電腦」如何完成臉部辨識?
Photo Credit: Shutterstock / 達志影像

我們想讓你知道的是

實際上我們並不知道神經網絡如何區分出比爾。皮膚的顏色?臉部高度和寬度之間的比例?直鼻或是鷹勾鼻?酒窩?青春痘留下的傷痕?還是以上全部?這些都在隱藏層中,都位於數不盡的連結裡。

文:理查・馬斯蘭(Richard Masland)

今天讓你發生勝利呼喊的發明,很快就會讓你發出恐懼的呼喊。——貝托爾特・布萊希特(BertoltBrecht)

有視力的電腦

你可能聽說過有視力的電腦,出現在自動駕駛車上,或是能夠辨識臉部。擔憂科幻情節成真的人會想到將來有天去百貨公司,攝影機拍到你的臉,之後把你的身分和購物喜好連接在一起,然後百貨公司會(以某種方式)操縱你買你原本沒有打算買的東西。

我得告訴你,無須擔心……至少現在還不需要。目前圖型式驗證碼(CAPTCHA)依然用來維持你的網路安全。事實上圖型式驗證碼是一個很好的例子,說明日常用電腦依然有難以解決的任務(美國航太總署的電腦當然能夠破解絕大部分的圖型驗證碼,但在日常生活中出現的業餘機器人是辦不到的)。

電腦能夠看東西,真的很厲害,而且辨別的速度突飛猛進。為了說明這種能力,我會介紹幾種辨識臉部的方法,這是我在本書一開始就提出的問題,對於視覺神經科學家而言,如聖母峰般高聳。

現在最佳的臉部辨識電腦其實表現得非常棒,幾乎和人類一樣好,不過體積比人腦大太多了,而且需要消耗許多能量。我將說明兩類南轅北轍的方式。其中一類以規則為基礎,也就是說這個方法會嚴格遵守一連串特殊的分析步驟。

大部分的人想到的會是這種,舉例來說,我在這一章開頭提到的那位堅持己見的航太工程師便是。為了方便說明,我把以規則為基礎的稱為「蠢方法」(dumb method),不過這一類中有些方法一點都不蠢。

第二類方式利用機器學習,模仿腦的運作,現在看來會是將來的主流,讓隱私權擁護者恐懼的也是這類方式。我們把這類人工智慧方式稱為「巧方法」(smart method)。我的描述將會集中在後者,主要是因為這些方法類似於神經元的行為,而我認為神經元是靈巧的。目前人工智慧法是臉部辨識的主流。

臉部辨識演算法中包括了數個任務:首先要認出有一張臉存在,然後分辨那是誰的臉。第一個任務只是臉部偵測(face detection),不是臉部辨識。在蠢方法和巧方法中,都需要完成這個任務。在有各式各樣物品的一幕中,例如百貨公司的男裝部門,這兩類方式都要能夠看出是否有臉部存在,並且把臉部影像提取出來以便後續分析。

但是在尋找臉部之前,電腦必須讓那個測試影像(對電腦來說)盡可能清晰,這些發生在演算法真正要開始找出臉部之前的過程,稱為前處理(preprocessing)。讓影像變得更清晰的方法非常多,有修圖經驗的人就知道。我會說明兩個例子。

第一個例子是最為自然的場景,光線並不單一:從窗外照進的日光會造成陰影,百貨公司室內的燈光集中在當天促銷的運動外套上。之前已經提到過,基於數種原因,我們不會注意到光亮的差異,但是手機或是電腦配備的數位相機卻會。電腦是根本沒有想像力的,這會是個大問題。同一個東西在不同的光照下,對電腦而言是不同的東西。

因此第一個前處理轉換辨識讓影像中的亮度「平面化」(flatten)。電腦會把整個影像中的亮度平均化(有的時候會採取類似平均化的巧妙方式),並且調整亮度,讓整個影像的亮度保持一致,這樣影像中的物體看起來會像是由單一均勻光源照射下的樣子。

其次,絕大部分的演算法會採用某種邊緣強化方法,這之前也多次提到過,邊緣與行動息息相關,演算法多多少少會讓邊緣更鮮明。

現在電腦清理好了影像,第二項任務是把影像中的臉找出來,這也有好幾種方法。其中一種很有趣,因為它類似於視覺皮質中神經結構進行的方式,產生的圖稱為HOG影像。

HOG的意思是「方向梯度直方圖」(histogram of gradients),其中的「梯度」是從亮到暗的變化區域,邊緣便是一邊亮而另一邊暗。換句話說,梯度不只顯現出邊緣,而且還可以指出邊緣是朝內或是朝外。電腦會盡可能計算影像中的梯度以及方向,並且描繪出來。

《眼見為憑》內文附圖-P_200
Photo Credit: 時報文化

這裡是一個簡化過的影像。設計演算法的人把一個影像分解成許多縱橫各有十六個像素的小方塊,在每個小方塊中,演算法會計算有多少梯度指著主要的方向(上、下或是傾斜),然後把影像小方塊的梯度濃縮成簡單的邊緣線條,取代原來的影像,這個線條經過調整,之前是方格中最明顯的邊緣。

實際上,書中這個影像是許多HOG影像的平均值,來自於許多張臉,是共通的臉孔。你可以把這張臉當成模板來找出人群中的臉,方法是為影像中每個大小適當的區域都做一個HOG影像,每格大小和臉部相當。你把這個檢驗用的方格在你認為含有臉部的影像上移動,之後比較影像上某個HOG和理想中完美的臉部HOG。

大部分的區域中是沒有意義的混亂邊緣,但是有些和組合出的HOG相符,演算法會認為這些區域是臉。當然到目前還沒有指出是誰的臉,只能指出是臉而已。不過這個過程可把臉納入標準座標(into standard coordinates)中,這些圖案之後會再加以分類,同時比起原始影像,挑選過的影像在之後處理的難易程度會大幅降低。

演算法最先得到的是雜亂無章的像素,裡面人頭鑽動,像是有許多團像素雲。演算法會把可能是臉的像素團先挑出來。

現在影像經過清理,並且確定了臉孔的位置。經由一些調整,這些臉會成為標準格式(舉例來說,會把臉部仔細地切除下來,好去除周圍的影像,在有些科幻電影中你可以看到區隔臉部和周遭的小方框),接下來便能著手確認那些臉的身分。


猜你喜歡


圖解智慧國家四大關鍵科技,從不同角度帶你了解台灣的科技應用實力

圖解智慧國家四大關鍵科技,從不同角度帶你了解台灣的科技應用實力

我們想讓你知道的是

大家都知道台灣有座半導體護國神山,也聽過許多媒體對台灣科技實力的盛讚,但台灣的科技實力到底強不強?我們從四個面向帶你看台灣作為「智慧國家」到底有什麼實力!

大家都知道台灣有座半導體護國神山,也聽過許多媒體對台灣科技實力的盛讚,但台灣的科技實力到底強不強?自己說不如讓國際單位做的調查更客觀顯示。瑞士洛桑管理學院(IMD)每年9月公布的世界數位競爭力(World Digital Competitiveness Ranking)評比,最近一次報告2021年台灣在全球64個主要國家及經濟體當中排名第8,獲得歷年來最佳名次

而且值得關注的是,支持數位競爭力的核心要素之一,也就是「科技」競爭力。IMD評比報告揭露台灣拿下全球第2的佳績,從2018年的第11名年排名持續上升,顯見台灣無愧於科技強國之名。

科技小百科:
瑞士洛桑管理學院(IMD)是一個長期研究國家與企業競爭力,在國際上具盛名及公信力的評比機構,並自1989年起發布「世界競爭力年報」World Competitiveness Yearbook,其評比報告與調查結果更是各國政府擬定相關政策之參考。IMD每年會定期公布兩份競爭力評比報告,其一是「世界競爭力年報」,每年在6月公布,2022年台灣在63個受評比國家中排名全球第7名。另一份報告為「世界數位競爭力評比」World Digital Competitiveness Ranking,每年在9月底公布,本篇文章引用的資料為這兩份研究。


也因為科技與國家發展息息相關,有哪些技術是台灣不為人知的優勢?或是未來產業可大力投資布局的領域?我們找出其中四大項與智慧國家最有關的科技,展現台灣具備強勁的科技能量,或許你已經受惠,也或許你能從其中找到發展的機會。

關鍵科技一、融合海陸空領域的多維通訊

圖解_2_1

隨著國家管理範圍逐漸擴大,通訊範圍多元且彼此關聯,相關科技如低軌衛星、5G通訊、海底電纜等,形成環環相扣的多維通訊聯網。

仔細洞察2021年的IMD報告,台灣在「行動寬頻的用戶比例」這項指標,拿下全球第1的傲人成績。顯見台灣在通訊基礎建設的投資及普及率,是走在全球領先位置。

尤其5G/6G關聯科技更是未來多維通訊的具舉足輕重的地位,原因是5G衍生的價值鏈相當廣泛,舉凡從晶片、模組、終端、邊緣、系統、到應用服務,可形成完整生態圈。為了強健台灣5G專網的自主技術與供應鏈,從2018年先後成立5G產業發展聯盟、5G垂直應用聯盟、以及5G Open Networking平台,逐漸形成5G國家隊。

除了把5G領先國視為戰略目標,當創新技術落地,更能帶來龐大商機。根據工研院的預估,將5G的小基站、邊緣運算、網路虛擬化等關鍵產品、模組、元件加總起來,2025年的市場規模上看2,510億美元(約新台幣7.5兆元),其他國家還在積極推動5G聯網建設,顯見相關商機仍有相當大發展空間。

關鍵科技二、新型態數位經濟與網路服務

圖解_2_2

邁向Web 3.0的交叉點,元宇宙被視為下一代網際網路的新機會,市調機構Gartner預測,2026年全世界將有25%的人口,每天至少有一小時投入元宇宙虛擬世界,進行工作、社交、教育、購物、娛樂等活動,並藉由虛擬貨幣、NFT進行數位資產的交易,虛擬經濟逐漸成形。

所謂元宇宙,需要以5G/6G高速網路為基礎,透過VR頭盔/眼鏡作為進入3D虛擬世界的載體,在元宇宙的各種互動體驗則需仰賴AI運算、雲端/邊緣儲存、區塊鏈等核心技術支援。人們在元宇宙內可以滿足從現實世界做不到的事情,形成穿梭虛擬、現實之間的生活體驗與商業模式。

近七成投入元宇宙相關應用的企業,認為元宇宙在未來5年一定會蓬勃發展,虛擬音樂會、虛擬時裝秀、媒體及產品聯名展示活動,將是元宇宙優先發生的商業體驗。

那麼台灣要投入元宇宙有何利基?解析元宇宙供應鏈版圖,主要可分為晶片、光電、通訊、AR/VR裝置、內容以及AI技術,台灣科技可從硬體方面,包含晶片、感測IC、光學零組件、伺服器等擅長領域切入。像是大家熟知的半導體大廠台積電,對於相關晶片的供應就至關重要,另外光電產業也有揚明光、玉晶光、中光電等企業,讓投影技術更精緻,再來連接元宇宙的通訊技術,也有聯亞來支援,而裝置軟硬體、AI技術則是有創意、世芯、智原等企業投入,最後想到AR/VR集大成者,就不能遺漏宏達電在這一塊的耕耘,同樣威盛電、佐臻、未來市(XRSPACE)等品牌也積極佈局,可見台灣已有完整的供應鏈,接下來有志於加入元宇宙的廠家,不妨從自身的專長去思考,相信不論是哪個領域的企業,都能有更多的創新、應用內容投入,完善整個元宇宙生態。

關鍵科技三、疫後時代興起的智慧型代理人

圖解_2_3

近年因疫情持續延燒,越來越多領域開始導入「智慧型代理人」,像是零售業者引進半自動化機器,協助人力處理訂單、點餐;又或是醫院使用機器人,藉由AI辨識功能分擔部分醫護工作。

所謂智慧型代理人,以它所知的知識範圍內,自主完成人類所給予的指令任務。智慧型代理人發展至今,能協助人類的廣度、深度越來越多,主要是受惠機器學習的技術更為先進,加上其他的自動規劃、互相協調等演算法的成熟,讓智慧型代理人成為下一波產業發展重點。

世界先進國家紛紛把AI納為國家產業重要發展策略,台灣從2018年就推出「台灣AI行動計畫」,全面啟動產業AI化。發展至今,AI應用已從測試階段逐步應用於各式產業,資策會統計發現,掌握AI技術的新創企業在台灣有300家,逐漸摸索出不同的商業策略與獲利模式。

尤其資通訊、醫療照護是台灣兩大擁有頂尖人才的雙軸產業,在疫情之下,就可以看到醫療+科技所衍生的智慧型代理人應用。像是過去為了解決醫療量能不足,開發「5G智慧防疫機器人」,用來隔離病房消毒、運送餐盒及藥品物資,比傳統人力消毒方式有效節省50%時間,還能降低醫護人員感染風險,讓醫事工作更有效率。

關鍵科技四、資訊安全網保護每個人數位資產

圖解_2_4

我國面臨網路犯罪、駭客入侵政府、機關,甚至竊取個人資料事件持續增加,如何保護國民安心使用數位科技、保障財產安全將是未來重要方向。隨著AI普及所衍生的龐大資料量之隱私及資安問題,成為棘手的挑戰。從國際AI資安發展現況來看,歐盟在2021年提出人工智慧規則草案(Artificial Intelligence Act),鼓勵值得信賴且道德的AI進行研發與應用。微軟更在今(2022)年禁止提供AI推測情緒技術,並制定「負責任AI標準第二版」、Google則停止AI機器人具有自我意識、能與人類溝通等爭議事件,這些做法也都反映美歐在立法之際,業者也在努力自行節制敏感AI技術。

AI資安,是挑戰也是機會。未來,台灣政府與企業也須密切關注美歐相關草案的立法動態,找出AI規範的共同點,以此界定使用AI產品與服務之要求;因此,AI資安不僅需透過科技來防禦,更需要治理與法規,降低AI所帶來的衝擊。

另外,針對5G資安議題,台灣有展開大型科技防禦策略,包含5G資安防護系統、跨機關資安聯防。5G資安防護系統致力確保業者使用的5G系統具備安全、可靠、信賴,與國內5G專網業者進行服務驗證,以強化國產5G系統的整體資安防護能力。跨機關資安聯防的目標放在建立政府與民間的資安聯防體系,藉由橫向整合跨部會,全面提供威脅情資,減少機關隱匿資安事件,降低事件誤報與漏報。

持續提升台灣的科技能量 打造全方位的智慧國家

圖片_1
圖片資料來源:IMD 2022 世界競爭力年報

台灣的科技能量持續提升,從2022年的IMD世界競爭力年報可發現,而且該報告還指出我國擁有高素質勞動力、經濟活力、企業治理能耐、高教育水準等優勢。上述四項與智慧國家高度關聯的新興科技,涵蓋「數位基盤、數位創新、數位包容」等元素,如何借助科技打造創新、包容的社會,在台灣強勁的科技應用產業鏈上,補強創新的能量,並延續發展優勢項目,將是台灣要持續努力的方向。

了解更多智慧國家方案
看更多智慧國家相關報導

行政院科技會報辦公室 廣告


猜你喜歡