《眼見為憑》:「有視力的電腦」如何完成臉部辨識?

《眼見為憑》:「有視力的電腦」如何完成臉部辨識?
Photo Credit: Shutterstock / 達志影像

我們想讓你知道的是

實際上我們並不知道神經網絡如何區分出比爾。皮膚的顏色?臉部高度和寬度之間的比例?直鼻或是鷹勾鼻?酒窩?青春痘留下的傷痕?還是以上全部?這些都在隱藏層中,都位於數不盡的連結裡。

文:理查・馬斯蘭(Richard Masland)

今天讓你發生勝利呼喊的發明,很快就會讓你發出恐懼的呼喊。——貝托爾特・布萊希特(BertoltBrecht)

有視力的電腦

你可能聽說過有視力的電腦,出現在自動駕駛車上,或是能夠辨識臉部。擔憂科幻情節成真的人會想到將來有天去百貨公司,攝影機拍到你的臉,之後把你的身分和購物喜好連接在一起,然後百貨公司會(以某種方式)操縱你買你原本沒有打算買的東西。

我得告訴你,無須擔心……至少現在還不需要。目前圖型式驗證碼(CAPTCHA)依然用來維持你的網路安全。事實上圖型式驗證碼是一個很好的例子,說明日常用電腦依然有難以解決的任務(美國航太總署的電腦當然能夠破解絕大部分的圖型驗證碼,但在日常生活中出現的業餘機器人是辦不到的)。

電腦能夠看東西,真的很厲害,而且辨別的速度突飛猛進。為了說明這種能力,我會介紹幾種辨識臉部的方法,這是我在本書一開始就提出的問題,對於視覺神經科學家而言,如聖母峰般高聳。

現在最佳的臉部辨識電腦其實表現得非常棒,幾乎和人類一樣好,不過體積比人腦大太多了,而且需要消耗許多能量。我將說明兩類南轅北轍的方式。其中一類以規則為基礎,也就是說這個方法會嚴格遵守一連串特殊的分析步驟。

大部分的人想到的會是這種,舉例來說,我在這一章開頭提到的那位堅持己見的航太工程師便是。為了方便說明,我把以規則為基礎的稱為「蠢方法」(dumb method),不過這一類中有些方法一點都不蠢。

第二類方式利用機器學習,模仿腦的運作,現在看來會是將來的主流,讓隱私權擁護者恐懼的也是這類方式。我們把這類人工智慧方式稱為「巧方法」(smart method)。我的描述將會集中在後者,主要是因為這些方法類似於神經元的行為,而我認為神經元是靈巧的。目前人工智慧法是臉部辨識的主流。

臉部辨識演算法中包括了數個任務:首先要認出有一張臉存在,然後分辨那是誰的臉。第一個任務只是臉部偵測(face detection),不是臉部辨識。在蠢方法和巧方法中,都需要完成這個任務。在有各式各樣物品的一幕中,例如百貨公司的男裝部門,這兩類方式都要能夠看出是否有臉部存在,並且把臉部影像提取出來以便後續分析。

但是在尋找臉部之前,電腦必須讓那個測試影像(對電腦來說)盡可能清晰,這些發生在演算法真正要開始找出臉部之前的過程,稱為前處理(preprocessing)。讓影像變得更清晰的方法非常多,有修圖經驗的人就知道。我會說明兩個例子。

第一個例子是最為自然的場景,光線並不單一:從窗外照進的日光會造成陰影,百貨公司室內的燈光集中在當天促銷的運動外套上。之前已經提到過,基於數種原因,我們不會注意到光亮的差異,但是手機或是電腦配備的數位相機卻會。電腦是根本沒有想像力的,這會是個大問題。同一個東西在不同的光照下,對電腦而言是不同的東西。

因此第一個前處理轉換辨識讓影像中的亮度「平面化」(flatten)。電腦會把整個影像中的亮度平均化(有的時候會採取類似平均化的巧妙方式),並且調整亮度,讓整個影像的亮度保持一致,這樣影像中的物體看起來會像是由單一均勻光源照射下的樣子。

其次,絕大部分的演算法會採用某種邊緣強化方法,這之前也多次提到過,邊緣與行動息息相關,演算法多多少少會讓邊緣更鮮明。

現在電腦清理好了影像,第二項任務是把影像中的臉找出來,這也有好幾種方法。其中一種很有趣,因為它類似於視覺皮質中神經結構進行的方式,產生的圖稱為HOG影像。

HOG的意思是「方向梯度直方圖」(histogram of gradients),其中的「梯度」是從亮到暗的變化區域,邊緣便是一邊亮而另一邊暗。換句話說,梯度不只顯現出邊緣,而且還可以指出邊緣是朝內或是朝外。電腦會盡可能計算影像中的梯度以及方向,並且描繪出來。

《眼見為憑》內文附圖-P_200
Photo Credit: 時報文化

這裡是一個簡化過的影像。設計演算法的人把一個影像分解成許多縱橫各有十六個像素的小方塊,在每個小方塊中,演算法會計算有多少梯度指著主要的方向(上、下或是傾斜),然後把影像小方塊的梯度濃縮成簡單的邊緣線條,取代原來的影像,這個線條經過調整,之前是方格中最明顯的邊緣。

實際上,書中這個影像是許多HOG影像的平均值,來自於許多張臉,是共通的臉孔。你可以把這張臉當成模板來找出人群中的臉,方法是為影像中每個大小適當的區域都做一個HOG影像,每格大小和臉部相當。你把這個檢驗用的方格在你認為含有臉部的影像上移動,之後比較影像上某個HOG和理想中完美的臉部HOG。

大部分的區域中是沒有意義的混亂邊緣,但是有些和組合出的HOG相符,演算法會認為這些區域是臉。當然到目前還沒有指出是誰的臉,只能指出是臉而已。不過這個過程可把臉納入標準座標(into standard coordinates)中,這些圖案之後會再加以分類,同時比起原始影像,挑選過的影像在之後處理的難易程度會大幅降低。

演算法最先得到的是雜亂無章的像素,裡面人頭鑽動,像是有許多團像素雲。演算法會把可能是臉的像素團先挑出來。

現在影像經過清理,並且確定了臉孔的位置。經由一些調整,這些臉會成為標準格式(舉例來說,會把臉部仔細地切除下來,好去除周圍的影像,在有些科幻電影中你可以看到區隔臉部和周遭的小方框),接下來便能著手確認那些臉的身分。

如果我去紐約市的時代廣場,隨便問一個路人電腦要如何辨識臉部,大部分的人可能會說:「電腦有規則,能夠區別不同的臉部特徵,例如電腦能夠測量兩眼之間的距離,或是額頭的高度,然後用這些未知臉部的數據和已知臉部比較。」

運用這些固定的規則的確有可能讓電腦辨識出臉部,例如馬修・涂克(Matthew Turk)與艾利克斯・潘特蘭(Alex Pentland)共同發展出來的一個演算法,能夠計算臉部測量值的特徵向量(eigenvector)。而現在,大部分的臉部辨識電腦改採用機器學習。

但可能並非一直都會如此,十年後讀到這本書的某人可能會很高興我曾警告過,以規則為基礎的演算法可能會捲土重來。不過現在我們的重點還是放在運用神經網絡的電腦上。

為了好玩,我們看看一個利用機器學習的臉部辨識演算法,這是由商業數學軟體MATLAB所提供的案例,值得你花一些時間瞧瞧,因為許多感知器也是以同樣的方式運作。一開始那些讓臉部納入標準座標的步驟,和以規則為基礎的演算法相同,前面已經說明過,接下來的步驟是:

  • 把大批大批清理好的臉部影像(正面、光照均勻)輸入到多層級的神經網絡,訓練神經網絡為這些臉孔標上迪克、珍、比爾等名字的標籤。這是教導機器的步驟,對於輸入到機器的影像,你得告訴神經網絡說:「這張是比爾。」或「這張不是比爾。」
  • 神經網路就如同其他感知器那樣採用反向傳播,調整各個連結的加權。當教師說「這張是比爾」時,最活躍的突觸會受到加強。唯一的差異在於計算能力強的系統會用到一整疊感知器,也就是人工智慧機器中那些隱藏層。反向傳播會逆著影響每個隱藏層,直到輸入層。
  • 現在這個神經網絡已經過訓練,我們可以測試一下:找張比爾的影像輸入神經網絡,如果這個影像和用來訓練用的影像夠相似,其中一個決策器便接收到了很強的輸入,因為它的突觸之前受到比爾臉部各方位的影像而強化了。

神經網絡很大,而且見過了很多張臉,現在變得很靈巧,能夠在光照亮度不同的狀況下辨識出比爾臉孔的各個角度,不論他穿的是白襯衫或是紅T恤。在實際狀況中,用來訓練臉部辨識神經網絡的資料庫非常龐大。在以往使用的是汽車駕照的檔案資料,其中含有數百萬個已知身分的臉部影像。

很有趣的是,實際上我們並不知道神經網絡如何區分出比爾。皮膚的顏色?臉部高度和寬度之間的比例?直鼻或是鷹勾鼻?酒窩?青春痘留下的傷痕?還是以上全部?這些都在隱藏層中,都位於數不盡的連結裡。

相關書摘 ▶《眼見為憑》:當發現視網膜有數十種細胞時,許多人打從心底抗拒

書籍介紹

本文摘錄自《眼見為憑:從眼睛到大腦,從感知到思考,探索「看見」的奧祕》,時報文化出版

作者:理查・馬斯蘭(Richard Masland)
譯者:鄧子衿

  • momo網路書店
  • Pubu電子書城結帳時輸入TNL83,可享全站83折優惠(部分商品除外,如實體、成人及指定優惠商品,不得與其他優惠併用)
  • 透過以上連結購書,《關鍵評論網》將由此獲得分潤收益。

我們為何能輕易在人群中認出家人或朋友的面孔?
如此理所當然的行為,其運作機制卻是科學界的重大奧祕之一!
從視覺到人工智慧,揭開人腦與電腦的「看見」之謎

幾乎大腦所有的行為,都與視覺息息相關,當我們了解視覺形成的原理,不僅能夠明白「看見」代表的意義,更能一窺大腦運作的堂奧。哈佛大學神經科學教授理查・馬斯蘭藉由解析眼睛的內在組成與行為,解答了關於大腦處理資訊的關鍵問題:即人類如何感知、學習和記憶資訊。

理查・馬斯蘭以風趣生動的口吻講述看似枯燥的理論機制,並廣納各種觀點;行文之間更不時點綴以合作過的傑出學者,以及在漫長研究過程中發生的大小事。透過深入淺出的筆觸,讓那些在實驗室裡度過的晨昏躍然紙上,帶領讀者一同參與這趟偉大的解謎之旅。

眼見為憑
Photo Credit: 時報文化

責任編輯:羅元祺
核稿編輯:翁世航


猜你喜歡


國人理財總目標:安心退休與子女教育

國人理財總目標:安心退休與子女教育

我們想讓你知道的是

理財已是全民運動,但大家理財的目標到底是什麼?根據中租基金平台與關鍵評論網合作的調查顯示,多數投資人的理財目標,都與退休及子女教育金有關,可見國人理財的目的,已不再只是單純的當下獲利而已,而是把眼光放在更長遠的未來。

關鍵議題研究中心TNLR日前做了一份線上問卷「基金申購偏好調查」,針對台灣網路人口結構抽樣20歲以上的受訪者,回收1,000份有效樣本。

40歲以上最重視安穩退休與子女教育

根據調查顯示,投資人的理財目標非常多元,其中把退休設定為首要理財目標的受訪者佔比高達61.4%(見下圖),其次為房貸與買房需求的16.8%,再其次則是為子女做準備的19.5%;至於第一桶金色彩較為明顯的創業準備與買車,則分別各佔5.7%與3.7%,可見對投資人來說,理財最大的目的主要還是在是中、長期的投資目標上。

1
資料來源:關鍵評論網,基金申購偏好調查,調查期間 2022/6/30-2022/7/5

若細分到不同年齡層來看,在40歲以上的族群中,子女教育金是理財目標的第二順位,排名僅次於退休準備;而30歲左右的投資族群,買房或房貸需求則是排名第二順位的理財目標,至於子女教育金排到第三順位;若再把年齡下降到20歲左右,可發現買房與房貸的重要性更甚於退休金準備,可見若以40歲為分界,投資人對理財的目標相當不同。

2
資料來源:關鍵評論網,基金申購偏好調查,調查期間 2022/6/30-2022/7/5

共同基金與長期投資

其實就投資目標來看,無論是退休金、子女教育金還是買房資金,由於金額較大,這些都可算是中長期的投資目標。對多數投資者來說,儘管理財的目標有千萬種,共同基金卻是他們在執行長期投資時最重要的理財工具。

但在執行長期投資的過程中,市場波動永遠是投資人最擔心的變數,由於共同基金具備資產分散與主動式操作的特性,不但可以幫投資人降低波動風險,也有助於慢慢幫投資人累積財富。不過這一切的前提,就是必須搭配正確的投資方式

巴菲特曾說:「窮人投資金錢,富人投資時間」。在理財的過程中,無論投資本金有多大,「時間」都是影響投資成效的重要因素,投資的時間越長,能享受到的複利效果也就越高,理財目標也就越容易達成。

3

定期定額是長期投資的勝利方程式

基於上述理由,「定期定額」就成了投資人最青睞的投資方式。根據中租基金平台與關鍵評論網合作的調查顯示,有61%的投資人習慣用「定期定額」的方式來理財,另也有21.7%的投資人傾向用「單筆投資」來進行。另外,偏好定期定額的比例約為單筆投資的兩倍,可見這種每個月只要3000~5000元的投資方式,受到多數小資族的青睞。

4
資料來源:關鍵評論網,基金申購偏好調查,調查期間 2022/6/30-2022/7/5

定期定額之所以受到歡迎,主因是投資人不需要具備龐大的資金,也能開始自己的投資旅程;再加上每次投入的資金相對較小,所以對投資時機的掌握度也就不必那麼高。以子女教育金為例,在孩子成長的過程中,全球經濟可能會經歷2~3次的循環,中間的市場波動一定比較大;但透過定期定額,投資人反而可以累積這幾次景氣循環下來的財富增長,而且在這過程中,他們也不必額外花心力去猜測市場的高低點,算是一種相當輕鬆的投資方式。

退休金的準備也是如此。對30歲的投資族群來說,從他們開始準備退休金的那一天算起,到真正可以退休的那段時間,也會經過3~4次的景氣循環。隨著科技與醫療的進步,人們的平均壽命越來越高,醫療服務的價格也越來越貴,所以在這過程中,若能透過定期定額長期投資,他們可以用較輕鬆的方式,去克服長壽風險與通貨膨脹的限制。

所以對小額投資人來說,定期定額的好處,就是在市場上漲時,可以跟隨市場行情上漲而獲利;但在市場下跌時,也可以用相同的金額,買到較多的單位成本去降低投資成本,而且更重要的是,透過每個月有紀律地扣款進場,停利不停扣,投資人可以增加買在低點的機會。

當然,如果投資人對市場動態的掌握相當精準,「單筆投資」就是最佳的方式。但在現實生活中,有這樣能力的人實在是少之又少,因為人類先天在性格上就有貪婪與恐懼的特性,所以在判斷投資時點的時候,多數投資人反而會因為過度自信或情緒波動,就犯下追高殺低或暫停投資的錯誤決策。

定期定額進階版:中租母子鎖利GO

由此可見,除了市場風險之外,「行為風險」也會影響到投資成效。為了降低行為風險給投資成效帶來的影響,中租基金平台開發「中租母子鎖利GO」,讓投資人先用母基金的錢轉去定期定額部分子基金,待子基金達到先前設立的停利點時,獲利部分便可自動滾回到母基金,而子基金的投資也不會因此被中斷。

換言之,中租母子鎖利GO可以用自動循環的方式,一方面幫投資人鎖定獲利,二方面也可持續投資,降低行為風險對投資過程的干擾,協助投資人達成理財目標。當然,如果對投資一竅不通,但又有理財需求的話,中租WISEGO的智能理財,也可以讓投資人在自己設定的投資目標下,讓系統透過資產自動再平衡的方式去執行長期投資。

中租基金平台推出的四大服務,可以協助不同特性的投資人,在理財的路上走得更順遂。今年適逢中租投顧20週年,這四大服務不但在功能上都有進階的設計,現在除了開戶、申購與滿額優惠之外,另也有季度回饋、生日與推薦優惠,限時好康,只要即刻在中租基金平台開戶下單,就可以開始邁向投資與生活的雙贏之路。

截圖_2022-08-02_下午5_05_06
資料來源:中租基金平台

猜你喜歡