AI會不會有被壟斷的一天?首先,你得知道訓練ChatGPT和訓練鸚鵡有何相似之處

我們想讓你知道的是
隨著AI模型的能力越來越強大,能夠聽懂並執行的人類指令越來越多,當模型回應的好壞是由一小群人類標註者來決定的時候,可能會產生新型態的科技獨裁。然而,透過公共化授權條款,允許公民參與標註流程,避免標註資料的解釋權完全掌握在私有企業手中,可望減少企業因技術進步而產生的科技擴權效應。
文:李亞倫(清華大學資訊系統與應用研究所博士班二年級學生、清大人社AI中心文字標註系統總工程師)
最近有人問我:「那個ChatGPT、GPT4那麼厲害,聽說是因為用了RLHF技術,那是不是代表已經不需要人類標註,AI自己就可以學了呢?」我回答道:「不是,還是需要人類標註,只是這個標註跟我們傳統的資料標註不太一樣。」那麼到底是哪裡不同呢?如果還是需要人類標註,這個訓練出來的AI會不會很容易受人類標註者偏見或暗示的影響?
由於每個人都有自己的立場與偏好,由一小群標註人員所標註出來的內容,真的能代表不同的使用者群體嗎?特別是這一小群人還是專為某家公司服務。
有沒有可能,這一小群被選中的標註人員,在給AI訓練的標註資料中,放入了偏袒自己的標註訊息,以至於AI生成的內容更偏袒標註員或其所處公司的利益相關人士?而這群人將成為AI時代的權貴階級,透過密語或暗示,可以命令AI做一般人的命令無法做到的事情,例如操縱股價之類的?
另一方面,為了不讓資料標註過程被一小群人把持,是否有可能開放像OpenAI這樣的私有企業的資料標註過程給一般民眾參與,讓標註的制定過程更加透明、民主與公共化?
什麼是RLHF?
為了瞭解ChatGPT是如何把標註過程私有化,我們要先解釋一下RLHF的運作方式。RLHF的全名是Reinforcement Learning from Human Feedback,中文直譯是「從人類反饋的增強式學習」。這名稱聽起來有點繞口,什麼是從人類反饋,什麼又是增強式學習?這個新方法跟傳統的AI用標註資料訓練又有甚麼不同?
下圖是在ChatGPT官網上可以找到的RLHF訓練流程圖,我們可以看到大致分成三步驟:
- 蒐集示範資料,透過監督式學習對GPT3進行微調。
- 蒐集對比資料,訓練獎勵模型。
- 使用增強式學習,使模型的輸出內容在獎勵模型的引導下,盡可能得到最高分。

看到這裡,你可能已經開始頭大了,一下是監督式訓練,一下是獎勵模型,一下又是增強式訓練……接下來,我會用兩個與日常生活比較貼近的比喻,來解釋監督式學習與增強式學習的概念。
- 監督式學習
監督式學習很像補習班教學生,反正就給一大堆練習題,叫學生自己做,做完自己對答案,自己訂正,下次再遇到同樣題目要答對。
不過,如果只有這樣就太簡單了,學生可以把題目背起來但還是什麼都不會。因此考試不會出跟練習題一模一樣,會稍有不同,如果這樣學生還能答對,就代表他學會了。學生若能在考試中答對的越多,就表示他真的從練習題中學到了東西。
- 增強式學習
增強式學習比較像教鸚鵡說人話。怎麼樣教鸚鵡說人話呢?一開始主人只是不斷反覆給牠聽一段人類對話,牠一邊聽,一邊模仿牠聽到的發音。慢慢的,鸚鵡好像會說人話了,會莫名其妙蹦出一句「今天天氣26度」,可能主人給牠聽的是氣象報告的對話。
後來主人決心訓練牠成為氣象主播。於是主人就問牠:「今天天氣如何?」第一次鸚鵡隨便回:「你好嗎?」主人就不理牠,再問一次:「今天天氣如何?」就這樣問了100次,終於有一次鸚鵡回:「今天天氣26度!」主人就獎勵牠,給牠一頓蟲蟲大餐。
後來慢慢地,鸚鵡回應「今天天氣26度!」的機率變高了,從100次回一次,到50次回一次,到10次回一次,到每次必回。從此以後當主人說:「今天天氣如何?」只要鸚鵡回答:「今天天氣26度!」,主人就給牠一條蟲蟲吃,鸚鵡就很高興。
如此,每當鸚鵡又蹦出了一句甚麼話,主人就訓練牠聽上一句話,然後接下句話。最後看起來,鸚鵡好像真的聽得懂人話了!主人問甚麼,牠就接下句。但是鸚鵡心裡想的其實只有蟲蟲大餐。
監督式學習與增強式學習的差異
在補習班的例子中,給學生練習的題目與答案,都是老師給的。套用到監督式AI的訓練過程上,題目就是指原始資料,而答案就是人類對原始資料所做的標註。
學生通常不會自己出題目自己做,因為學生本來就什麼都不知道,既然毫無相關知識,怎麼可能自己出題給自己做呢?所以在監督式學習中的原始資料,必然不是來自於學生自己,而是從老師或其他具有相關知識的人蒐集而來。而題目的答案,當然也是由老師或具有相關知識的人所標註上去的。
然而,在訓練鸚鵡說人話的例子中,主人並不是給鸚鵡一大堆發音練習題叫鸚鵡自己做,因為很顯然,鸚鵡看不懂題目。但是鸚鵡的模仿能力很強,能夠覆誦聽到的氣象報告內容。
主人是等到牠能覆誦出一段比較完整的句子後,再訓練牠在聽到主人指令後覆誦該句子。透過以蟲蟲大餐為獎勵的方式,讓鸚鵡記住,只要當主人說:「今天天氣如何?」回答:「今天天氣26度!」就有獎勵。
套用到增強式學習訓練AI的過程上,一開始給鸚鵡聽的氣象報告內容,相當於未標註的原始資料;而鸚鵡覆誦的結果,相當於模型模仿生成的產出。主人的指令就像是輸入到ChatGPT的prompt提示詞,而主人對牠產生的回應進行評分,就是獎勵模型(Reward Model)。
為了讓這個獎勵模型能夠對齊(Aligment)人類觀眾的喜好,我們需要找人來給生成的產出做評分。這樣的過程,人類標註的對象是模型生成的產出,而不是未標註的原始資料。
所以,監督式學習與增強式學習最大的差別在於人類標註的對象不同,一個是原始資料,一個是模型生成的產出。

為何ChatGPT需要精心設計的提示詞,才能得到人們想要的回應?
從生活實踐淨零轉型,讓地球HP值滿點

我們想讓你知道的是
全球暖化情勢日益嚴峻,必須積極因應;減碳是每個人的責任,我們生活中的選擇與行動,都與地球的未來息息相關,但只要從小地方開始做出改變,就能帶來轉機,讓地球重拾生機。
地球就像是一個巨大的有機體,具有自我調節的能力,然而因人類活動產生大量碳排,溫度上升導致全球氣候異常並造成災害;聯合國政府間氣候變化專門委員會(IPCC)2023年3月公布第六次評估報告(IPCC AR6)指出,根據2021年10月各國宣布的國家自主貢獻,2030年承諾的減排量仍不足以將本世紀末的升溫控制在1.5°C,甚至難以限制在2°C;氣候變遷已對地球健康構成威脅,一個「宜居且永續的未來」機會之窗正在迅速關閉。
全球升溫攝氏1.5 °C、 2°C,影響有這麼大嗎?
IPCC 估計,若地球升溫1.5°C,到2100年前海平面將上升0.26到0.77公尺,若升溫至2°C則將再增加0.1公尺,將影響小型島嶼、低窪沿海及三角洲等區域約1,000萬人口暴露在相關風險中;就研究涵蓋的105,000個物種,升溫1.5 °C會有 6% 的昆蟲、 8% 的植物和 4% 的脊椎動物地理分布範圍會縮小50%,升溫2°C,則會有18%的昆蟲、16%的植物和8%的脊椎動物消失;與高溫有關的疾病發病率或死亡率將增加,並提高相關蟲媒傳染疾病帶來的風險。
面對全球氣候失衡的威脅,我們就像遊戲中闖關的玩家,必須想辦法讓地球的HP值(生命值)恢復,然而這不是遊戲,挑戰結果意味著我們真實的未來。減碳、零碳是控制暖化的關鍵,加速導入再生能源、電氣化是主要國家刻正加速推動的重要政策,然而發電過程勢必有能量轉換的效率損失,輸配電則有線損,因此國際能源總署(IEA)倡議各國在思考未來能源組合(energy portfolio)時,應將節能視為第一燃料(energy saving is the first fuel)。歐盟目標在2030年最終能源消費較2020年實績值減少15.8%,法國淨零策略(SNBC)則規劃大幅提升工業、住宅、運輸能源效率,日本第六次能源基本計畫也提出2030年電力需求較2013年減少20%的目標。
除了國家層級推動的的節能目標,你我還能採取哪些行動、讓地球恢復生機?
多想兩秒鐘,地球更輕鬆
愛地球不只是一種生活風格,也是很潮的生活態度,每個人從食、衣、住、行、育、樂、購等生活小細節,選擇對環境友善的生活習慣,就有機會讓地球更宜居。
1. 利用大眾運輸或碳排量低的交通運具
根據我國《氣候變遷因應法》所規定,國家溫室氣體長期減量目標係由能源、製造、運輸、住商、農業及環境等六大部門共同達成,根據環境部提供的數據,2021年我國運輸部門溫室氣體排放量約占13%,若使用電動運具、搭乘大眾運輸工具,短程距離往返選擇走路、騎腳踏車,可有效減少碳排,有助改善空氣品質,更有益身體健康。

2. 自備環保用具,減少一次用產品使用
出門前隨手攜帶環保購物袋、環保杯、杯套或環保餐具,如果忘記帶,亦可使用租借循環杯與容器,或店家提供的環保餐具,尤其少用一個塑膠袋就相當於減碳0.057公斤,幾秒鐘的選擇與行動,能夠減少一次性產品垃圾、省下處理廢棄餐具的能源消耗,降低地球的負擔。舉手之勞自備購物袋、餐具,就是實踐減碳生活的第一步。
3. 認明節能標章,省電還能減碳
常見於耗能商品上的「能源效率標示」,提供了年耗電量、耗能等級資訊,並根據不同產品提供對應的能源效率數據;耗能等級數字越低代表耗能越少、越節能,圖示上的溫度計也就會落在象徵地球降溫的藍綠色;而貼有節能標章的產品,代表能源效率比國家認證標準高10-50%,所以用電更省,更有助於降低碳排。
4. 智慧用電,錢包受惠
智慧電表是具備通訊功能的電力量測設備,每日可將用電數據回傳台電公司,搭配使用「台灣電力App」,可查詢每15分鐘的用電量,每6小時可結算一次電費,另外,還可透過APP內「用電比較」、「未出帳用電量」、「費率試算」、「住宅用電分析」等功能,掌控電費支出及家電使用情形,找出家中的吃電怪獸,即時調整用電習慣,省下不必要的電費支出。

5. 加入綠領行列,將知識化作守護地球的行動
除了節能,以再生能源替代化石燃料,更是降低碳排的關鍵,近年來在政府的加速推動下,我國今(2023)年再生能源發電占比可望達到10%,逐漸成為供電要角;不過根據國際能源總署IEA在2023年9月發布的新版《2023年淨零路徑圖》(Net Zero Roadmap 2023 Update – A Global Pathway to Keep the 1.5 °C Goal in Reach),2030 年全球再生能源裝置容量必須成長三倍達到11,000GW,才能達成淨零排放情境所設定的減排量。更多的再生能源,意味著基礎建設、技術研發、產業推動也必須加倍投入,有賴運輸、建築、金融……等不同領域的「綠領人才」投入實踐淨零轉型。根據104人力銀行數據顯示,2013-2023十年間,綠領工作數成長6.5倍;面對2050淨零目標,無論是節能、創能、儲能、系統整合,都需要更多人才投入。
淨零轉型你我同行
在這場為了地球未來而戰的任務中,每個地球玩家都扮演著關鍵角色,無論是隨手關燈、自備購物袋這樣的舉手之勞,或是選擇低碳排的電器與運具,甚至成為綠領工作者親自參與,每一個支持淨零轉型的力量,都有助於地球HP生命值恢復滿點。

(經濟部能源署廣告)