指定歌手和曲風,就生成新歌唱給你聽!「AI點唱機」是如何辦到的?

指定歌手和曲風,就生成新歌唱給你聽!「AI點唱機」是如何辦到的?
Photo Credit: Shutterstock / 達志影像

我們想讓你知道的是

儘管Jukebox生成的歌曲已經可以聽出一定的連貫性、產生和諧的和弦,甚至表現出不錯的間奏,但大部分的作品仍然達不到一首「完整」作品的水準,但仍是AI創作系統中的重要一步。

編譯:江彥成、黃思齊

只要指定歌手、歌詞和曲風,Open AI的深度神經網路模型Jukebox就可以唱給你聽!雖然它的作品還遠不及真人創作的質感,但Jukebox已經能生成與一般歌曲長度相近(約1~4分鐘)且風格一致的旋律。想聽Bruno Mars從藍調改唱搖滾?可以先用這個工具過個癮!

音樂生成的難題

AI作曲並不稀奇,例如Open AI在2019年發佈的MuseNet就已經可以用10種不同樂器生成古典、爵士、甚至混成Bon Jovi的曲風,然而這類模型無論是輸入與產出都是所謂的「符號音樂」(symbolic music)──記錄了音高、時間點、(敲擊按鍵的)力度(velocity)與演奏的樂器,但不能處理人聲、音色等細微的表達差異;並且隨著樂曲時間拉長,難以顧及完整的音樂架構,例如前奏到副歌的一致性。

為了克服上述的限制,Jukebox的訓練資料與生成的樂曲都是原聲音檔。研究人員先由網路上蒐羅了120萬首歌曲(其中60萬是英語)。不單單是音訊,還包含了歌詞、作者、演唱者、曲風、年代等資訊,並參考這些歌曲在播放清單上的關鍵字或是與歌曲一併出現的情緒等。

取樣與生成

另一方面,正如前面所說,比起生成資料量小、音訊簡單的MuseNet,Jukebox要生成一首一般CD音質的歌曲(4分鐘,16位元,44kHz ),需要超過一千萬時步(timestep)來處理。相較之下,文本生成器GPT-2僅需1,000時步(按:Time Step,函數需要運行的頻率);電玩Dot2中,打敗人類玩家的OpenAI Five僅需數萬時步。在這樣龐大的資料流中,模型需要能夠處理跨度很大的相關性,才能學習到歌曲的高階語意(high-level semantics),如主旋律、歌曲力度、強弱張力、曲式編排等。

針對這一點,OpenAI團隊採用分層編碼,將44kHz的原始音訊(訓練資料)分別壓縮為不同壓縮幅度的三個音軌(8x、32x及128x)。最高階音軌(壓縮率最大)掌握了歌曲的大範圍結構,負責捕捉樂曲的高級語意,但同時利用較低階的音軌保留了那些被忽略的細節。

作者提供,擷取自OpenAI

當在生成新樂曲時,負責最高階音軌的轉化器由於能夠預測樂曲的曲風、演唱者等資訊,因此歌曲的宏觀特徵會先被定下來,而後由較低音軌的轉化器逐一補強微觀細節。

作者提供,擷取自OpenAI

也因為如此,JukeBox的研發途中還有個有趣的小插曲。研究人員為了使高階音頻的轉化器能夠預測生成樂曲的曲風,當初採用無監督學習的方式加以訓練。模型很快就能自動將流派相近的歌手歸為一類,將120萬首歌分為11類(分別是BLUES、Country、Classical、JAZZ、HIP HOP、R&B、POP、REGAGE、ROCK、Soundtrack與SOUL)。將其視覺化畫成一張地圖,研究團隊很驚訝地發現:Jennifer Lopez比起同屬pop曲風的Maroon 5,音樂特徵更接近鄉村歌手Dolly Parton!

作者提供,擷取自OpenAI

AI風行後,將迎來一場著作權災難?

儘管Jukebox生成的歌曲已經可以聽出一定的連貫性、產生和諧的和弦,甚至表現出不錯的間奏,但大部分的作品仍然達不到一首「完整」作品的水準。Jukebox還無法重現出副歌反覆段落的形式,也無法形成有邏輯的首尾結構。生成的樂曲聽起來像是喝醉酒後的即興創作,音樂結構鬆散且原創力不足,並且仍存在許多流行音樂的影子,與人類作曲家相比還遠遠不及。

其次,Jukebox的訓練十分複雜,生成一分鐘的歌曲大約需要9個小時,難以商轉成為手機APP這類應用工具。

最後,由於Jukebox的學習源於網路上的歌曲,歌聲也是以現有的歌手素材重新合成的,這使得Jukebox的作品每一步都踩在著作權的紅線上。除了成品容易與原曲有重複的小節,也難以取得聲音主人的授權(Jay-Z就對YouTube提出了下架合成音的版權要求);若AI作曲想要發展商業用途,最終可能會演變成一場著作權災難。

即使如此,相較於之前的音樂生成模型,Jukebox還是創造了亮眼的技術成果,可以自動生成不限曲風、高度擬真的人類歌聲,讓這項技術有潛力成為未來人類音樂家的重要工具。

參考資料

延伸閱讀

本文由臺大科學教育發展中心授權刊登,原文發表於此

責任編輯:丁肇九
核稿編輯:翁世航


猜你喜歡


【影音】整理數十萬張空拍影像,就像一場馬拉松:看見・齊柏林基金會「數位典藏」計畫

【影音】整理數十萬張空拍影像,就像一場馬拉松:看見・齊柏林基金會「數位典藏」計畫
Photo Credit:TNL Brand Studio

我們想讓你知道的是

「透過影像為環境發聲」是齊柏林畢生在做的事,也是看見・齊柏林基金會要接力做下去的事。打造一座把台灣存起來的影像資料庫,讓齊柏林留下的影像資產得以傳承世代,「數位典藏」計畫需要你我一同支持響應。

2017年,《看見台灣》的導演齊柏林匆匆離開這個世界,留下無數珍貴空拍影像資產;這些跨越1990年代到2017年、長達25年台灣自然與人文地景變遷的真實紀錄,不只保留了台灣之美,更在學術研究、環保倡議和環境教育上有著無可取代的價值。然而,龐大的影像素材需要經過「數位典藏」才能被有效應用,因此「看見・齊柏林基金會」成立的初衷,就是為了承接數位典藏的使命,讓齊導畢生的心血,能夠世代傳承,發揮永續的影響力。經過兩年的摸索,基金會最終研擬出最合適的數位典藏計畫,不只將齊導作品數位化、分類歸檔,更要建置線上影像資料庫,並將繼續記錄台灣的使命傳承下去。

根據看見・齊柏林基金會統計,齊柏林導演在空中拍攝超過2500小時所累積的影像,約為10萬張空拍底片、50萬張數位照片,上千小時的空拍影片;要為如此龐大的影像資料建檔與整理,勢必耗費許多金錢、時間與人力。不過,只要能集結眾人之力,這一場數位典藏人員及專業志工接力的馬拉松,將會是美麗而撼動人心的一段旅程。

「數位典藏」做什麼?

數位典藏(digital archive),意思是將有保存價值的實體或非實體資料,透過數位化(諸如攝影、掃描、影音拍攝、全文輸入等)與加上屬性資料等詮釋資料(Metadata),建立數位檔案的形式,作為永久保管儲存。

而看見・齊柏林基金會的數位典藏計畫可分為三大工作線,分別為:

  • 傳統底片組:挑選底片→掃描成數位檔案→建立屬性資料→歸檔
  • 數位照片組:挑選照片→建立屬性資料→歸檔
  • 空拍影片組:挑選影片→建立屬性資料→歸檔

除了要將齊導留下來的影像作品數位化歸檔,數位典藏計畫還包括改版建置「iTaiwan8影像資料庫」,也就是建設完整的線上影像資料庫系統,讓齊導作品更便於靈活運用,也能讓更多世人看見。

飛行2500小時累積的空拍影像,怎麼整理?

  • 整理底片/數位掃描

數位典藏組專員詹宇雯的工作,是負責整理傳統底片。即便存放在防潮櫃中,傳統底片仍面臨逐漸老化褪色的壓力,需要與時間賽跑進行數位化保存;然而大多未經篩選的10萬張底片,有些因為直升機震動導致些微的畫面模糊,也有因飛行路線連續較重複的地景構圖,而詹宇雯的其中一項任務,就是拿著放大鏡一一檢視精挑,並標註定位和勘誤照片資訊。

「整理底片最常發生的問題就是人工出錯,因為以前留下的資料可能是齊導或其他志工整理出來、用手寫的,貼紙可能貼錯或資料寫錯。」詹宇雯說起某次經驗,當時有一張台北車站的照片被貼了很多年份,為了找出正確年份,她試圖辨識照片裡招牌跑馬燈上的氣溫、股市市值等資料,交叉比對推斷出正確年份。雖然偶有這種偵探辦案一樣的趣事,但大多數時候是耗費專注度與眼力的過程。

完成底片挑選的階段,接著進到底片掃描數位化。然而,這步驟並不容易,除了整體的影像品質控制與檔案管理,齊柏林導演留下的底片最遠距今至少11年,老化褪色的底片容易出現色彩偏誤,須進行色彩還原,再修掉畫面上的髒點、存成解析度高的數位影像才算完成。

image3
Photo Credit:TNL Brand Studio
整理傳統底片的過程,必須拿著放大鏡一一檢視精挑,標註定位和勘誤照片資訊。
  • 建立屬性資料

所謂「建立屬性資料」,其實就是為影像添增各種描述紀錄的資訊,有了這些資訊,龐大的影像資料才能被有效率的搜尋、管理。數位典藏組副組長陳宣穎表示,以齊導拍攝的影像為例,包含:拍攝主題、地點及詮釋地景的關鍵字都屬於此範疇;而其中投入最多時間的便是「定位」和「建立關鍵字」這兩項任務。

「定位」指的是找出拍攝主體所在地點和座標,有時可透過既有的飛行軌跡紀錄來推測,但更多時候是在沒有軌跡紀錄的狀態下,憑藉地理知識及照片上的蛛絲馬跡判讀位置。如果影像拍攝年代久遠,或是地景變化很大,就需要運用更多歷史圖資或佐證資料去搜索、推論。

「我們要一張一張照片判讀,建立屬性資料。像是早期的傳統相機沒有定位功能,常常看到照片中只有一大片山稜線,此時我們就要仔細比對地圖、衛星影像,想辦法查找,盡可能貼近正確。」陳宣穎說。

「建立關鍵字」看起來似乎相對輕鬆,然而事實上,光是決定有哪些關鍵字可以使用,就是一門功夫。第一步必須辨認影像中的景物,例如一塊農田種植的是什麼作物,就必須蒐集其他資料輔助判斷;其次,由於空拍照片尺度不一,在畫面中佔比多大的景物需要設立關鍵字,也需要經過討論訂定規則;最後,還必須從使用者的角度思考,依據一般人的搜尋習慣設立關鍵字。

因此,在建立屬性資料的過程中,看見・齊柏林基金會也特別諮詢多位專家,共同研究規劃出適合台灣空中影像的關鍵字建置邏輯,並以此基礎進行分門別類、校正檢核,確保影像被妥善歸納及運用。

image2
Photo Credit:TNL Brand Studio
建立屬性資料時需要大量對比地圖,並依照訂定好的規則建立屬性資料,使歸納邏輯一致。
  • 影音資料典藏

相較於照片整理,動態影片的典藏工程更為多元複雜。首先,要針對近千小時空拍影片進行盤點,接著進行特殊格式轉檔與備份,再逐步建立邏輯編碼、標示檔案管理方式,以推動後續屬性資料建立。

「影片整理最大的兩個挑戰,其一是影片內容橫跨的範圍很大,導演可能是台中起飛、屏東降落,因此要去判斷每個影片節點的地景定位;其二是飛機上升的垂直範圍很大、晃動又劇烈,有時候會遇到『果凍效應1』致使內容失真。」影音製作組專員鄭宇程說明,由於各時期的影片拍帶檔案格式、影像內容品質、影片時長都不同,大大增加了管理建檔難度。

image4
Photo Credit:TNL Brand Studio
影音資料的典藏,需要讀取大量的檔案,逐格檢視、分段建立屬性資料、調色等。

加入數位典藏的馬拉松,傳承接棒台灣之美

從一步步定義操作流程、統一色彩管理語言、購置影像處理設備等,到培訓志工與實習生、讓人力支援一步到位、避免巨量資料的協作過程中出現錯誤,都是數位典藏計畫的範疇。多元內容創意部副總監王俐文表示,「數位典藏」四個字說來簡單,但過程繁複龐雜,需要所有人一致的專注、耐心、細心、以及熱忱。

「iTaiwan8影像資料庫」作為看見・齊柏林基金會數位典藏計畫的目標之一,改版上線只是第一步,接下來除了完成龐大影像資料的典藏,更大的挑戰是要繼續記錄台灣,讓影像不會只停留在2017年。

「透過影像為環境發聲」是齊導畢生在做的事,也是基金會要接力做下去的事。而數位典藏計畫,就是齊導生命的延續,也是基金會動力的源頭。要打造一座把台灣存起來的影像資料庫並不容易,看見・齊柏林基金會亟需各界的支持,共同建置屬於台灣最美的影像資料庫。讓我們一起守護齊柏林留下的影像資產,讓土地脈動的珍貴影像得以傳承世代,發揮更多價值。

捐款支持看見・齊柏林基金會,透過影像為環境發聲


註1:果凍效應(rolling shutter)是數位相機CMOS感光元件的一種效應,當使用電子快門來拍攝高速移動的物件時,原本垂直的物件拍攝出的畫面卻為傾斜甚至變形。(資料來源:維基百科)


猜你喜歡