2023-05-22
近日,AI“孫燕姿”爆火,其翻唱的《發(fā)如雪》《下雨天》短短幾天就突破百萬播放量,一度登上各大平臺熱搜榜首位,成為“新晉頂流”。在B站在搜索框輸入“AI”后,第一個詞條就是“AI孫燕姿”。除了孫燕姿外,還有周杰倫、王心凌、許嵩、Lady Gaga等歌手也被網(wǎng)友制作出了「AI替身」。有人說,這是2023年最火的聲音,有人說,這是對真人歌手赤裸裸的侵權,還有人說,這是AI技術的新高度,AI將成為音樂創(chuàng)作的新工具。
元境科技人工智能專家解讀“AI孫燕姿”背后原理
“AI孫燕姿”憑什么能夠如此爆火,讓網(wǎng)友們喜愛不已,又是怎么做到如此擬真,實現(xiàn)接近原唱效果的呢?為了搞明白背后的技術原理,小編特意請教了元境科技人工智能方面的專家。了解到“AI孫燕姿”正是利用了當下最熱門的人工智能技術,通過建立神經(jīng)網(wǎng)絡模型,經(jīng)過大量音樂數(shù)據(jù)集訓練,使得AI虛擬歌手的聲音與真人歌手無異。
“AI孫燕姿”使用的核心技術來源于Sovits4.0歌聲轉(zhuǎn)換模型,基于so-vits-svc的開源項目制作。歌聲轉(zhuǎn)換模型通過SoftVC內(nèi)容編碼器提取歌曲的音調(diào)、音高等特征,然后將每段音頻做成幾秒到十幾秒不等的切片,然后將翻唱者的聲音數(shù)據(jù)丟給算法拾取出來,再和歌曲的切片對應。最后,再對生成的歌曲進行后期優(yōu)化,比如加入混響或簡單修音,一首AI翻唱歌曲就制作完成了。

Sovits4.0模型介紹
Sovits4.0模型是一種歌聲轉(zhuǎn)換模型,它可以將一個人的聲音轉(zhuǎn)換成另一個人的聲音,具有極高的準確性和逼真度。這意味著“AI孫燕姿”可以通過該模型學習并模仿孫燕姿的音色和唱腔特點,從而創(chuàng)造出逼真的孫燕姿風格歌曲。
模型的核心技術是SoftVC內(nèi)容編碼器,它基于深度學習和神經(jīng)網(wǎng)絡技術,使用了一種稱為變分自動編碼器(Variational Autoencoder,VAE)的架構,結(jié)合了條件生成對抗網(wǎng)絡(Conditional Generative Adversarial Network,CGAN)的思想。SoftVC內(nèi)容編碼器的目標是學習并提取人聲中的內(nèi)容信息,即與語義相關的特征,而忽略與說話人個體有關的特征,這樣的分離可以確保在進行歌聲轉(zhuǎn)換時,保留源音頻的音樂內(nèi)容,并將其轉(zhuǎn)換為目標歌手的聲音特征。在這個過程中需要大量的訓練數(shù)據(jù)和不斷反復迭代的訓練,以使生成的效果盡可能接近目標歌手。
外國模型遇到中文歌,多少有些“水土不服”
不過雖說Sovits4.0模型生成的音樂在專業(yè)人員的調(diào)音后,有著不錯的效果,但是模型本身未對中文歌曲做針對性優(yōu)化,在國內(nèi)使用多少有些“水土不服”。生成中文歌曲時不時會出現(xiàn)小瑕疵,需要大量的手工精調(diào)才能出曲,對于普通用戶來說門檻過高。如果想要實現(xiàn)比較好的效果,甚至還需要對模型進行Fine tuning。同時也對訓練的數(shù)據(jù)集要求非常嚴苛(需要歌手咬字清晰),一些唱法比較“飄逸”的歌手(不是在說咱周董哈~)學習效果就不是很理想了。
之所以“AI孫燕姿”成為最火的AI歌手,成功出圈,也正是因為孫燕姿的歌曲吐詞清晰,適合作為訓練數(shù)據(jù)集,所以模仿的效果最好。目前Sovits4.0對訓練數(shù)據(jù)集要求過嚴、使用門檻過高、中文歌曲生成效果不佳是該模型存在的顯著問題。
「MetaSurfing-元享智能云平臺」華語AI音樂最佳選擇
要說最了解咱們?nèi)A語音樂的,那自然還得是咱們中國人自己。正好最近天娛數(shù)科子公司元境科技的「MetaSurfing-元享智能云平臺」免費開放,其內(nèi)置的AI音頻模塊集成了元境科技自研的聲學模型,該模型學習了大量中文曲目,針對華語音樂做了海量優(yōu)化,把使用門檻降低到了“有手有嘴就行”(為此算法工程師小哥哥的頭發(fā)都快掉光了)。表現(xiàn)效果達到了世界第一梯隊水平。用了元享智能云平臺,AI版的你說不定就是下一個華語樂壇“新晉頂流”。
不過元享智能云平臺真的能達到無門檻的上手難度嗎?實踐是檢驗真理的唯一標準,小編決定親自體驗一番。沒想到從下載到生成歌曲,我這樣沒有任何音樂細胞和計算機基礎的新手小白竟然也能輕松玩轉(zhuǎn)。下面小編來教大家如何使用元享平臺創(chuàng)作AI歌曲。
小白教程
第一步 打開元享,錄制一段二十分鐘左右的文稿,這是為了給模型生成一段可以學習音色、音調(diào)等特征的素材。讓元享生成我們自己的聲音模型。
第二步 把這段錄音上傳到“元享智能云平臺”,然后喝上一杯咖啡,等待約半個小時左右的訓練時間(云端訓練,不占用本地資源哦~硬件層面也實現(xiàn)了無門檻),我們自己的個性化音色特征碼就生成好了~
第三步 生成自己的AI音樂,分享到B站、抖音、朋友圈,讓自己AI作品刷屏社交網(wǎng)絡。
「MetaSurfing-元享智能云平臺」,簡易的操作步驟,先進的計算模型,省去了AI翻唱歌曲所需的大量繁瑣工作,無需數(shù)據(jù)的預處理、格式轉(zhuǎn)換、文本轉(zhuǎn)換、去噪、音量平衡等諸多操作,只需要將數(shù)據(jù)丟給元享智能云平臺,稍等片刻就好了~
動起手來,創(chuàng)作屬于你的音樂吧!
對于咱們普通人來說,如果對音樂創(chuàng)作有興趣,在元享這樣的低門檻數(shù)字內(nèi)容創(chuàng)作平臺的加持下,動手原創(chuàng)出一首屬于自己的歌曲已經(jīng)非常容易。所以不妨現(xiàn)在就動起手來!也許不到2小時你就能訓練出一個AI明星~