2023-06-05
近日,《浪姐4》高調開播,與之前不同的是,芒果臺這次大手筆,準備走國際化, 放眼望去盡是俄羅斯、美國、日本、韓國、德國、越南姐姐齊聚一堂爭奇斗艷,締造了同期綜藝節(jié)目的天花板。不過本季浪姐的流量劇本似乎未按照預期上演,在國內(nèi)“幾乎無知名度”的二次元美女美依禮芽(MARiA),憑借一首《極樂凈土》人氣迅速上升,斷崖甩開其他選手,直接霸榜第一,打翻了本季浪姐劇本。
AIGC版《極樂凈土》點燃B站
美依禮芽和《極樂凈土》究竟是何來頭?早在7年前《極樂凈土》就曾以其入耳的旋律、律動感強烈的舞步血洗B站,吸引了一大批二次元粉絲,成為B站鎮(zhèn)站歌曲,如今時隔7年后,《極樂凈土》再度翻紅出圈,點燃了B站網(wǎng)友們的二創(chuàng)熱情。有網(wǎng)友使用AIGC技術,復刻了《極樂凈土》舞蹈的名場面,引發(fā)熱議,播放量甚至超過B站舞蹈區(qū)知名大UP翻跳版。
百變換衣,人不變,生成式AI迎來技術突破
AIGC版的《極樂凈土》,甚至比原版舞蹈更為上頭(畢竟誰不喜歡小姐姐在跳舞時一秒一換衣呢)。之前大家熟知的AIGC圖像生成,多應用于圖像領域。因為無法做到穩(wěn)定的多幀連續(xù)圖像生成,所以鮮有高質量的AI生成視頻。而AIGC版的《極樂凈土》卻實現(xiàn)了對圖像的精準控制,動作、服飾連續(xù)多變,但人物卻始終保持較為穩(wěn)定的狀態(tài),其原因正是生成式AI技術迎來了新的技術突破。
2023 年,一款叫ControlNet(譯為控制網(wǎng))的Stable Diffusion插件發(fā)布,這款插件在短短的2天時間就在GitHub狂攬4.6K Stars,成為了AI繪畫領域最熱門的新星。ControlNet的出現(xiàn)代表著生成式AI技術開始可控,而生成式AI技術能否被精確控制,正是AIGC技術是否進入實際生產(chǎn)環(huán)境中最為關鍵的一環(huán)。
此前,如果想通過AIGC技術,生成帶有運動軌跡的穩(wěn)定連續(xù)圖像(多張圖片,轉換成視頻)是非常困難的,由于生成式AI技術的不可控,導致生成的圖像,每一幀都會有極大的差異,無法用于合成視頻。如果說在使用生成式AI技術作畫時,不可控在某些場景下還算是個優(yōu)點,能夠幫助創(chuàng)作者發(fā)散思維,提供更多可能性。那么在視頻創(chuàng)作領域,生成式AI技術的不可控,將導致生成的畫面無法使用(想象一下,一部電影,上一秒揮拳的還是杰森斯坦森,下一秒就變成了巨石強森),所以在影視領域,AIGC技術的普及速度遠遠落后于其他產(chǎn)業(yè)。
通過引入額外的輸入,實現(xiàn)精準控制生成式AI
ControlNet 作者提出了一個新的神經(jīng)網(wǎng)絡概念,通過引入額外的輸入來控制擴散模型,如 stable diffusion,然后在新生成的圖像中保留這些信息,比如人物姿態(tài)、深度、畫面結構等,以實現(xiàn)用戶對生成的圖像進行精細化控制。
在此之前,如果想要實現(xiàn)對圖像進行精細控制,需要對prompt提示詞進行詳細描寫,或者用圖生圖加上詳細的prompt才能小概率生成目標圖像,ControlNet 出現(xiàn)后,實現(xiàn)難度大幅降低。通過引入額外的輸入(如Canny 邊緣檢測、Openpose 骨骼綁定),ControlNet就可以對模型加以約束,以保證生成的圖像可以依照使用者的意圖進行生成、調整,從而實現(xiàn)對模型的精細化控制。
對于視頻內(nèi)容創(chuàng)作者,元享AIGC模塊將帶來巨大的效率提升,原本需要投入大量人力物力成本,花費數(shù)周時間才能完成的視頻的將在一兩天內(nèi)完成。智能化的使用體驗,極大降低了視頻的制作成本與周期。并且隨著AIGC技術的不斷更新迭代,效率效果還將持續(xù)提升,在不久的未來,AIGC技術將顛覆視頻創(chuàng)作流程,成為影視行業(yè)新時代數(shù)字生產(chǎn)力。
拓展AIGC應用領域,元享生成式AI+大模型,開啟多模態(tài)虛擬數(shù)字人交互新篇章
天娛數(shù)科子公司元境科技計劃將AIGC技術擴展到更多領域。目前內(nèi)測版元享智能云平臺已將AIGC、大模型技術應用到虛擬數(shù)字人肢體驅動,通過卷積神經(jīng)網(wǎng)絡提取音頻特征與動作庫特征,建立雙向映射關系,通過預訓練大模與型神經(jīng)網(wǎng)絡解碼器得到肢體動作關鍵點位置信息,生成式AI將音頻信息與動作關鍵點位置信息結合,生成并驅動虛擬數(shù)字人動作、表情。實驗室環(huán)境進行雙盲測試,接入到內(nèi)測版元享智能云平臺的元趣AI,在虛擬數(shù)字人電商直播間的效果對比評分高于真人。由于元享虛擬數(shù)字人每一次說話時的動作表情都是由生成式AI生成的全新的動作,且能夠與直播音樂頻譜相結合,在直播時互動更加多樣,表現(xiàn)更加生動自然。
在相同話術,不同音樂韻律下,虛擬數(shù)字人每次的交互動作不盡相同,實時生成的新動作打破了以往虛擬數(shù)字人只能根據(jù)動作庫進行關鍵詞匹配,且動作模型少、肢體表情僵硬不自然等問題,能夠更好地處理復雜的互動場景。此項技術的落地將有效提升虛擬數(shù)字人在影視、教育、金融、文娛、電商、本地生活等諸多行業(yè)的應用效果,擁有無窮動作的虛擬數(shù)字人將成為虛擬人行業(yè)發(fā)展的重要里程碑。