2023-11-28
一場談話中,沉默的時間超過4秒,氣氛就會變的尷尬
人與人的對話尚且如此,更別說數字人了
因此,交互速度成為我們衡量一個“全擬真人類個體”是否合格的重要技術指標之一
通常情況下,AI驅動的交互型數字人交互反應時長在7-8秒左右
有些“人工智障”甚至要達到20幾秒
但是現在,這個難題被攻克了
我們的全擬真人類個體響應時間還不到1秒!
《最in數字人》第一期中,我們介紹了“全擬真人類個體”的概念及五大要素
本期內容小編將透露降低數字人交互延遲的奧秘!
降低交互延遲“四步曲”

超低延遲“江凌楓”,共享詩詞對答絲滑體驗
這位俠氣十足的古裝帥哥,是我們的全擬真人類個體“江凌楓”
跟他的對話可以用“縱享絲滑”來形容,全程秒問秒答
主打一個絕不讓任何人尷尬!
和數字人對話有幾步?
回想一下我們平時回答別人問題的時候,大腦運轉大概分為三步:
1.理解對方的問題
2.構思答案
3.說出答案
數字人的大腦和人類大腦的區(qū)別在于,人的大腦不是被設計出來的,而是經過浩瀚的歷史長河,通過選擇和演化而產生的。而數字人的大腦,是通過不斷的學習訓練變得越來越聰明,反應速度越來越快。
這看似簡單的三個步驟對數字人來說,需要海量的學習數據,通過龐大的計算,調用一系列工具才能實現。而這個過程中,每個環(huán)節(jié)都可能是造成數字人反應延遲,讓對話出現尷尬的沉默的原因。
總體來說,給江凌楓“大腦加速”,讓他能夠做到秒級響應,需要ASR語音識別、TTS語音合成、Audio2Face語音轉表情、大模型部署四大方面的技術提效。
秒問秒答的江凌楓有何過人之處?
步驟一 ASR語音識別
ASR語音識別的主要任務就是把語言信號轉換成文本,讓數字人理解我們在說什么。在這個過程中,通過選擇在本地部署ASR語音識別引擎的方式,能更好地應對網絡延遲問題,從而加速整個識別過程,同時還保護了用戶的語音數據隱私。
步驟二 TTS語音合成
TTS語音合成環(huán)節(jié),則是將上一步生成的文本轉換為語音的過程,讓數字人把回答說給我們聽。
值得一提的是,在這個環(huán)節(jié),我們采用了流式傳輸的方式,通過將字符進行拆分重組,分段傳回合成語音的方式再次提升了數字人的反應速度。
舉個例子,如果是非流式傳輸,一句簡單的“你好,我是江凌楓”需要等所有文字全部轉成語音后才能統(tǒng)一輸出,而采用了流式傳輸,數字人可以先將“你好”的語音輸出,并同時進行“我是江凌楓”的語音合成并輸出,巧妙地提升數字人回應速度。而且,這種將一句話分段輸出形成消息隊列的方式,可以在“你好”輸出完成被“消費”掉以后,不再儲存于整個隊列中,解決大模型負擔,實現語音合成輸出環(huán)節(jié)的提速。
TTS語音合成這一步驟也是在本地完成的,在保護用戶隱私的前提下,極大程度上減少了與遠程服務器通信帶來的延遲問題。
步驟三 Audio2Face語音轉表情
人在說話的時候會有自然的表情變化,要讓數字人實現更真實的交互自然也要具備這種能力。Audio2Face語音轉表情過程,就是讓數字人根據語義所表現內容做出面部肌肉運動、眨眼等相應表情變化的關鍵。
這個環(huán)節(jié)中,我們著重解決的是當多個數字人同時在任務中,由于實例分配不及時導致的延遲問題。在布置Audio2Face實例過程中,我們自主研發(fā)的A2FServer、負載均衡服務器兩大神器起到了重要作用。
A2FServer不僅能夠自主匹配實例,還能實現持續(xù)連接,避免暫停交互數字人與實例自動斷開連接的情況發(fā)生。負載均衡服務器可以匯總數字人需要連接的端口、公網、內網、狀態(tài)、是否被占用等信息,使數字人可隨時查看實例狀態(tài)并調用,降低表情轉化的時間。
步驟四 大模型部署
大模型是數字人“中樞神經”,在實時交互的過程中承擔了自然語言處理、對話生成、個性化交互、知識獲取與問答、創(chuàng)造性文本生成、自動化文本生成、多輪對話處理等任務。
為了讓大模型擁有更好的運行環(huán)境,提升整體效率,技術團隊采用了高效的硬件和軟件架構,利用先進的多維并行、異構內存管理和低延時推理解決方案,來加速訓練和推理任務,最大程度地提高模型任務的效率。在有效降低AI大模型訓練、微調和推理成本的同時,還優(yōu)化了模型任務的性能表現,降低了對GPU的需求。通俗來說就是,大模型具備了完美的運行環(huán)境,靈活度自然也變得更好了。
除此之外,為了滿足不同場景的應用需求,我們還選擇了基于國內數據的預訓練基座大模型,并對它進行垂直領域的訓練和細致調整,不僅提升模型在特定任務中的準確性和適用性,還使其更符合專業(yè)需求。就好像當我們花大部分的時間深入研究、學習“金融”知識,當涉及該領域的內容時,能夠更快速做出反應并給出精準答案。通過這樣的訓練,使數字人交互延遲的問題得到進一步解決。
總結
通過ARS語音識別、TTS語音合成、Audio2Face語音轉表情、大模型部署四個方面的有效技術提升,最終為我們呈現出了“有記憶、有靈魂、多感情、多感知、超寫實”的全擬真人類個體,使得數字人在交互過程中達到“秒級反應”,真正實現了超低延遲的互動體驗。