4月12日,中國移動在首鋼園國家冬季訓練中心速滑館舉辦“5G新通話,預見新未來”產品發布會,正式發布5G新通話產品,并宣布部分終端已在全國支持5G VoNR超清通話業務,打造可視化、多媒體、高感知、全交互的全新媒體。
5G新通話可以讓通話雙方實現語音轉文字,同時還可以在屏幕上實時翻譯,讓通話人在聽見的同時,“看懂”通話的內容。看似好理解的技術,背后蘊藏的大量“黑科技”,例如語音識別、口語理解、語音同傳等等,非深厚的AI語音技術積累不可為。
這些背后的“黑科技”,主要來自智能語音和人工智能的頭部企業科大訊飛,因此,科大訊飛也成為了中國移動5G新通話的官方合作伙伴。
5G“殺手級應用”,今年7月后覆蓋所有新上機型
在發布會上,中國移動市場經營部總經理首建國介紹,與互聯網的語音視頻通話相比,5G新通話能夠基于中國移動5G網絡,實現高清視頻通話,通話質量穩定,幾乎沒有時延,且電話呼入不中斷。同時,結合AI技術,5G新通話可以在通話過程中實現中英文實時翻譯、語音轉文字等功能,此外還提供了屏幕共享、遠程協作等特色功能。首建國還介紹說,目前5G新通話功能正陸續在各大手機終端進行適配,到今年7月,所有終端新推出機型都將支持5G新通話。
從5G新通話所展示的功能來看,有望成為一款“5G殺手級應用”。在這一被業界普遍看好的業務背后,5G網絡是核心基礎,媒體互動是重要功能擴展,終端支持是保障,其中還有一個關鍵,就是AI智能語音技術。
不僅聽見,還能看懂
科大訊飛是北京2022年冬奧會和冬殘奧會官方自動語音轉換與翻譯獨家供應商。
資料顯示,面向冬奧會場景的多語種語音及語言服務平臺,采用了科大訊飛的“自動語音轉換與翻譯”技術,支持60個語種語音合成、69個語種語音識別、168個語種機器翻譯和6個語種交互理解,其中重點語種翻譯準確率達到了95%,平均每句翻譯響應時間不超過0.5秒。
口語化的流暢體驗
通話場景下有大量的口語化表達,口語化表達不同于規范的書面文本,一般表現為內容表述不符合語法規范、語氣詞過重、重復冗余等,這使得直譯時出現明顯的“機翻”痕跡,給機器翻譯在通話場景中的應用提出了更高的挑戰。
科大訊飛的技術負責人介紹,針對5G新通話口語化場景優化,采取了三大措施:一是人機協同標注常用口語數據,并補充口語雙語訓練;二是系統性運用了無監督/弱監督訓練方法,基于大量口語化表達的源、目標語言單語數據,采用自訓練、回譯算法等強化翻譯模型和語言模型,對口語化表達特性實現增強訓練;三是針對語音識別后處理階段,設計語氣詞順滑、規整等模塊,將口語化表達盡可能書面化,從而減少機翻“痕跡”,幫助用戶更好地理解。
冠軍的底氣
中國移動5G新通話背后的人工智能技術,來源于科大訊飛23年來堅持源頭技術自主創新的深厚積累,科大訊飛在人工智能語音識別、機器翻譯、語義理解等技術領域處于國際領先地位,在諸多國際技術賽事中取得冠軍。
在語音識別領域,科大訊飛參加了2021年OpenASR國際低資源多語種語音識別挑戰賽15個語種受限賽道和7個語種非受限賽道,全部取得第一;在機器翻譯領域,先后獲得了2018年IWSLT國際口語機器翻譯評測比賽端到端任務第一和2021年IWSLT國際口語機器翻譯評測比賽英德語音同傳、文本同傳和英日文本同傳全部三個同傳賽道冠軍;在多語言理解領域,獲得世界權威多語言理解評測XTREME(Cross-Lingual Transfer Evaluation of Multilingual Encoders)四項任務中的三項最好成績,標志著科大訊飛多語言理解與跨語言遷移能力再上新臺階。在語義評測領域,在第十六屆國際語義評測SemEval 2022的比賽中,科大訊飛從30余支參賽隊伍中脫穎而出,獲得“多語種新聞相似度評測任務”和“多語種慣用語識別任務”兩項冠軍。
以數智化技術構建美好世界是人類共同的希冀。5G新通話只是5G+AI有機融合的一小步,我們有理由相信,在中國擁有全球規模最大的5G精品網絡,擁有世界領先的人工智能自主核心技術,科大訊飛和中國移動這樣深度協同的模式,將會讓5G+AI發揮更大的融合倍增效應,必將加速推進科技創新、推動數智化轉型,共創人工智能美好新世界。