近日,騰訊云小微提出的多語言預訓練模型“神農MShenNonG”以平均分85分的成績登頂XTREME榜單。與此同時,該模型僅包含5億級別的小參數量,也一舉刷新業界記錄。
據了解,該榜單是目前最受國內外行業公司認可的多語言評測榜單,研究人員以多語言預訓練模型在此榜單的表現作為其跨語言遷移能力的評價標準。
目前,全球有超過6900種語言,其中大多數語種都沒有足夠的數據支撐研究者將其單獨訓練成成熟模型。騰訊云小微深耕知識挖掘、語義理解技術以及預訓練技術,“神農MShenNonG”此次登頂XTREME榜單,代表了其從單語言到多語言理解能力的一個顯著擴展,將跨語言遷移開發由市場平均的月級降低至10天。同時,“神農”系列的預訓練模型已應用于云小微全系列產品矩陣,可顯著提升AI語音助手、智能客服機器人、數智人等產品的多項技術指標,助力出海企業快速落地本地化服務。
刷新行業記錄,跨語言遷移開發周期縮短至10天
(資料圖片僅供參考)
憑借對自然語言應用程序等領域發展研究的積極作用,XTREME榜單備受業界認可。
由于大多數的NLP預訓練模型主要為中文、英文等高資源語種,低資源小語種的研究并未得到足夠重視。2020年,來自 CMU、谷歌研究院和 DeepMind的科學家們提出了覆蓋四十種語言、橫跨了12個語系的大規模多語言多任務基準 XTREME,其中包含了9項需要不同句法或語義層面進行推理的任務,并可以為語句文本分類、結構預測、語句檢索和跨語言問答等自然語言處理任務提供有效支持。
此次登頂XTREME榜單,主要是由于“神農MShenNonG”在以下三個不同維度做了創新性的嘗試。
首先,在數據層面,預訓練模型的訓練數據主要由兩種形式的數據構成:單語種句子和雙語平行句對。此前的模型處理方法是,對于單語種句子,單純地將單語種信息輸入模型,并以MLM作為訓練目標,非常依賴相似語系之間“共享詞”的預測來建模各語言間的語義對齊關系;對于平行句對,又依賴平行語料的規模和組合,模型對其對齊關系的建模存在一定缺陷。為緩解以上問題,騰訊云小微研究團隊提出了基于混合編碼的數據構造方式,分別利用雙語對齊詞典和句子檢索工具,構造大量的“多語言混合”訓練數據。
其次,在模型層面,研究團隊提出了一種可插拔的、基于多尺度的多語言信息融合模塊,分別從詞級別和句子級別多個尺度融入多語言信息,期望在訓練過程中,加強所有語種的詞向量的更新和對齊,解決多語言模型對低資源語種、低頻次詞匯建模較弱的問題。
第三,在訓練方式上,研究團隊分別通過語種層面和語義層面引入對比學習策略,使得相同語義的表示相互拉近,不同語義的表示相互遠離,進一步強化多語言預訓練模型對于多語言的語義建模能力和語義匹配能力。
值得注意的是,研究團隊重視多尺度的多語言的一致性建模,以強化預訓練模型的跨語言遷移能力,并將跨語言遷移開發由市場平均的月級降低至周級,同時,相較市場平均1個月以上的模型迭代周期,“神農MShenNonG”僅需10天。
多次登頂權威榜單神農以技術優勢探索出海場景
“神農MShenNonG”登頂XTREME榜單,依托于騰訊云小微團隊技術研發和行業知識的長期積累。此前,騰訊云小微的中文預訓練模型ShenNonG就以十億級參數量一舉登頂CLUE總排行榜、1.1分類任務、閱讀理解任務和命名實體任務四個榜單,刷新行業記錄。
專注于語義理解技術以及預訓練技術的研發,此次登頂XTREME榜單代表了騰訊云小微從單語言到多語言理解相關技術的一個擴展。目前,“神農”系列的預訓練模型已應用于全系列產品矩陣,可顯著提升AI語音助手、智能客服機器人、數智人等產品的多項技術指標。
隨著開發的不斷成熟,優勢產品向海外拓展成為不少國內企業的選擇。但產品出海通常要面臨適應新語種、業務本地化的挑戰。過往,以機器翻譯的方式將單語種遷移到多語言場景,不僅費時費力,效果也差強人意。相對于傳統的機器翻譯模式,騰訊云小微“神農MShenNonG”預訓練模型有著低成本、低門檻的優勢,以輕量參數為多行業、小語種提供跨語言遷移服務,助力企業降本增效,落地出海業務。
未來,騰訊云小微團隊還將持續深耕知識挖掘和深度學習技術,探索更多技術落地場景,以科技助力各行業的企業更好地服務用戶,為社會創造更多價值。
免責聲明:本文不構成任何商業建議,投資有風險,選擇需謹慎!本站發布的圖文一切為分享交流,傳播正能量,此文不保證數據的準確性,內容僅供參考
關鍵詞:
【獨家】騰訊云小微技術登頂權威榜單XTREME基準,跨語言技術遷移開發助力企業出海
近日,騰訊云小微提出的多語言預訓練模型“神農MShenNonG”以平均分85分的成績登頂XTREME榜單。與此同時,該模型僅包含5億級別的小參數量,...
每日播報!廣東公檢法聯合發文:收繳非法槍爆等物品,舉報最高獎5萬元
文 羊城晚報全媒體記者張璐瑤近日,廣東省高級人民法院、廣東省人民檢察院、廣東省公安廳聯合發布《關于依法收繳非法槍爆等物品嚴厲打...
熱點聚焦:汕頭市區到澄海僅需10分鐘!中山東路澄海段通過驗收
文 羊城晚報全媒體記者王丹陽通訊員江雄肖明葵王雄偉肖前波張元根高松6月10日,隨著汕頭中山東路最后一個標段完成并通過竣工驗收,標志著中山
快報:中國知網向個人提供查重服務,1.5元/千字
文 羊城晚報全媒體記者陳亮6月12日0時,中國知網發布《關于中國知網向個人提供查重服務的公告》稱,為回應社會各界特別是廣大學生群體...
熱點!廣東:高考期間無考生因天氣原因遲到或缺考,未來5天局地仍有暴雨
文 圖羊城晚報全媒體記者付怡通訊員粵應宣6月5日至6月11日,廣東省出現大范圍的暴雨到大暴雨局地特大暴雨,部分市縣伴有8級左右的雷雨大風。本
每日觀點:清遠體育健兒奪得省運會首個獎牌!
文 圖李程6月11日上午,廣東省第十六屆運動會群眾項目體育舞蹈比賽在清遠市體育館舉行,清遠代表隊伍蔚林和肖麗華組合奪得壯年組拉丁舞三項比
【速看料】一周警報丨高考后,這些事情千萬不能做!
文 羊城晚報全媒體記者張璐瑤素材來源:中國警方在線、公安部刑偵局、人民法院報、桐鄉公安局、廣東公安、潮州公安、佛山市公安局一年...
最新:廣東結束防汛Ⅳ級應急響應
羊城晚報訊記者付怡、通訊員粵應宣報道:6月11日,廣東省防汛防旱防風總指揮部辦公室、廣東省應急管理廳發布關于結束防汛Ⅳ級應急響應的...
當前熱點《手繪佛山非遺作品集》首次亮相 集中展示非物質文化遺產
羊城晚報訊記者張聞、通訊員張紫琳報道:11日,2022年佛山市“文化和自然遺產日”活動在佛山古鎮歷史風貌展示館舉行?;顒赢斕?,由佛山...
最資訊丨廣州珠江公園“網約帳篷”首日 工作人員一度比帳篷客多
11日在珠江公園搭天幕的游客文 圖羊城晚報全媒體記者李春煒6月11日起,進入珠江公園大草坪搭帳篷必須提前預約。這是廣州首個實行“網約...
視訊!【地評線】兩江評 | 保護和傳承文化和自然遺產 讓人民生活更美好
麥浪飄香,文明激蕩。6月11日是202...
全新路虎發現運動大都會版正式上市,捷豹路虎盡顯英倫豪華風范
2022月6月10日,全新路虎發現運動...
陜西2022體育精品賽事發布:“西馬”“城馬”擬定11月舉行
無賽事,不體育。自2019年首次推出...
剛剛,北大青鳥再登2021年中國特許連鎖Top100!速看!
近日,中國連鎖經營協會(CCFA)根據2...
每日信息:戰斗在暴雨中
暴雨中,湖南省汝城縣馬橋鎮紀委干...
觀點:星火成炬|閃光少年
閃光,是不動聲色的體貼;閃光,是...
熱點!【在希望的田野上·三夏時節】高科技助力“三夏” 全力保障夏糧豐產豐收
央視網消息:農業農村部今天發布的...
每日短訊:兩部門緊急預撥3.6億元支持地方做好防汛抗旱救災工作
記者11日從應急管理部獲悉,財政部...
每日動態!誰最楚楚動人?創意短視頻《不服周》來了!
視頻來源荊州日報6月11日是我國第...
熱門:非媒文章:當各國選擇中國的立場,美國在哭泣
參考消息網6月11日報道南非獨立在...
滾動:我的就業進行時|我是古籍修復師:修書如修心
陳吉星是四川省古籍修復中心的一個...
實時:長三角一體化發展重大項目滬蘇湖鐵路上海段全面復工
央視網消息:長三角一體化發展重大...
熱消息:我的就業進行時|在“穿越”中,不斷超越
袁霄是南京信息工程大學本科應屆畢...
今日聚焦!【奮斗者·正青春】邵晶:用雙手實證中華5000多年文明史
央廣網北京6月11日消息(記者雷愷...
尹昉吳孟珂蘑菇屋“蜜月行” 容聲冰箱助力婚宴制作現場
本期《向往的生活》正值結婚周年紀...
最新:廣東結束防汛Ⅳ級應急響應
羊城晚報訊記者付怡、通訊員粵應宣...
當前熱點《手繪佛山非遺作品集》首次亮相 集中展示非物質文化遺產
羊城晚報訊記者張聞、通訊員張紫琳...
最資訊丨廣州珠江公園“網約帳篷”首日 工作人員一度比帳篷客多
11日在珠江公園搭天幕的游客文 圖...
焦點快報!?陽江突降暴雨多地水浸 消防緊急救援被困居民
羊城晚報訊記者全良波、詹翔閔,通...