當前,我國經濟發展方式已轉向高質量發展的新階段,依靠資源和要素投入的驅動力持續減弱,創新逐漸成為第一動力,源源不斷地發展出新技術、新業態、新模式,持續提高勞動生產率,加快構建了以國內大循環為主體、國內國際雙循環互相促進的新發展格局。
在過往的一年中,思必馳研發技術不斷創新,推出發音人音色定制平臺、DUI標注訓練一體化平臺、智云譯芯平臺、千語千訓系統,并上線24K高保真音色,情感合成等技術,助力百業實現效率提升。同時,思必馳技術在多項比賽中獲得大獎,充分印證了自己的技術創新實力。
(相關資料圖)
01蟬聯中文醫療權威榜單CBLUE
在醫療行業,人工智能、大數據技術等應用場景逐漸豐富,在幫助人類恢復健康中發揮了重要作用。人工智能技術也逐漸成為影響醫療行業發展和提升醫療服務水平的重要因素。過去的一年中,思必馳語言與知識團隊在醫療領域再次取得關鍵突破,在CBLUE2.0月度榜單中蟬聯冠軍,分別奪得2月、3月榜單冠軍。
基于千萬量級的醫療領域語料,思必馳自主構建了醫療領域預訓練語言模型和醫療知識圖譜,針對下游任務微調并進行模型融合,在醫療行業應用中體現了重要價值。榜單任務形式多樣,涉及知識抽取、意圖分類、語義匹配,對話生成等多個基礎NLP技術。
在此之前,思必馳已成功將醫療領域NLP技術在多個項目中落地,并在CBLUE1.0榜單中取得佳績,此次登頂有效驗證了思必馳語言與知識團隊在醫療NLP技術的專業性與全面性。
02刷新Text-to-SQL語義解析任務多個榜單紀錄
在日常生活和生產中,常會產生的海量的數據,這些數據被大量存儲在結構化數據庫中。此前,人們通過直接編寫SQL語句和數據庫進行交互,但此類方法效率較低。后來,人們開始使用基于自然語言發展起來的數據庫查詢接口(NLIDB)與數據庫進行交互,該方法高效簡潔,而NLIDB背后的核心技術就是Text-to-SQL語義解析。
思必馳-上海交大人機交互聯合實驗室團隊在取得Text-to-SQL任務英文基準榜單Spider第一名后,過去的一年中,又取得Text-to-SQL任務中文千言榜單第一名。
千言榜單囊括了Text-to-SQL任務三個最經典的中文數據集DuSQL、NL2SQL、CSpider。本次刷榜的模型LGESQL+GTL是研究團隊在之前提出的線圖增強的Text-to-SQL模型LGESQL的基礎上,進一步提出了結構化的動態解碼方案GTL,使得模型既能很好地編碼結構化的異構輸入,同時也能夠實現高效準確的結構化解碼。
03榮獲IWSLT 2022英中同聲傳譯冠軍
IWSLT是國際上最具影響力的口語機器翻譯評測比賽之一,設置了同聲傳譯、離線語音翻譯等7個任務。思必馳-上海交大聯合團隊(AISP-SJTU)參加英-中同聲傳譯任務,以優異的成績獲得Speech-to-Text賽道第一名。
思必馳-上海交大團隊在充分總結前人經驗的基礎上,積極開拓創新,采用了引入預訓練語言模型,大幅提升ASR性能、無限左看,隨機右看等關鍵技術。
本次比賽,結合各種技術手段打造了英-中同聲傳譯最優基線,也對端到端模型做了初步探索。端到端模型在速度和誤差傳導上比級聯模型更占優勢,未來思必馳-上海交大聯合團隊希望進一步研究有效的數據擴增手段,來提升端到端模型的翻譯效果。
04登頂中文知識圖譜問答權威榜單KgCLUE
在過去的一年中,思必馳語言與知識團隊研發的AI-KBQA算法一舉拿下了大規模權威中文知識圖譜問答KgCLUE測評榜單第一名,這充分印證了團隊對中文自然語言及知識圖譜精確的語義解析、知識檢索和知識推理能力。
在參與比賽的過程中,思必馳語言與知識團隊針對KBQA任務的特點,從以下三個方面設計并優化命名實體識別、實體鏈接、屬性匹配模塊:
高細粒度知識圖譜:團隊預研了千萬量級的高細粒度的中文知識圖譜。在命名實體識別模塊,高細粒度的知識圖譜可以有效幫助模型識別同名實體,提升實體識別的準確性,同時可以有效減少因同名實體帶來的實體鏈接錯誤。
多階段實體鏈接:將實體的檢索分為多個階段,檢索對象擴大至與實體相關的文本片段以提高模型的實體檢索能力。
屬性匹配增強:鑒于實體中往往具有不同值的相似屬性,模型在對實體的屬性進行預測時,不僅對單個屬性進行預測,同時也會對全部的屬性列表進行篩選,從而在相似屬性上更具有區分度。
團隊在參與比賽過程中,不斷改進和優化模型,使用模型集成的方式來增強模型的泛化能力。AI-KBQA算法的得分由最初的94.81提升至98.78,在大規模中文知識圖譜問答榜KgCLUE1.0 中排名第一,并且在多項子任務得分上同樣取得了第一名的佳績。
思必馳已經形成產學研一體化的成熟發展模式,始終堅持基礎源頭技術創新,不斷鞏固技術研發創新實力,未來思必馳將繼續深耕技術研發,助力各行各業實現智慧化發展。