近期,東芝開發(fā)了支持中日、中英翻譯的會議支援系統(tǒng)。該系統(tǒng)使用公司最新研發(fā)的文本整理技術和關鍵詞抽取技術,解決了會議中的專業(yè)術語、口語化發(fā)言等翻譯問題,使同聲翻譯的精度大幅提高。文本整理技術,是將發(fā)言內容分割成多個易翻譯的單元,再按正確語法整理成文的技術;關鍵詞抽取技術,是從會議資料中自動抽取關鍵詞的技術。按計劃,東芝將在內部啟動運行,以測評該系統(tǒng)是否能達到預期效果。
隨著制造業(yè)的全球化及中國、印度等新興國家市場的日益增長,東芝與海外企業(yè)之間的會議交流使用外語的情況不斷增多,而不同語言導致的溝通障礙和誤解、翻譯成本增加、外語人才管理等,都已成為日漸突出的經營課題。
當下,語音識別和機器翻譯技術突飛猛進,尤其在旅行和購物等日常會話方面,已出現實用性語音翻譯工具。然而,會議中的專業(yè)術語和口語性發(fā)言等增加了翻譯難度,迄今尚未開發(fā)出適用于商務領域的實用化翻譯系統(tǒng)。為解決這一問題,東芝推出外語會議支援系統(tǒng)。
該系統(tǒng)采用東芝最新研發(fā)的文本整理技術,即利用捕捉發(fā)言者口語化發(fā)言的共通性的規(guī)則型翻譯,與收集大量多樣化實例而逐漸改進的統(tǒng)計型翻譯,將難翻譯、難理解的語句修整為易翻譯句法和長度。而相關的文本整理網絡工具,可收集大量的文本整理實例和對整理結果進行高效評價,從而大幅提高文本整理的精度。
為防止未知詞匯造成的聲音識別精度和翻譯精度下降,東芝還研發(fā)了關鍵詞抽取技術。即從會議資料中自動抽取專業(yè)術語等會議所需詞匯,在會議開始前預先存儲該詞匯的正確翻譯。經過文本整理后的原文,通過關鍵詞抽取技術和東芝獨有的統(tǒng)計型+規(guī)則型混合機器翻譯方式進行處理,對各種發(fā)言實現高品質翻譯。
此外,東芝還開發(fā)了支持遠程會議、面對面會議和演講的支援系統(tǒng)。使用該系統(tǒng)在公司內部進行測評,日語能力測試二級或二級以上的測試對象對日語會議內容的理解度從60%提高到80%,而日語能力測試二級以下或完全不懂日語的測試對象理解度則從30%提高到60%。該系統(tǒng)此前僅在開發(fā)部門內部進行試運行,本次則將在包括5家中國當地公司在內的東芝集團內部投入試運行。東芝將在內部應用的基礎上,不斷積累內部會議翻譯所需的語言數據,在力爭將翻譯譯文的可理解度提高到80%以上的同時,不斷完善會議語音應用系統(tǒng)的各項功能。
相關視頻請點擊:http://www.liablog.com/aboutus/dzsp/cpxc/video11.html