隨著經(jīng)濟全球化的發(fā)展,國際知識產(chǎn)權(quán)戰(zhàn)略的重要性日益突顯。我們不僅要將日本國內(nèi)的專利信息傳遞給全世界,還要把握世界其他國家的專利申請情報。各類專利文獻的精確翻譯不可或缺,專利文獻的翻譯量也由此猛增。然而,傳統(tǒng)人力翻譯在成本和速度方面的弊端使得其難以勝任海量翻譯的重任。為解決這一難題,人們將目光移向了機器翻譯。
2019年5月,日本專利廳專利信息公開平臺開始啟用全新“機器翻譯系統(tǒng)”,該機器翻譯系統(tǒng)采用強大的機器翻譯引擎。這一引擎由日本情報通信研究機構(gòu)(以下簡稱“NICT”)主導研發(fā),東芝數(shù)字解決方案株式會社長期積累的自然語言處理技術(shù)也給予了支持。
為實現(xiàn)快速、準確、自然的翻譯目標――在開發(fā)過程中,只有將人工智能的快速學習與技術(shù)人員的知識經(jīng)驗融合在一起,才能突破重重技術(shù)難關(guān)。
東芝數(shù)字解決方案株式會社 ICT解決方案事業(yè)部 政府部門解決方案技術(shù)第二部 三宅悠紀子
信息通信研究機構(gòu)(NICT)高級語音翻譯研究開發(fā)推進中心 副主任 隅田英一郎
日本專利廳 總務部總務科專利信息室 主任助理 目黑光司
東芝數(shù)字解決方案株式會社 ICT解決方案事業(yè)部 政府部門營業(yè)第四部 西本俊之
一、混合型機器翻譯 讓專利文獻翻譯工作更簡單
在保護日本科技成果,促進科技創(chuàng)新方面,專利審查工作發(fā)揮著極其重要的作用。專利審查員在審查專利過程中,需要查明新技術(shù)與現(xiàn)有技術(shù)之間的區(qū)別,并合理設(shè)定專利權(quán)。
日本專利廳總務部信息室主任助理——目黑光司先生參與了機器翻譯項目的全過程,包括系統(tǒng)采購到實施監(jiān)測。據(jù)他講,日本專利廳的使命是“執(zhí)行全球最快、最高質(zhì)量的審查工作”。
“我們專利廳的業(yè)務工作主要分兩大塊:一、調(diào)查海量增長的國外專利技術(shù)文獻;二、將審查結(jié)果發(fā)送到國外,幫助日本企業(yè)順利取得國外專利授權(quán)?!保亢冢?/p>
“為完成這些業(yè)務,我們必須將日語審查結(jié)果翻譯成英語,并將世界各國的專利文獻翻譯成日語。在此需求上,我們更新了專利信息平臺(J-PlatPat),并著手構(gòu)建新型機器翻譯系統(tǒng)。為實現(xiàn)“全球最快、最高質(zhì)量審查”的目標,新型機器翻譯系統(tǒng)中翻譯速度和翻譯品質(zhì)是最重要的兩點。
全球?qū)@暾垟?shù)量變化統(tǒng)計
通過公開競標,東芝數(shù)字解決方案株式會社(東芝集團旗下公司,主要業(yè)務是采用系統(tǒng)集成、人工智能和物聯(lián)網(wǎng)等手段,為用戶提供服務解決方案)成功拿下這筆訂單。該公司的西本俊之和三宅悠紀子參與了從招標、提案到正式發(fā)布的全過程,西本俊之擔任營業(yè)負責人,三宅悠紀子擔任翻譯品質(zhì)的技術(shù)負責人。
“東芝長期致力于機器翻譯技術(shù)開發(fā)工作。主要采用基于規(guī)則的機器翻譯引擎1(以下簡稱RBMT)。針對此次中標的機器翻譯系統(tǒng)項目,我們首先考慮的是,要與現(xiàn)有開發(fā)成果銜接起來。因此,我們采用了RBMT提案。然而,在即將采購之時,我們發(fā)現(xiàn)RBMT不能達到翻譯質(zhì)量要求,到底是什么原因呢?……我們甚至考慮過放棄這一提案。我無意中想起曾經(jīng)與NICT合作的往事,當時,NICT將翻譯引擎技術(shù)轉(zhuǎn)讓給了我們,我還特地去拜訪了隅田先生?!保ㄎ鞅荆?br>1 基于規(guī)則的機器翻譯引擎:基于辭典和語法知識的機器翻譯。此外,還有基于海量對譯數(shù)據(jù)(雙語對照格式數(shù)據(jù))的統(tǒng)計機器翻譯、基于深度學習技術(shù)的神經(jīng)機器翻譯。
NICT在專利文件機器翻譯領(lǐng)域的研究成果頗豐,且與日本專利廳保持著良好的合作關(guān)系。除此以外,NICT還擁有數(shù)億條世界最大的專利文獻數(shù)據(jù)對譯,并依托海量對譯數(shù)據(jù)開發(fā)了先進的神經(jīng)機器翻譯系統(tǒng)(以下簡稱“NMT”)。NICT科研負責人——隅田欣然接受了西本的咨詢請求,兩人開始就技術(shù)轉(zhuǎn)讓問題進行交流。
“為了普及翻譯技術(shù),NICT一向?qū)ν馓峁┍狙芯克_發(fā)的翻譯引擎和程序。雖說這是NICT的使命,但并不代表我們可以向任何企業(yè)轉(zhuǎn)讓翻譯技術(shù)。接受技術(shù)轉(zhuǎn)讓的企業(yè)必須有堅實的技術(shù)后盾作為保障,否則,我們苦心研發(fā)的翻譯技術(shù)將無法得到普及。
在這方面,東芝擁有豐富的機器翻譯開發(fā)經(jīng)驗,而我們在統(tǒng)計機器翻譯(以下簡稱“SMT”)技術(shù)轉(zhuǎn)讓方面亦擁有眾多實際案例。關(guān)于專利領(lǐng)域機器翻譯技術(shù)轉(zhuǎn)讓問題的討論,我當然愿意參與?!保ㄓ缣铮?/p>
東芝部分翻譯引擎介紹
2 BLEU值:將正確譯文與機器翻譯結(jié)果進行比較,根據(jù)相似度對翻譯質(zhì)量進行評估的指標。得分從0%到100%。得分越高,翻譯質(zhì)量越高。
首先,東芝團隊列出了翻譯引擎?zhèn)溥x名單,其中包括RBMT、SMT、NMT等7種翻譯引擎,再征求NICT方面的意見和建議,選出最適合專利文檔的翻譯引擎。
“使用各個引擎翻譯1000多個文檔,評估每種引擎的精度以及在文章翻譯方面的優(yōu)點和缺點。只有自己親眼查看和對比這些翻譯結(jié)果,才能夠選出最佳方案?!保ㄎ鞅荆?/p>
“隨著招標提案工作的推進,為了實現(xiàn)精準自然的翻譯效果,我們不斷優(yōu)化機器翻譯系統(tǒng)。
比如,RBMT適用于文檔前半部分和最尾端,NMT適用于文檔中間部分?;谶@種情況,要實現(xiàn)高質(zhì)量專利文檔翻譯,需要構(gòu)建復雜的翻譯引擎。事實證明,全部使用單一翻譯引擎,是無法確保翻譯質(zhì)量的?!保ㄈ?/p>
每種引擎翻譯1000多個文檔,每個文檔的翻譯稿件都需要仔細檢查。通過這種笨拙的測試方法,我們最終發(fā)現(xiàn):以NMT為主,合理使用RBMT和SMT的混合型翻譯引擎是最佳選擇。對于翻譯前后的處理工作,我們認為采用東芝長期積累的自然語言處理技術(shù)更合適。這樣一來,既引入了最先進的NICT引擎,又能發(fā)揮出東芝在機器翻譯領(lǐng)域的優(yōu)勢。
二、升級機器翻譯機制 解決長篇翻譯難題
經(jīng)過不懈努力,2018年4月,東芝數(shù)字解決方案株式會社在公開競標中成功拿下機器翻譯系統(tǒng)訂單。以實現(xiàn)1年1個月后——2019年5月系統(tǒng)啟動為目標,開始了開發(fā)工作。為了達到理想的翻譯效果,公司成立了兩個團隊,分別負責翻譯質(zhì)量和翻譯速度。
“我們要求的不僅僅是翻譯的質(zhì)量和速度,價格、成本等方面也必須通過評估。東芝數(shù)字解決方案株式會社不只使用最新的NMT翻譯引擎,還構(gòu)建了完善的引擎支持系統(tǒng),以確保翻譯引擎穩(wěn)定運行。
我們對機器翻譯系統(tǒng)提出的要求是:不僅要保證翻譯質(zhì)量,還必須適用于專利信息平臺。顯然,逐句翻譯無法滿足要求,文章以幾頁為單位傳給機器翻譯系統(tǒng),由翻譯系統(tǒng)進行文檔分割,再并行進行翻譯?!保亢冢?/p>
“一般來說,機器翻譯不擅長翻譯長句,句子越長,需要處理的時間就越多。使用預處理進行長句分割方法,能夠提高翻譯質(zhì)量。機器翻譯系統(tǒng)首先用RBMT對日語長句結(jié)構(gòu)進行分析,在長句中的意思轉(zhuǎn)折位置做標記。再將完成分割標記的文檔傳送到NICT的NMT中。這種無縫協(xié)作確保了翻譯速度和翻譯質(zhì)量?!保ㄎ鞅荆?/p>
在專利文檔中,當一個長句被分成一行一句后,句子之間往往會夾雜一些無用的字符,比如:頁碼等。
機器翻譯長句分割示例
“人工智能目前仍無法合并或分割句子。為了從細節(jié)方面提高整體翻譯質(zhì)量,必須先進行‘文章結(jié)構(gòu)分析’。深入分析文章結(jié)構(gòu)的語言處理工作正需要東芝來完成。”(目黑)
三宅女士回顧項目時說:“毫無疑問,文章結(jié)構(gòu)分析是本項目的重點之一”。比如,在翻譯系統(tǒng)構(gòu)建過程中,出現(xiàn)了一個奇怪的翻譯結(jié)果,就是“Sunrise”(日出)這個單詞,這個單詞與專利內(nèi)容毫不相干。對此,我們感到非常困惑,經(jīng)過調(diào)查,原因出乎所有人意料。
“專利文件經(jīng)常遇到下圖這種格式。由于前后兩段緊連在一起,變成了‘日出’這個詞,翻譯引擎順勢將其翻譯成‘Sunrise’。為消除這種錯譯,結(jié)構(gòu)解析時需要進行數(shù)百個處理。而且這種錯誤只能通過目視檢查的方式發(fā)現(xiàn)。一次分析就需要通讀200多份翻譯文檔,這依靠的是不畏艱辛的精神及巨大的體力投入?!保ㄈ?/p>
機器翻譯錯誤示例
在科技方面的專利文獻中,還可能會出現(xiàn)化學式和DNA序列。字母和數(shù)字羅列是導致誤譯的原因之一。事實上,NMT并不擅長準確翻譯這類字符串,經(jīng)常會出現(xiàn)“漏譯”和“冗余”(生成無關(guān)字符串)的情況。對此,三宅女士等人采用了“無需翻譯”的方式。具體機制是:從輸入的句子中識別出字符串,例如:化學公式和DNA序列等,先使用引擎翻譯字符串以外的部分,然后將翻譯結(jié)果與字符串合并,輸出最終的翻譯結(jié)果。這樣一來,就避免了NMT特有的錯譯問題。
“與RBMT相比,NMT和SMT的翻譯質(zhì)量更高,計算量也更大,因此需要更多的處理時間。以往,翻譯專利等長篇文檔至少需要30分鐘。此次開發(fā)的翻譯系統(tǒng)是面向瀏覽網(wǎng)頁的用戶,需要提供實時在線翻譯,不能讓用戶在電腦前等待30分鐘。為提高翻譯速度,東芝團隊經(jīng)過反復試錯、調(diào)整,終于達到了滿意的翻譯速度?!保ㄎ鞅荆?/p>
三、持續(xù)優(yōu)化機器翻譯 開發(fā)多語種翻譯系統(tǒng)
2019年5月,東芝推出日英翻譯功能。專利信息平臺(J-PlatPat)正式啟用文檔及日本專利公報的日英翻譯功能。國外專利審查員參考日本審查結(jié)果,日本人申請國外專利,翻譯專利參考文件時,都可以使用此項翻譯功能。
“我們進行了多種測試,比如平時不大可能有的大翻譯量的測試,不留任何小瑕疵,最終迎來了正式發(fā)布的時刻。剛剛發(fā)布后,我們就接到了用戶打來的電話,用戶反饋說:‘這么高的翻譯質(zhì)量令我十分驚訝’。這種反饋是極為難得的,充分證明了翻譯準確度已得到顯著提升。目前,該項目仍將持續(xù)進行中,我們將會進一步提升翻譯質(zhì)量和系統(tǒng)配置,以便處理更多語種,我非常有信心完成后半程的開發(fā)工作。”(目黑)
“難得有機會了解到普通用戶的反饋,我真的非常高興。尤其感謝目黑先生以及專利廳的其他員工,向我們提出了很多寶貴意見。讓我深有感觸的是,專利廳、NICT、東芝數(shù)字解決方案株式會社能作為一個團隊,攜手并肩,朝著提高翻譯質(zhì)量和速度的共同目標,不斷前行?!保ㄈ?/p>
“目前,我們正在開發(fā)中日和韓日翻譯功能,我們的目標是在2020年4月正式發(fā)布機器翻譯系統(tǒng)。在翻譯引擎技術(shù)方面,我們向NICT的隅田先生反饋各種問題,并及時進行調(diào)整,同時,我們的應用程序也在持續(xù)改善中。目前,機器翻譯的最終服務模式和理想形態(tài)還尚不明朗。我希望借助本項目獲取的知識經(jīng)驗,開發(fā)出能夠滿足政府機關(guān)、研究機構(gòu)、企業(yè)翻譯需求的解決方案”(西本)
“東芝開發(fā)的機器翻譯系統(tǒng)在對安全性有要求的操作環(huán)境下也能正常工作,未來有望向其它領(lǐng)域拓展,比如:政府機關(guān)、以及制藥、金融、汽車等安全性要求高行業(yè),而且,這些行業(yè)的對譯數(shù)據(jù)已經(jīng)非常豐富。NICT表示,希望在高精度引擎技術(shù)轉(zhuǎn)讓方面,繼續(xù)與東芝開展合作。”(隅田)
專利廳發(fā)布的“全球最快、最高質(zhì)量”的審查支持系統(tǒng)是NICT和東芝的共同努力的結(jié)果,NICT的先進翻譯引擎技術(shù)與東芝的自然語言處理技術(shù)堪稱完美搭檔。不斷鞏固和發(fā)展這種合作伙伴關(guān)系,持續(xù)開發(fā)語言翻譯系統(tǒng),這讓我們得以窺見機器翻譯的未來。東芝一直致力于創(chuàng)新研發(fā)高科技產(chǎn)品,希望與不同行業(yè)的尖端科技型企業(yè)共同努力,碰撞火花,點亮未來無限可能。