丰满岳乱妇在线观看中字无码,国产熟女老阿姨毛片看爽爽,激情六月婷婷亚洲,成人av在线播放观看

相關(guān)文章

你所未知的翻譯世界 機器翻譯技術(shù)助力日本知識產(chǎn)權(quán)發(fā)展 mask

你所未知的翻譯世界

機器翻譯技術(shù)助力日本知識產(chǎn)權(quán)發(fā)展

2019.10.30 數(shù)字解決方案
本文看點
  • 在專利翻譯需求爆炸式增長的背景下,機器翻譯擔負起重任
  • 完美融合多種機器翻譯引擎,實現(xiàn)高質(zhì)量、高速度的翻譯目標
  • 持續(xù)優(yōu)化機器翻譯,開發(fā)支持日英、中日、韓日等多語種翻譯

隨著經(jīng)濟全球化的發(fā)展,國際知識產(chǎn)權(quán)戰(zhàn)略的重要性日益突顯。我們不僅要將日本國內(nèi)的專利信息傳遞給全世界,還要把握世界其他國家的專利申請情報。各類專利文獻的精確翻譯不可或缺,專利文獻的翻譯量也由此猛增。然而,傳統(tǒng)人力翻譯在成本和速度方面的弊端使得其難以勝任海量翻譯的重任。為解決這一難題,人們將目光移向了機器翻譯。

2019年5月,日本專利廳專利信息公開平臺開始啟用全新“機器翻譯系統(tǒng)”,該機器翻譯系統(tǒng)采用強大的機器翻譯引擎。這一引擎由日本情報通信研究機構(gòu)(以下簡稱“NICT”)主導研發(fā),東芝數(shù)字解決方案株式會社長期積累的自然語言處理技術(shù)也給予了支持。

為實現(xiàn)快速、準確、自然的翻譯目標――在開發(fā)過程中,只有將人工智能的快速學習與技術(shù)人員的知識經(jīng)驗融合在一起,才能突破重重技術(shù)難關(guān)。

東芝數(shù)字解決方案株式會社 ICT解決方案事業(yè)部 政府部門解決方案技術(shù)第二部 三宅悠紀子 信息通信研究機構(gòu)(NICT)高級語音翻譯研究開發(fā)推進中心 副主任 隅田英一郎 日本專利廳 總務部總務科專利信息室 主任助理 目黑光司 東芝數(shù)字解決方案株式會社 ICT解決方案事業(yè)部 政府部門營業(yè)第四部 西本俊之

東芝數(shù)字解決方案株式會社 ICT解決方案事業(yè)部 政府部門解決方案技術(shù)第二部 三宅悠紀子
信息通信研究機構(gòu)(NICT)高級語音翻譯研究開發(fā)推進中心 副主任 隅田英一郎
日本專利廳 總務部總務科專利信息室 主任助理 目黑光司
東芝數(shù)字解決方案株式會社 ICT解決方案事業(yè)部 政府部門營業(yè)第四部 西本俊之

一、混合型機器翻譯 讓專利文獻翻譯工作更簡單

在保護日本科技成果,促進科技創(chuàng)新方面,專利審查工作發(fā)揮著極其重要的作用。專利審查員在審查專利過程中,需要查明新技術(shù)與現(xiàn)有技術(shù)之間的區(qū)別,并合理設(shè)定專利權(quán)。

日本專利廳總務部信息室主任助理——目黑光司先生參與了機器翻譯項目的全過程,包括系統(tǒng)采購到實施監(jiān)測。據(jù)他講,日本專利廳的使命是“執(zhí)行全球最快、最高質(zhì)量的審查工作”。

“我們專利廳的業(yè)務工作主要分兩大塊:一、調(diào)查海量增長的國外專利技術(shù)文獻;二、將審查結(jié)果發(fā)送到國外,幫助日本企業(yè)順利取得國外專利授權(quán)?!保亢冢?/p>

“為完成這些業(yè)務,我們必須將日語審查結(jié)果翻譯成英語,并將世界各國的專利文獻翻譯成日語。在此需求上,我們更新了專利信息平臺(J-PlatPat),并著手構(gòu)建新型機器翻譯系統(tǒng)。為實現(xiàn)“全球最快、最高質(zhì)量審查”的目標,新型機器翻譯系統(tǒng)中翻譯速度和翻譯品質(zhì)是最重要的兩點

全球?qū)@暾垟?shù)量變化統(tǒng)計

全球?qū)@暾垟?shù)量變化統(tǒng)計

通過公開競標,東芝數(shù)字解決方案株式會社(東芝集團旗下公司,主要業(yè)務是采用系統(tǒng)集成、人工智能和物聯(lián)網(wǎng)等手段,為用戶提供服務解決方案)成功拿下這筆訂單。該公司的西本俊之和三宅悠紀子參與了從招標、提案到正式發(fā)布的全過程,西本俊之擔任營業(yè)負責人,三宅悠紀子擔任翻譯品質(zhì)的技術(shù)負責人。

“東芝長期致力于機器翻譯技術(shù)開發(fā)工作。主要采用基于規(guī)則的機器翻譯引擎1(以下簡稱RBMT)。針對此次中標的機器翻譯系統(tǒng)項目,我們首先考慮的是,要與現(xiàn)有開發(fā)成果銜接起來。因此,我們采用了RBMT提案。然而,在即將采購之時,我們發(fā)現(xiàn)RBMT不能達到翻譯質(zhì)量要求,到底是什么原因呢?……我們甚至考慮過放棄這一提案。我無意中想起曾經(jīng)與NICT合作的往事,當時,NICT將翻譯引擎技術(shù)轉(zhuǎn)讓給了我們,我還特地去拜訪了隅田先生?!保ㄎ鞅荆?br>1 基于規(guī)則的機器翻譯引擎:基于辭典和語法知識的機器翻譯。此外,還有基于海量對譯數(shù)據(jù)(雙語對照格式數(shù)據(jù))的統(tǒng)計機器翻譯、基于深度學習技術(shù)的神經(jīng)機器翻譯。

NICT在專利文件機器翻譯領(lǐng)域的研究成果頗豐,且與日本專利廳保持著良好的合作關(guān)系。除此以外,NICT還擁有數(shù)億條世界最大的專利文獻數(shù)據(jù)對譯,并依托海量對譯數(shù)據(jù)開發(fā)了先進的神經(jīng)機器翻譯系統(tǒng)(以下簡稱“NMT”)。NICT科研負責人——隅田欣然接受了西本的咨詢請求,兩人開始就技術(shù)轉(zhuǎn)讓問題進行交流。

“為了普及翻譯技術(shù),NICT一向?qū)ν馓峁┍狙芯克_發(fā)的翻譯引擎和程序。雖說這是NICT的使命,但并不代表我們可以向任何企業(yè)轉(zhuǎn)讓翻譯技術(shù)。接受技術(shù)轉(zhuǎn)讓的企業(yè)必須有堅實的技術(shù)后盾作為保障,否則,我們苦心研發(fā)的翻譯技術(shù)將無法得到普及。

在這方面,東芝擁有豐富的機器翻譯開發(fā)經(jīng)驗,而我們在統(tǒng)計機器翻譯(以下簡稱“SMT”)技術(shù)轉(zhuǎn)讓方面亦擁有眾多實際案例。關(guān)于專利領(lǐng)域機器翻譯技術(shù)轉(zhuǎn)讓問題的討論,我當然愿意參與?!保ㄓ缣铮?/p>

東芝部分翻譯引擎介紹

東芝部分翻譯引擎介紹
2 BLEU值:將正確譯文與機器翻譯結(jié)果進行比較,根據(jù)相似度對翻譯質(zhì)量進行評估的指標。得分從0%到100%。得分越高,翻譯質(zhì)量越高。

首先,東芝團隊列出了翻譯引擎?zhèn)溥x名單,其中包括RBMT、SMT、NMT等7種翻譯引擎,再征求NICT方面的意見和建議,選出最適合專利文檔的翻譯引擎

使用各個引擎翻譯1000多個文檔,評估每種引擎的精度以及在文章翻譯方面的優(yōu)點和缺點。只有自己親眼查看和對比這些翻譯結(jié)果,才能夠選出最佳方案?!保ㄎ鞅荆?/p>

“隨著招標提案工作的推進,為了實現(xiàn)精準自然的翻譯效果,我們不斷優(yōu)化機器翻譯系統(tǒng)。

比如,RBMT適用于文檔前半部分和最尾端,NMT適用于文檔中間部分?;谶@種情況,要實現(xiàn)高質(zhì)量專利文檔翻譯,需要構(gòu)建復雜的翻譯引擎。事實證明,全部使用單一翻譯引擎,是無法確保翻譯質(zhì)量的?!保ㄈ?/p>

每種引擎翻譯1000多個文檔,每個文檔的翻譯稿件都需要仔細檢查。通過這種笨拙的測試方法,我們最終發(fā)現(xiàn):以NMT為主,合理使用RBMT和SMT的混合型翻譯引擎是最佳選擇。對于翻譯前后的處理工作,我們認為采用東芝長期積累的自然語言處理技術(shù)更合適。這樣一來,既引入了最先進的NICT引擎,又能發(fā)揮出東芝在機器翻譯領(lǐng)域的優(yōu)勢。

二、升級機器翻譯機制 解決長篇翻譯難題

經(jīng)過不懈努力,2018年4月,東芝數(shù)字解決方案株式會社在公開競標中成功拿下機器翻譯系統(tǒng)訂單。以實現(xiàn)1年1個月后——2019年5月系統(tǒng)啟動為目標,開始了開發(fā)工作。為了達到理想的翻譯效果,公司成立了兩個團隊,分別負責翻譯質(zhì)量和翻譯速度。

“我們要求的不僅僅是翻譯的質(zhì)量和速度,價格、成本等方面也必須通過評估。東芝數(shù)字解決方案株式會社不只使用最新的NMT翻譯引擎,還構(gòu)建了完善的引擎支持系統(tǒng),以確保翻譯引擎穩(wěn)定運行。

我們對機器翻譯系統(tǒng)提出的要求是:不僅要保證翻譯質(zhì)量,還必須適用于專利信息平臺。顯然,逐句翻譯無法滿足要求,文章以幾頁為單位傳給機器翻譯系統(tǒng),由翻譯系統(tǒng)進行文檔分割,再并行進行翻譯?!保亢冢?/p>

“一般來說,機器翻譯不擅長翻譯長句,句子越長,需要處理的時間就越多。使用預處理進行長句分割方法,能夠提高翻譯質(zhì)量。機器翻譯系統(tǒng)首先用RBMT對日語長句結(jié)構(gòu)進行分析,在長句中的意思轉(zhuǎn)折位置做標記。再將完成分割標記的文檔傳送到NICT的NMT中。這種無縫協(xié)作確保了翻譯速度和翻譯質(zhì)量?!保ㄎ鞅荆?/p>

在專利文檔中,當一個長句被分成一行一句后,句子之間往往會夾雜一些無用的字符,比如:頁碼等。

機器翻譯長句分割示例

機器翻譯長句分割示例

“人工智能目前仍無法合并或分割句子。為了從細節(jié)方面提高整體翻譯質(zhì)量,必須先進行‘文章結(jié)構(gòu)分析’。深入分析文章結(jié)構(gòu)的語言處理工作正需要東芝來完成。”(目黑)

三宅女士回顧項目時說:“毫無疑問,文章結(jié)構(gòu)分析是本項目的重點之一”。比如,在翻譯系統(tǒng)構(gòu)建過程中,出現(xiàn)了一個奇怪的翻譯結(jié)果,就是“Sunrise”(日出)這個單詞,這個單詞與專利內(nèi)容毫不相干。對此,我們感到非常困惑,經(jīng)過調(diào)查,原因出乎所有人意料。

“專利文件經(jīng)常遇到下圖這種格式。由于前后兩段緊連在一起,變成了‘日出’這個詞,翻譯引擎順勢將其翻譯成‘Sunrise’。為消除這種錯譯,結(jié)構(gòu)解析時需要進行數(shù)百個處理。而且這種錯誤只能通過目視檢查的方式發(fā)現(xiàn)。一次分析就需要通讀200多份翻譯文檔,這依靠的是不畏艱辛的精神及巨大的體力投入?!保ㄈ?/p>

機器翻譯錯誤示例

機器翻譯錯誤示例

在科技方面的專利文獻中,還可能會出現(xiàn)化學式和DNA序列。字母和數(shù)字羅列是導致誤譯的原因之一。事實上,NMT并不擅長準確翻譯這類字符串,經(jīng)常會出現(xiàn)“漏譯”和“冗余”(生成無關(guān)字符串)的情況。對此,三宅女士等人采用了“無需翻譯”的方式。具體機制是:從輸入的句子中識別出字符串,例如:化學公式和DNA序列等,先使用引擎翻譯字符串以外的部分,然后將翻譯結(jié)果與字符串合并,輸出最終的翻譯結(jié)果。這樣一來,就避免了NMT特有的錯譯問題。

“與RBMT相比,NMT和SMT的翻譯質(zhì)量更高,計算量也更大,因此需要更多的處理時間。以往,翻譯專利等長篇文檔至少需要30分鐘。此次開發(fā)的翻譯系統(tǒng)是面向瀏覽網(wǎng)頁的用戶,需要提供實時在線翻譯,不能讓用戶在電腦前等待30分鐘。為提高翻譯速度,東芝團隊經(jīng)過反復試錯、調(diào)整,終于達到了滿意的翻譯速度?!保ㄎ鞅荆?/p>

三、持續(xù)優(yōu)化機器翻譯 開發(fā)多語種翻譯系統(tǒng)

2019年5月,東芝推出日英翻譯功能。專利信息平臺(J-PlatPat)正式啟用文檔及日本專利公報的日英翻譯功能。國外專利審查員參考日本審查結(jié)果,日本人申請國外專利,翻譯專利參考文件時,都可以使用此項翻譯功能。

我們進行了多種測試,比如平時不大可能有的大翻譯量的測試,不留任何小瑕疵,最終迎來了正式發(fā)布的時刻。剛剛發(fā)布后,我們就接到了用戶打來的電話,用戶反饋說:‘這么高的翻譯質(zhì)量令我十分驚訝’。這種反饋是極為難得的,充分證明了翻譯準確度已得到顯著提升。目前,該項目仍將持續(xù)進行中,我們將會進一步提升翻譯質(zhì)量和系統(tǒng)配置,以便處理更多語種,我非常有信心完成后半程的開發(fā)工作。”(目黑)

“難得有機會了解到普通用戶的反饋,我真的非常高興。尤其感謝目黑先生以及專利廳的其他員工,向我們提出了很多寶貴意見。讓我深有感觸的是,專利廳、NICT、東芝數(shù)字解決方案株式會社能作為一個團隊,攜手并肩,朝著提高翻譯質(zhì)量和速度的共同目標,不斷前行?!保ㄈ?/p>

“目前,我們正在開發(fā)中日和韓日翻譯功能,我們的目標是在2020年4月正式發(fā)布機器翻譯系統(tǒng)。在翻譯引擎技術(shù)方面,我們向NICT的隅田先生反饋各種問題,并及時進行調(diào)整,同時,我們的應用程序也在持續(xù)改善中。目前,機器翻譯的最終服務模式和理想形態(tài)還尚不明朗。我希望借助本項目獲取的知識經(jīng)驗,開發(fā)出能夠滿足政府機關(guān)、研究機構(gòu)、企業(yè)翻譯需求的解決方案”(西本)

“東芝開發(fā)的機器翻譯系統(tǒng)在對安全性有要求的操作環(huán)境下也能正常工作,未來有望向其它領(lǐng)域拓展,比如:政府機關(guān)、以及制藥、金融、汽車等安全性要求高行業(yè),而且,這些行業(yè)的對譯數(shù)據(jù)已經(jīng)非常豐富。NICT表示,希望在高精度引擎技術(shù)轉(zhuǎn)讓方面,繼續(xù)與東芝開展合作。”(隅田)

專利廳發(fā)布的“全球最快、最高質(zhì)量”的審查支持系統(tǒng)是NICT和東芝的共同努力的結(jié)果,NICT的先進翻譯引擎技術(shù)與東芝的自然語言處理技術(shù)堪稱完美搭檔。不斷鞏固和發(fā)展這種合作伙伴關(guān)系,持續(xù)開發(fā)語言翻譯系統(tǒng),這讓我們得以窺見機器翻譯的未來。東芝一直致力于創(chuàng)新研發(fā)高科技產(chǎn)品,希望與不同行業(yè)的尖端科技型企業(yè)共同努力,碰撞火花,點亮未來無限可能。