隨著(zhù)經(jīng)濟全球化的發(fā)展,國際知識產(chǎn)權戰略的重要性日益突顯。我們不僅要將日本國內的專(zhuān)利信息傳遞給全世界,還要把握世界其他國家的專(zhuān)利申請情報。各類(lèi)專(zhuān)利文獻的精確翻譯不可或缺,專(zhuān)利文獻的翻譯量也由此猛增。然而,傳統人力翻譯在成本和速度方面的弊端使得其難以勝任海量翻譯的重任。為解決這一難題,人們將目光移向了機器翻譯。
2019年5月,日本專(zhuān)利廳專(zhuān)利信息公開(kāi)平臺開(kāi)始啟用全新“機器翻譯系統”,該機器翻譯系統采用強大的機器翻譯引擎。這一引擎由日本情報通信研究機構(以下簡(jiǎn)稱(chēng)“NICT”)主導研發(fā),東芝數字解決方案株式會(huì )社長(cháng)期積累的自然語(yǔ)言處理技術(shù)也給予了支持。
為實(shí)現快速、準確、自然的翻譯目標――在開(kāi)發(fā)過(guò)程中,只有將人工智能的快速學(xué)習與技術(shù)人員的知識經(jīng)驗融合在一起,才能突破重重技術(shù)難關(guān)。
東芝數字解決方案株式會(huì )社 ICT解決方案事業(yè)部 政府部門(mén)解決方案技術(shù)第二部 三宅悠紀子
信息通信研究機構(NICT)高級語(yǔ)音翻譯研究開(kāi)發(fā)推進(jìn)中心 副主任 隅田英一郎
日本專(zhuān)利廳 總務(wù)部總務(wù)科專(zhuān)利信息室 主任助理 目黑光司
東芝數字解決方案株式會(huì )社 ICT解決方案事業(yè)部 政府部門(mén)營(yíng)業(yè)第四部 西本俊之
一、混合型機器翻譯 讓專(zhuān)利文獻翻譯工作更簡(jiǎn)單
在保護日本科技成果,促進(jìn)科技創(chuàng )新方面,專(zhuān)利審查工作發(fā)揮著(zhù)極其重要的作用。專(zhuān)利審查員在審查專(zhuān)利過(guò)程中,需要查明新技術(shù)與現有技術(shù)之間的區別,并合理設定專(zhuān)利權。
日本專(zhuān)利廳總務(wù)部信息室主任助理——目黑光司先生參與了機器翻譯項目的全過(guò)程,包括系統采購到實(shí)施監測。據他講,日本專(zhuān)利廳的使命是“執行全球最快、最高質(zhì)量的審查工作”。
“我們專(zhuān)利廳的業(yè)務(wù)工作主要分兩大塊:一、調查海量增長(cháng)的國外專(zhuān)利技術(shù)文獻;二、將審查結果發(fā)送到國外,幫助日本企業(yè)順利取得國外專(zhuān)利授權?!保亢冢?/p>
“為完成這些業(yè)務(wù),我們必須將日語(yǔ)審查結果翻譯成英語(yǔ),并將世界各國的專(zhuān)利文獻翻譯成日語(yǔ)。在此需求上,我們更新了專(zhuān)利信息平臺(J-PlatPat),并著(zhù)手構建新型機器翻譯系統。為實(shí)現“全球最快、最高質(zhì)量審查”的目標,新型機器翻譯系統中翻譯速度和翻譯品質(zhì)是最重要的兩點(diǎn)。
全球專(zhuān)利申請數量變化統計
通過(guò)公開(kāi)競標,東芝數字解決方案株式會(huì )社(東芝集團旗下公司,主要業(yè)務(wù)是采用系統集成、人工智能和物聯(lián)網(wǎng)等手段,為用戶(hù)提供服務(wù)解決方案)成功拿下這筆訂單。該公司的西本俊之和三宅悠紀子參與了從招標、提案到正式發(fā)布的全過(guò)程,西本俊之擔任營(yíng)業(yè)負責人,三宅悠紀子擔任翻譯品質(zhì)的技術(shù)負責人。
“東芝長(cháng)期致力于機器翻譯技術(shù)開(kāi)發(fā)工作。主要采用基于規則的機器翻譯引擎1(以下簡(jiǎn)稱(chēng)RBMT)。針對此次中標的機器翻譯系統項目,我們首先考慮的是,要與現有開(kāi)發(fā)成果銜接起來(lái)。因此,我們采用了RBMT提案。然而,在即將采購之時(shí),我們發(fā)現RBMT不能達到翻譯質(zhì)量要求,到底是什么原因呢?……我們甚至考慮過(guò)放棄這一提案。我無(wú)意中想起曾經(jīng)與NICT合作的往事,當時(shí),NICT將翻譯引擎技術(shù)轉讓給了我們,我還特地去拜訪(fǎng)了隅田先生?!保ㄎ鞅荆?br>1 基于規則的機器翻譯引擎:基于辭典和語(yǔ)法知識的機器翻譯。此外,還有基于海量對譯數據(雙語(yǔ)對照格式數據)的統計機器翻譯、基于深度學(xué)習技術(shù)的神經(jīng)機器翻譯。
NICT在專(zhuān)利文件機器翻譯領(lǐng)域的研究成果頗豐,且與日本專(zhuān)利廳保持著(zhù)良好的合作關(guān)系。除此以外,NICT還擁有數億條世界最大的專(zhuān)利文獻數據對譯,并依托海量對譯數據開(kāi)發(fā)了先進(jìn)的神經(jīng)機器翻譯系統(以下簡(jiǎn)稱(chēng)“NMT”)。NICT科研負責人——隅田欣然接受了西本的咨詢(xún)請求,兩人開(kāi)始就技術(shù)轉讓問(wèn)題進(jìn)行交流。
“為了普及翻譯技術(shù),NICT一向對外提供本研究所開(kāi)發(fā)的翻譯引擎和程序。雖說(shuō)這是NICT的使命,但并不代表我們可以向任何企業(yè)轉讓翻譯技術(shù)。接受技術(shù)轉讓的企業(yè)必須有堅實(shí)的技術(shù)后盾作為保障,否則,我們苦心研發(fā)的翻譯技術(shù)將無(wú)法得到普及。
在這方面,東芝擁有豐富的機器翻譯開(kāi)發(fā)經(jīng)驗,而我們在統計機器翻譯(以下簡(jiǎn)稱(chēng)“SMT”)技術(shù)轉讓方面亦擁有眾多實(shí)際案例。關(guān)于專(zhuān)利領(lǐng)域機器翻譯技術(shù)轉讓問(wèn)題的討論,我當然愿意參與?!保ㄓ缣铮?/p>
東芝部分翻譯引擎介紹
2 BLEU值:將正確譯文與機器翻譯結果進(jìn)行比較,根據相似度對翻譯質(zhì)量進(jìn)行評估的指標。得分從0%到100%。得分越高,翻譯質(zhì)量越高。
首先,東芝團隊列出了翻譯引擎備選名單,其中包括RBMT、SMT、NMT等7種翻譯引擎,再征求NICT方面的意見(jiàn)和建議,選出最適合專(zhuān)利文檔的翻譯引擎。
“使用各個(gè)引擎翻譯1000多個(gè)文檔,評估每種引擎的精度以及在文章翻譯方面的優(yōu)點(diǎn)和缺點(diǎn)。只有自己親眼查看和對比這些翻譯結果,才能夠選出最佳方案?!保ㄎ鞅荆?/p>
“隨著(zhù)招標提案工作的推進(jìn),為了實(shí)現精準自然的翻譯效果,我們不斷優(yōu)化機器翻譯系統。
比如,RBMT適用于文檔前半部分和最尾端,NMT適用于文檔中間部分?;谶@種情況,要實(shí)現高質(zhì)量專(zhuān)利文檔翻譯,需要構建復雜的翻譯引擎。事實(shí)證明,全部使用單一翻譯引擎,是無(wú)法確保翻譯質(zhì)量的?!保ㄈ?/p>
每種引擎翻譯1000多個(gè)文檔,每個(gè)文檔的翻譯稿件都需要仔細檢查。通過(guò)這種笨拙的測試方法,我們最終發(fā)現:以NMT為主,合理使用RBMT和SMT的混合型翻譯引擎是最佳選擇。對于翻譯前后的處理工作,我們認為采用東芝長(cháng)期積累的自然語(yǔ)言處理技術(shù)更合適。這樣一來(lái),既引入了最先進(jìn)的NICT引擎,又能發(fā)揮出東芝在機器翻譯領(lǐng)域的優(yōu)勢。
二、升級機器翻譯機制 解決長(cháng)篇翻譯難題
經(jīng)過(guò)不懈努力,2018年4月,東芝數字解決方案株式會(huì )社在公開(kāi)競標中成功拿下機器翻譯系統訂單。以實(shí)現1年1個(gè)月后——2019年5月系統啟動(dòng)為目標,開(kāi)始了開(kāi)發(fā)工作。為了達到理想的翻譯效果,公司成立了兩個(gè)團隊,分別負責翻譯質(zhì)量和翻譯速度。
“我們要求的不僅僅是翻譯的質(zhì)量和速度,價(jià)格、成本等方面也必須通過(guò)評估。東芝數字解決方案株式會(huì )社不只使用最新的NMT翻譯引擎,還構建了完善的引擎支持系統,以確保翻譯引擎穩定運行。
我們對機器翻譯系統提出的要求是:不僅要保證翻譯質(zhì)量,還必須適用于專(zhuān)利信息平臺。顯然,逐句翻譯無(wú)法滿(mǎn)足要求,文章以幾頁(yè)為單位傳給機器翻譯系統,由翻譯系統進(jìn)行文檔分割,再并行進(jìn)行翻譯?!保亢冢?/p>
“一般來(lái)說(shuō),機器翻譯不擅長(cháng)翻譯長(cháng)句,句子越長(cháng),需要處理的時(shí)間就越多。使用預處理進(jìn)行長(cháng)句分割方法,能夠提高翻譯質(zhì)量。機器翻譯系統首先用RBMT對日語(yǔ)長(cháng)句結構進(jìn)行分析,在長(cháng)句中的意思轉折位置做標記。再將完成分割標記的文檔傳送到NICT的NMT中。這種無(wú)縫協(xié)作確保了翻譯速度和翻譯質(zhì)量?!保ㄎ鞅荆?/p>
在專(zhuān)利文檔中,當一個(gè)長(cháng)句被分成一行一句后,句子之間往往會(huì )夾雜一些無(wú)用的字符,比如:頁(yè)碼等。
機器翻譯長(cháng)句分割示例
“人工智能目前仍無(wú)法合并或分割句子。為了從細節方面提高整體翻譯質(zhì)量,必須先進(jìn)行‘文章結構分析’。深入分析文章結構的語(yǔ)言處理工作正需要東芝來(lái)完成?!保亢冢?/p>
三宅女士回顧項目時(shí)說(shuō):“毫無(wú)疑問(wèn),文章結構分析是本項目的重點(diǎn)之一”。比如,在翻譯系統構建過(guò)程中,出現了一個(gè)奇怪的翻譯結果,就是“Sunrise”(日出)這個(gè)單詞,這個(gè)單詞與專(zhuān)利內容毫不相干。對此,我們感到非常困惑,經(jīng)過(guò)調查,原因出乎所有人意料。
“專(zhuān)利文件經(jīng)常遇到下圖這種格式。由于前后兩段緊連在一起,變成了‘日出’這個(gè)詞,翻譯引擎順勢將其翻譯成‘Sunrise’。為消除這種錯譯,結構解析時(shí)需要進(jìn)行數百個(gè)處理。而且這種錯誤只能通過(guò)目視檢查的方式發(fā)現。一次分析就需要通讀200多份翻譯文檔,這依靠的是不畏艱辛的精神及巨大的體力投入?!保ㄈ?/p>
機器翻譯錯誤示例
在科技方面的專(zhuān)利文獻中,還可能會(huì )出現化學(xué)式和DNA序列。字母和數字羅列是導致誤譯的原因之一。事實(shí)上,NMT并不擅長(cháng)準確翻譯這類(lèi)字符串,經(jīng)常會(huì )出現“漏譯”和“冗余”(生成無(wú)關(guān)字符串)的情況。對此,三宅女士等人采用了“無(wú)需翻譯”的方式。具體機制是:從輸入的句子中識別出字符串,例如:化學(xué)公式和DNA序列等,先使用引擎翻譯字符串以外的部分,然后將翻譯結果與字符串合并,輸出最終的翻譯結果。這樣一來(lái),就避免了NMT特有的錯譯問(wèn)題。
“與RBMT相比,NMT和SMT的翻譯質(zhì)量更高,計算量也更大,因此需要更多的處理時(shí)間。以往,翻譯專(zhuān)利等長(cháng)篇文檔至少需要30分鐘。此次開(kāi)發(fā)的翻譯系統是面向瀏覽網(wǎng)頁(yè)的用戶(hù),需要提供實(shí)時(shí)在線(xiàn)翻譯,不能讓用戶(hù)在電腦前等待30分鐘。為提高翻譯速度,東芝團隊經(jīng)過(guò)反復試錯、調整,終于達到了滿(mǎn)意的翻譯速度?!保ㄎ鞅荆?/p>
三、持續優(yōu)化機器翻譯 開(kāi)發(fā)多語(yǔ)種翻譯系統
2019年5月,東芝推出日英翻譯功能。專(zhuān)利信息平臺(J-PlatPat)正式啟用文檔及日本專(zhuān)利公報的日英翻譯功能。國外專(zhuān)利審查員參考日本審查結果,日本人申請國外專(zhuān)利,翻譯專(zhuān)利參考文件時(shí),都可以使用此項翻譯功能。
“我們進(jìn)行了多種測試,比如平時(shí)不大可能有的大翻譯量的測試,不留任何小瑕疵,最終迎來(lái)了正式發(fā)布的時(shí)刻。剛剛發(fā)布后,我們就接到了用戶(hù)打來(lái)的電話(huà),用戶(hù)反饋說(shuō):‘這么高的翻譯質(zhì)量令我十分驚訝’。這種反饋是極為難得的,充分證明了翻譯準確度已得到顯著(zhù)提升。目前,該項目仍將持續進(jìn)行中,我們將會(huì )進(jìn)一步提升翻譯質(zhì)量和系統配置,以便處理更多語(yǔ)種,我非常有信心完成后半程的開(kāi)發(fā)工作?!保亢冢?/p>
“難得有機會(huì )了解到普通用戶(hù)的反饋,我真的非常高興。尤其感謝目黑先生以及專(zhuān)利廳的其他員工,向我們提出了很多寶貴意見(jiàn)。讓我深有感觸的是,專(zhuān)利廳、NICT、東芝數字解決方案株式會(huì )社能作為一個(gè)團隊,攜手并肩,朝著(zhù)提高翻譯質(zhì)量和速度的共同目標,不斷前行?!保ㄈ?/p>
“目前,我們正在開(kāi)發(fā)中日和韓日翻譯功能,我們的目標是在2020年4月正式發(fā)布機器翻譯系統。在翻譯引擎技術(shù)方面,我們向NICT的隅田先生反饋各種問(wèn)題,并及時(shí)進(jìn)行調整,同時(shí),我們的應用程序也在持續改善中。目前,機器翻譯的最終服務(wù)模式和理想形態(tài)還尚不明朗。我希望借助本項目獲取的知識經(jīng)驗,開(kāi)發(fā)出能夠滿(mǎn)足政府機關(guān)、研究機構、企業(yè)翻譯需求的解決方案”(西本)
“東芝開(kāi)發(fā)的機器翻譯系統在對安全性有要求的操作環(huán)境下也能正常工作,未來(lái)有望向其它領(lǐng)域拓展,比如:政府機關(guān)、以及制藥、金融、汽車(chē)等安全性要求高行業(yè),而且,這些行業(yè)的對譯數據已經(jīng)非常豐富。NICT表示,希望在高精度引擎技術(shù)轉讓方面,繼續與東芝開(kāi)展合作?!保ㄓ缣铮?/p>
專(zhuān)利廳發(fā)布的“全球最快、最高質(zhì)量”的審查支持系統是NICT和東芝的共同努力的結果,NICT的先進(jìn)翻譯引擎技術(shù)與東芝的自然語(yǔ)言處理技術(shù)堪稱(chēng)完美搭檔。不斷鞏固和發(fā)展這種合作伙伴關(guān)系,持續開(kāi)發(fā)語(yǔ)言翻譯系統,這讓我們得以窺見(jiàn)機器翻譯的未來(lái)。東芝一直致力于創(chuàng )新研發(fā)高科技產(chǎn)品,希望與不同行業(yè)的尖端科技型企業(yè)共同努力,碰撞火花,點(diǎn)亮未來(lái)無(wú)限可能。