現如今,日本等國家少子化與老齡化的日趨嚴重,勞動(dòng)力也變得越來(lái)越緊缺,工作方式的改革又需要業(yè)界提高生產(chǎn)效率。為同時(shí)解決這兩大難題,利用機器人實(shí)現業(yè)務(wù)自動(dòng)化的RPA(機器人流程自動(dòng)化)技術(shù)引起了社會(huì )廣泛關(guān)注。以金融業(yè)為主的各個(gè)行業(yè)已開(kāi)始引入RPA技術(shù),并取得了顯著(zhù)成果。比如說(shuō),實(shí)現了自動(dòng)創(chuàng )建文檔與錄入數據錄等功能。
目前,市面上已經(jīng)出現了能夠將語(yǔ)音自動(dòng)轉換成文字的人工智能軟件。但由于精準的文字轉換難度超出想象,對于會(huì )議、演講等記錄工作,我們不得不繼續采用人工方式。
我們該如何解決這一問(wèn)題呢?――東芝給出的方案是全新開(kāi)發(fā)的人工智能語(yǔ)音識別系統。
為了解人工智能語(yǔ)音識別系統的需求背景和開(kāi)發(fā)過(guò)程需要突破的技術(shù)難題,我們咨詢(xún)了東芝株式會(huì )社研究開(kāi)發(fā)中心的兩位負責人——蘆川先生與藤村先生。
一、快速準確地將語(yǔ)音轉換成文字,并通過(guò)清晰字幕實(shí)時(shí)顯示!
東芝一直致力于拓展智能媒體領(lǐng)域的業(yè)務(wù)(智能媒體是對人類(lèi)語(yǔ)音和圖像進(jìn)行知識處理,并加以靈活應用的技術(shù))。長(cháng)年積累的技術(shù)開(kāi)發(fā)經(jīng)驗極大地推動(dòng)了人工智能語(yǔ)音識別系統的開(kāi)發(fā)。
此次開(kāi)發(fā)項目的研討工作始于2015年。那一年恰逢“信息無(wú)障礙”環(huán)境建設的風(fēng)口,日本政府號召民眾,努力打造一個(gè)便于殘障人士無(wú)障礙地獲取各類(lèi)信息的社會(huì )環(huán)境。對此,東芝早早就開(kāi)始了通用設計產(chǎn)品和服務(wù)的開(kāi)發(fā)工作,建立了成熟的通用設計(UD)顧問(wèn)制度,并邀請身體有殘障的員工參與產(chǎn)品開(kāi)發(fā)。
蘆川先生表示:“聽(tīng)覺(jué)障礙人士的普遍心聲是希望實(shí)時(shí)參與會(huì )議和講演,而不是通過(guò)事后查看文字記錄的方式來(lái)了解會(huì )議與講演內容。我們的計劃是引入一個(gè)能夠自動(dòng)顯示實(shí)時(shí)文字信息的字幕,方便聽(tīng)覺(jué)障礙人士了解相關(guān)內容,從而幫助殘障人士實(shí)現‘信息獲取’與‘效率提升’兩大目標。人工智能語(yǔ)音識別系統的開(kāi)發(fā)工作正是朝著(zhù)這兩大目標進(jìn)行的?!保ㄌJ川先生)
株式會(huì )社東芝 研究開(kāi)發(fā)中心
人工智能媒體實(shí)驗室 研究主任 蘆川平
二、提高算法的準確度,語(yǔ)音識別率高達85%!
接觸過(guò)文字轉換的朋友都深有體會(huì ):將對話(huà)、講義及講演等語(yǔ)音忠實(shí)、完整地轉換成文字,反而會(huì )變成一篇晦澀難懂的文章。轉換后的文字信息會(huì )出現很多冗余的內容,比如:“嗯”、“那個(gè)”等無(wú)意義詞語(yǔ),以及對理解內容毫無(wú)幫助的隨聲附和語(yǔ)句等。
此次的人工智能語(yǔ)音識別系統能夠精準地識別出說(shuō)話(huà)人的語(yǔ)音,并且可以分辨出無(wú)意義的詞語(yǔ)和停頓部分。這一功能對于提高工作效率極為重要。人工智能的核心是算法,據說(shuō)為了提高算法的準確度,開(kāi)發(fā)團隊設立了各種各樣的課題并進(jìn)行了深入研究。
“在開(kāi)始階段,我們屢屢碰壁,發(fā)現提高識別精度是非常困難的一件事。我們的目的不在于開(kāi)發(fā)和研究本身。說(shuō)到底,我們的目的是為用戶(hù)帶來(lái)方便。通過(guò)采用日漸流行的LSTM1模型以及CTC學(xué)習2手段,能夠根據語(yǔ)音特征,識別出人類(lèi)特有的無(wú)意義詞語(yǔ)、停頓等部分”(藤村)
1 LSTM(長(cháng)短期記憶):RNN(遞歸神經(jīng)網(wǎng)絡(luò ))的一種高級形式,其隱藏層中含有遞歸結構。能夠對長(cháng)期依賴(lài)關(guān)系進(jìn)行學(xué)習,而這種學(xué)習能力是傳統RNN無(wú)法實(shí)現的。
2 CTC(聯(lián)結主義時(shí)間分類(lèi)):針對輸入輸出的序列長(cháng)度差異問(wèn)題,通過(guò)引入空字符和設計損失函數的方法,來(lái)導入RNN的手段。
株式會(huì )社東芝 研究開(kāi)發(fā)中心
人工智能媒體實(shí)驗室 主任研究員 藤村浩司
傳統的語(yǔ)音識別系統是采用分析波形的方法,將不同波形的語(yǔ)音確定為相應假名,例如:“ア”或“イ”等,然后進(jìn)行分析。但是,無(wú)意義詞語(yǔ)和停頓的波形千變萬(wàn)化,存在無(wú)數種形式,采用逐一分析的方式是無(wú)法窮盡的。
“無(wú)意義詞語(yǔ)是填充話(huà)語(yǔ)之間的空白部分,而停頓則是話(huà)語(yǔ)之間的休息片斷。通過(guò)LSTM模型能夠把話(huà)語(yǔ)中的這些部轉換為統計模型,然后再通過(guò)CTC對模型進(jìn)行識別訓練。這樣一來(lái),就能夠檢測出擁有無(wú)數種形式的無(wú)意義詞語(yǔ)、停頓部分了。
目前尚無(wú)一家公司能夠開(kāi)發(fā)出完全準確的語(yǔ)音識別系統。更廣闊的開(kāi)發(fā)空間和更高的技術(shù)等待著(zhù)我們去探索。我們的語(yǔ)音識別系統目前能夠支持日語(yǔ)、英語(yǔ)、漢語(yǔ)三種語(yǔ)言,但這遠遠不夠,我們的終極目標是讓不同語(yǔ)種的人士可以圍坐于圓桌旁輕松暢聊,讓科幻小說(shuō)和漫畫(huà)中的未來(lái)場(chǎng)景在現實(shí)中一一實(shí)現。當然,那需要超高的準確度,可以說(shuō)我們開(kāi)發(fā)工作就是讓夢(mèng)想照進(jìn)現實(shí)?!保ㄌ俅澹?/p>
目前,我們的人工智能語(yǔ)音識別系統識別精度很高,在同行業(yè)具有很大優(yōu)勢。當我們利用外部演講機會(huì )進(jìn)行實(shí)證(實(shí)際驗證)實(shí)驗時(shí),語(yǔ)音識別率平均達到85%。而且無(wú)需對識別結果進(jìn)行編輯,也不需要相關(guān)人員事先進(jìn)行學(xué)習,就能理解發(fā)言?xún)热?/span>。未來(lái)我們將繼續提高語(yǔ)音識別準確度,研討如何將其應用到人工智能交流系統「RECAIUS?」領(lǐng)域。
我們也在進(jìn)行相關(guān)應用程序的開(kāi)發(fā)。比如說(shuō),面向聽(tīng)覺(jué)障礙人士開(kāi)發(fā)的實(shí)時(shí)字幕顯示功能。由人工智能檢測出的無(wú)意義詞語(yǔ)和停頓并不是被全部刪除掉,而是以淺色字體形式顯示在字幕中,讓聽(tīng)覺(jué)障礙人士意識到這些詞語(yǔ)的存在。這是充分聽(tīng)取殘障人士們的意見(jiàn)后,從他們的角度出發(fā),制定的精細化字幕顯示方案。
聲音自動(dòng)字幕系統(左)和字幕顯示圖像(右)
“對我們而言,像‘嗯’、‘那個(gè)’這種無(wú)意義詞語(yǔ)只是會(huì )影響我們的閱讀。但是,聽(tīng)覺(jué)障礙人士希望獲取到完整的信息。他們通常是跟隨說(shuō)話(huà)人的嘴唇運動(dòng)來(lái)閱讀字幕,如果將無(wú)意義詞語(yǔ)和停頓部分刪除,就會(huì )給他們帶來(lái)‘好像說(shuō)了些什么,但字幕上沒(méi)有顯示’的感受,從而產(chǎn)生焦躁情緒。
因此,我們將無(wú)意義詞語(yǔ)和停頓部分也保留在字幕中,但為方便閱讀,將這些部分顯示為淺色字體。當我們需要保存記錄時(shí),可以刪掉這些部分,制作成一份簡(jiǎn)潔的文檔?!保ㄌJ川先生)
三、用于制造業(yè)的人工智能已見(jiàn)雛形,在生產(chǎn)現場(chǎng)發(fā)揮真正的價(jià)值!
2019年3月,我們有幸與DWANGO株式會(huì )社合作,通過(guò)NICONICO網(wǎng)站對“第81屆信息處理學(xué)會(huì )全國大會(huì )”的實(shí)況進(jìn)行現場(chǎng)直播,此次直播采用了帶有實(shí)時(shí)字幕的視頻形式。
為了早日投入商業(yè)使用,東芝開(kāi)發(fā)團隊正在努力提高人工智能語(yǔ)音系統的識別準確度和各項功能。此外,東芝面向的不僅是辦公業(yè)務(wù),還包括生產(chǎn)現場(chǎng)。
“現實(shí)情況是,幾乎所有辦公環(huán)境都未將人工智能語(yǔ)音識別系統作為一項服務(wù)加以靈活應用。在我看來(lái)最理想的狀態(tài)是,人工智能語(yǔ)音識別系統能夠得到用戶(hù)信賴(lài)而被廣泛應用,最終成為一項日常業(yè)務(wù)。比如說(shuō),我現在所說(shuō)的這些話(huà)能夠被完整地識別,并且記錄成業(yè)務(wù)級別的文檔形式,同時(shí)還能根據發(fā)言人的不同,分辨并區別記錄。我們要實(shí)現的目標正是這種方便可靠的人工智能語(yǔ)音識別系統”(蘆川先生)
“目前,語(yǔ)音識別業(yè)務(wù)并不普及,生產(chǎn)現場(chǎng)也是如此。但是,在維修檢查時(shí),以及工廠(chǎng)的某些特定場(chǎng)景,確實(shí)需要用免提電話(huà)記錄聲音。在這種情況下,人工智能語(yǔ)音識別系統一定會(huì )大顯身手的。將語(yǔ)音識別系統無(wú)縫融入生產(chǎn)現場(chǎng),便于工人們將產(chǎn)生于現場(chǎng)的智慧與經(jīng)驗記錄和傳遞。當然,這需要進(jìn)行長(cháng)期的語(yǔ)音識別系統開(kāi)發(fā),并在生產(chǎn)及基礎設施現場(chǎng)積累足夠的知識經(jīng)驗后才能夠實(shí)現。我認為這正是東芝開(kāi)發(fā)語(yǔ)音識別系統的根本目的之一?!保ㄌ俅澹?/p>
目前,日本存在著(zhù)勞動(dòng)力緊缺的問(wèn)題。預計進(jìn)入“2020年代”后,勞動(dòng)力緊缺問(wèn)題將更加嚴重。我們的當務(wù)之急是節省人力,提高生產(chǎn)效率,確保聽(tīng)覺(jué)障礙人士順利獲取信息。在未來(lái),辦公環(huán)境和生產(chǎn)現場(chǎng)對于人工智能語(yǔ)音識別系統的需求一定會(huì )不斷增長(cháng),人工智能語(yǔ)音識別系統必將大展身手。