現(xiàn)如今,日本等國(guó)家少子化與老齡化的日趨嚴(yán)重,勞動(dòng)力也變得越來(lái)越緊缺,工作方式的改革又需要業(yè)界提高生產(chǎn)效率。為同時(shí)解決這兩大難題,利用機(jī)器人實(shí)現(xiàn)業(yè)務(wù)自動(dòng)化的RPA(機(jī)器人流程自動(dòng)化)技術(shù)引起了社會(huì)廣泛關(guān)注。以金融業(yè)為主的各個(gè)行業(yè)已開(kāi)始引入RPA技術(shù),并取得了顯著成果。比如說(shuō),實(shí)現(xiàn)了自動(dòng)創(chuàng)建文檔與錄入數(shù)據(jù)錄等功能。
目前,市面上已經(jīng)出現(xiàn)了能夠?qū)⒄Z(yǔ)音自動(dòng)轉(zhuǎn)換成文字的人工智能軟件。但由于精準(zhǔn)的文字轉(zhuǎn)換難度超出想象,對(duì)于會(huì)議、演講等記錄工作,我們不得不繼續(xù)采用人工方式。
我們?cè)撊绾谓鉀Q這一問(wèn)題呢?――東芝給出的方案是全新開(kāi)發(fā)的人工智能語(yǔ)音識(shí)別系統(tǒng)。
為了解人工智能語(yǔ)音識(shí)別系統(tǒng)的需求背景和開(kāi)發(fā)過(guò)程需要突破的技術(shù)難題,我們咨詢了東芝株式會(huì)社研究開(kāi)發(fā)中心的兩位負(fù)責(zé)人——蘆川先生與藤村先生。
一、快速準(zhǔn)確地將語(yǔ)音轉(zhuǎn)換成文字,并通過(guò)清晰字幕實(shí)時(shí)顯示!
東芝一直致力于拓展智能媒體領(lǐng)域的業(yè)務(wù)(智能媒體是對(duì)人類語(yǔ)音和圖像進(jìn)行知識(shí)處理,并加以靈活應(yīng)用的技術(shù))。長(zhǎng)年積累的技術(shù)開(kāi)發(fā)經(jīng)驗(yàn)極大地推動(dòng)了人工智能語(yǔ)音識(shí)別系統(tǒng)的開(kāi)發(fā)。
此次開(kāi)發(fā)項(xiàng)目的研討工作始于2015年。那一年恰逢“信息無(wú)障礙”環(huán)境建設(shè)的風(fēng)口,日本政府號(hào)召民眾,努力打造一個(gè)便于殘障人士無(wú)障礙地獲取各類信息的社會(huì)環(huán)境。對(duì)此,東芝早早就開(kāi)始了通用設(shè)計(jì)產(chǎn)品和服務(wù)的開(kāi)發(fā)工作,建立了成熟的通用設(shè)計(jì)(UD)顧問(wèn)制度,并邀請(qǐng)身體有殘障的員工參與產(chǎn)品開(kāi)發(fā)。
蘆川先生表示:“聽(tīng)覺(jué)障礙人士的普遍心聲是希望實(shí)時(shí)參與會(huì)議和講演,而不是通過(guò)事后查看文字記錄的方式來(lái)了解會(huì)議與講演內(nèi)容。我們的計(jì)劃是引入一個(gè)能夠自動(dòng)顯示實(shí)時(shí)文字信息的字幕,方便聽(tīng)覺(jué)障礙人士了解相關(guān)內(nèi)容,從而幫助殘障人士實(shí)現(xiàn)‘信息獲取’與‘效率提升’兩大目標(biāo)。人工智能語(yǔ)音識(shí)別系統(tǒng)的開(kāi)發(fā)工作正是朝著這兩大目標(biāo)進(jìn)行的?!保ㄌJ川先生)
株式會(huì)社東芝 研究開(kāi)發(fā)中心
人工智能媒體實(shí)驗(yàn)室 研究主任 蘆川平
二、提高算法的準(zhǔn)確度,語(yǔ)音識(shí)別率高達(dá)85%!
接觸過(guò)文字轉(zhuǎn)換的朋友都深有體會(huì):將對(duì)話、講義及講演等語(yǔ)音忠實(shí)、完整地轉(zhuǎn)換成文字,反而會(huì)變成一篇晦澀難懂的文章。轉(zhuǎn)換后的文字信息會(huì)出現(xiàn)很多冗余的內(nèi)容,比如:“嗯”、“那個(gè)”等無(wú)意義詞語(yǔ),以及對(duì)理解內(nèi)容毫無(wú)幫助的隨聲附和語(yǔ)句等。
此次的人工智能語(yǔ)音識(shí)別系統(tǒng)能夠精準(zhǔn)地識(shí)別出說(shuō)話人的語(yǔ)音,并且可以分辨出無(wú)意義的詞語(yǔ)和停頓部分。這一功能對(duì)于提高工作效率極為重要。人工智能的核心是算法,據(jù)說(shuō)為了提高算法的準(zhǔn)確度,開(kāi)發(fā)團(tuán)隊(duì)設(shè)立了各種各樣的課題并進(jìn)行了深入研究。
“在開(kāi)始階段,我們屢屢碰壁,發(fā)現(xiàn)提高識(shí)別精度是非常困難的一件事。我們的目的不在于開(kāi)發(fā)和研究本身。說(shuō)到底,我們的目的是為用戶帶來(lái)方便。通過(guò)采用日漸流行的LSTM1模型以及CTC學(xué)習(xí)2手段,能夠根據(jù)語(yǔ)音特征,識(shí)別出人類特有的無(wú)意義詞語(yǔ)、停頓等部分”(藤村)
1 LSTM(長(zhǎng)短期記憶):RNN(遞歸神經(jīng)網(wǎng)絡(luò))的一種高級(jí)形式,其隱藏層中含有遞歸結(jié)構(gòu)。能夠?qū)﹂L(zhǎng)期依賴關(guān)系進(jìn)行學(xué)習(xí),而這種學(xué)習(xí)能力是傳統(tǒng)RNN無(wú)法實(shí)現(xiàn)的。
2 CTC(聯(lián)結(jié)主義時(shí)間分類):針對(duì)輸入輸出的序列長(zhǎng)度差異問(wèn)題,通過(guò)引入空字符和設(shè)計(jì)損失函數(shù)的方法,來(lái)導(dǎo)入RNN的手段。
株式會(huì)社東芝 研究開(kāi)發(fā)中心
人工智能媒體實(shí)驗(yàn)室 主任研究員 藤村浩司
傳統(tǒng)的語(yǔ)音識(shí)別系統(tǒng)是采用分析波形的方法,將不同波形的語(yǔ)音確定為相應(yīng)假名,例如:“ア”或“イ”等,然后進(jìn)行分析。但是,無(wú)意義詞語(yǔ)和停頓的波形千變?nèi)f化,存在無(wú)數(shù)種形式,采用逐一分析的方式是無(wú)法窮盡的。
“無(wú)意義詞語(yǔ)是填充話語(yǔ)之間的空白部分,而停頓則是話語(yǔ)之間的休息片斷。通過(guò)LSTM模型能夠把話語(yǔ)中的這些部轉(zhuǎn)換為統(tǒng)計(jì)模型,然后再通過(guò)CTC對(duì)模型進(jìn)行識(shí)別訓(xùn)練。這樣一來(lái),就能夠檢測(cè)出擁有無(wú)數(shù)種形式的無(wú)意義詞語(yǔ)、停頓部分了。
目前尚無(wú)一家公司能夠開(kāi)發(fā)出完全準(zhǔn)確的語(yǔ)音識(shí)別系統(tǒng)。更廣闊的開(kāi)發(fā)空間和更高的技術(shù)等待著我們?nèi)ヌ剿?。我們的語(yǔ)音識(shí)別系統(tǒng)目前能夠支持日語(yǔ)、英語(yǔ)、漢語(yǔ)三種語(yǔ)言,但這遠(yuǎn)遠(yuǎn)不夠,我們的終極目標(biāo)是讓不同語(yǔ)種的人士可以圍坐于圓桌旁輕松暢聊,讓科幻小說(shuō)和漫畫(huà)中的未來(lái)場(chǎng)景在現(xiàn)實(shí)中一一實(shí)現(xiàn)。當(dāng)然,那需要超高的準(zhǔn)確度,可以說(shuō)我們開(kāi)發(fā)工作就是讓夢(mèng)想照進(jìn)現(xiàn)實(shí)。”(藤村)
目前,我們的人工智能語(yǔ)音識(shí)別系統(tǒng)識(shí)別精度很高,在同行業(yè)具有很大優(yōu)勢(shì)。當(dāng)我們利用外部演講機(jī)會(huì)進(jìn)行實(shí)證(實(shí)際驗(yàn)證)實(shí)驗(yàn)時(shí),語(yǔ)音識(shí)別率平均達(dá)到85%。而且無(wú)需對(duì)識(shí)別結(jié)果進(jìn)行編輯,也不需要相關(guān)人員事先進(jìn)行學(xué)習(xí),就能理解發(fā)言內(nèi)容。未來(lái)我們將繼續(xù)提高語(yǔ)音識(shí)別準(zhǔn)確度,研討如何將其應(yīng)用到人工智能交流系統(tǒng)「RECAIUS?」領(lǐng)域。
我們也在進(jìn)行相關(guān)應(yīng)用程序的開(kāi)發(fā)。比如說(shuō),面向聽(tīng)覺(jué)障礙人士開(kāi)發(fā)的實(shí)時(shí)字幕顯示功能。由人工智能檢測(cè)出的無(wú)意義詞語(yǔ)和停頓并不是被全部刪除掉,而是以淺色字體形式顯示在字幕中,讓聽(tīng)覺(jué)障礙人士意識(shí)到這些詞語(yǔ)的存在。這是充分聽(tīng)取殘障人士們的意見(jiàn)后,從他們的角度出發(fā),制定的精細(xì)化字幕顯示方案。
聲音自動(dòng)字幕系統(tǒng)(左)和字幕顯示圖像(右)
“對(duì)我們而言,像‘嗯’、‘那個(gè)’這種無(wú)意義詞語(yǔ)只是會(huì)影響我們的閱讀。但是,聽(tīng)覺(jué)障礙人士希望獲取到完整的信息。他們通常是跟隨說(shuō)話人的嘴唇運(yùn)動(dòng)來(lái)閱讀字幕,如果將無(wú)意義詞語(yǔ)和停頓部分刪除,就會(huì)給他們帶來(lái)‘好像說(shuō)了些什么,但字幕上沒(méi)有顯示’的感受,從而產(chǎn)生焦躁情緒。
因此,我們將無(wú)意義詞語(yǔ)和停頓部分也保留在字幕中,但為方便閱讀,將這些部分顯示為淺色字體。當(dāng)我們需要保存記錄時(shí),可以刪掉這些部分,制作成一份簡(jiǎn)潔的文檔?!保ㄌJ川先生)
三、用于制造業(yè)的人工智能已見(jiàn)雛形,在生產(chǎn)現(xiàn)場(chǎng)發(fā)揮真正的價(jià)值!
2019年3月,我們有幸與DWANGO株式會(huì)社合作,通過(guò)NICONICO網(wǎng)站對(duì)“第81屆信息處理學(xué)會(huì)全國(guó)大會(huì)”的實(shí)況進(jìn)行現(xiàn)場(chǎng)直播,此次直播采用了帶有實(shí)時(shí)字幕的視頻形式。
為了早日投入商業(yè)使用,東芝開(kāi)發(fā)團(tuán)隊(duì)正在努力提高人工智能語(yǔ)音系統(tǒng)的識(shí)別準(zhǔn)確度和各項(xiàng)功能。此外,東芝面向的不僅是辦公業(yè)務(wù),還包括生產(chǎn)現(xiàn)場(chǎng)。
“現(xiàn)實(shí)情況是,幾乎所有辦公環(huán)境都未將人工智能語(yǔ)音識(shí)別系統(tǒng)作為一項(xiàng)服務(wù)加以靈活應(yīng)用。在我看來(lái)最理想的狀態(tài)是,人工智能語(yǔ)音識(shí)別系統(tǒng)能夠得到用戶信賴而被廣泛應(yīng)用,最終成為一項(xiàng)日常業(yè)務(wù)。比如說(shuō),我現(xiàn)在所說(shuō)的這些話能夠被完整地識(shí)別,并且記錄成業(yè)務(wù)級(jí)別的文檔形式,同時(shí)還能根據(jù)發(fā)言人的不同,分辨并區(qū)別記錄。我們要實(shí)現(xiàn)的目標(biāo)正是這種方便可靠的人工智能語(yǔ)音識(shí)別系統(tǒng)”(蘆川先生)
“目前,語(yǔ)音識(shí)別業(yè)務(wù)并不普及,生產(chǎn)現(xiàn)場(chǎng)也是如此。但是,在維修檢查時(shí),以及工廠的某些特定場(chǎng)景,確實(shí)需要用免提電話記錄聲音。在這種情況下,人工智能語(yǔ)音識(shí)別系統(tǒng)一定會(huì)大顯身手的。將語(yǔ)音識(shí)別系統(tǒng)無(wú)縫融入生產(chǎn)現(xiàn)場(chǎng),便于工人們將產(chǎn)生于現(xiàn)場(chǎng)的智慧與經(jīng)驗(yàn)記錄和傳遞。當(dāng)然,這需要進(jìn)行長(zhǎng)期的語(yǔ)音識(shí)別系統(tǒng)開(kāi)發(fā),并在生產(chǎn)及基礎(chǔ)設(shè)施現(xiàn)場(chǎng)積累足夠的知識(shí)經(jīng)驗(yàn)后才能夠?qū)崿F(xiàn)。我認(rèn)為這正是東芝開(kāi)發(fā)語(yǔ)音識(shí)別系統(tǒng)的根本目的之一?!保ㄌ俅澹?/p>
目前,日本存在著勞動(dòng)力緊缺的問(wèn)題。預(yù)計(jì)進(jìn)入“2020年代”后,勞動(dòng)力緊缺問(wèn)題將更加嚴(yán)重。我們的當(dāng)務(wù)之急是節(jié)省人力,提高生產(chǎn)效率,確保聽(tīng)覺(jué)障礙人士順利獲取信息。在未來(lái),辦公環(huán)境和生產(chǎn)現(xiàn)場(chǎng)對(duì)于人工智能語(yǔ)音識(shí)別系統(tǒng)的需求一定會(huì)不斷增長(zhǎng),人工智能語(yǔ)音識(shí)別系統(tǒng)必將大展身手。