瀏覽量:74次
作者 | Alexander Kuznetsov
譯者 | 彎月,責(zé)編 | 夕顏
出品 | CSDN(ID:CSDNnews)
機器人比人類更加適合簡單的勞動密集型任務(wù),因此我們可以積極使用機器人來處理日常的常規(guī)操作。自動化的應(yīng)用很廣泛,包括與客戶在電話中交談。
在本文中,我們就來談一談如何通過語音識別分辨通話者的性別,并處理對話的技術(shù)和細節(jié)。
首先,我們討論一個業(yè)務(wù)案例,然后將詳細討論技術(shù)。
我介紹一個最有趣的業(yè)務(wù)案例:引入語音機器人取代呼叫中心的員工。這個機器人的功能不是執(zhí)行常規(guī)任務(wù)(例如確認送貨地址),而是找出為什么有些客戶訪問公司網(wǎng)站的次數(shù)減少了。
這項技術(shù)基于功能完整的神經(jīng)網(wǎng)絡(luò),而不是僅靠某個腳本。神經(jīng)網(wǎng)絡(luò)幫助機器人解決了常常費解的一些問題。這里,我指的是對話者給出這樣的回答:“呃,我不知道,也許是,也許不是吧”,或者“呃,也許吧,可能不是?!币恍┤祟惓S玫谋磉_方式卻會成為機器人無法逾越的障礙。
經(jīng)過訓(xùn)練后,機器人能夠明白不同短語的含義以及可能的答案。機器人能夠發(fā)出多種聲音,包括男性和女性的聲音。我們的主要任務(wù)是讓機器人更像一個活人,跟它對話的人類不會測試機器本身的功能,而是在目標(biāo)場景的背景下進行對話。
以下是一個結(jié)果的示例。
這個機器人能夠聽取對話者的聲音,并給出有意義的答案。該對話腳本的不同分支總數(shù)超過一千。
這個機器人的主要目的是了解公司網(wǎng)站上客戶活動減少的原因,并為客戶提供有意義的報價。這是該公司首次實現(xiàn)呼叫中心自動化的一次嘗試。
新機器人的效果得到了顯著提升。
下面,我們來談?wù)劵镜募夹g(shù)。
確保機器人性能的三項關(guān)鍵技術(shù)為:
通過語音識別對話者的性別年齡識別管理與人類的對話我們開發(fā)這個功能是為了利用機器人進行問卷調(diào)查。以前,問卷調(diào)查都是要求人們填寫調(diào)查的問題。例如,問卷上必須標(biāo)明對話者的性別。顯然,人類面試官無需詢問交談的對方是男人還是女人。在99%的情況下,都不會出錯。然而,對于機器人,情況就會有所不同。為了讓機器人學(xué)會準(zhǔn)確地識別聲音,開發(fā)人員不得不解決許多問題。這項工作并沒有白費,如今的技術(shù)可以根據(jù)性別設(shè)置個性化的語音提示。
重要的一點是:女性聲音具有普遍性,適用于處理最廣泛的產(chǎn)品,對于女性產(chǎn)品尤其重要。根據(jù)各種研究,任何聽眾聽到女性的聲音都會感覺很舒服,因此轉(zhuǎn)換成女性聲音的效果更好。例外情況是宣傳男性產(chǎn)品的運動,這時男性的聲音更好。
這種機器人是如何實現(xiàn)的?首先,根據(jù)語音記錄和持續(xù)20 ms的片段處理來執(zhí)行主要數(shù)據(jù)處理。使用VAD(語音活動檢測)組件對所有收集的語音片段進行預(yù)處理。這一步非常必要,通過這一步我們可以將語音與噪聲分離。刪除了所有不必要的元素,從而提高了模型的準(zhǔn)確性。
然后,采用一階/二階微分的倒頻譜系數(shù)空間識別聲音。GMM(高斯混合模型)方法是這種方法的基礎(chǔ)。
因此,我們采用10–20 ms的間隔并計算當(dāng)前的功率譜,然后使用傅里葉逆變換對頻譜的對數(shù)進行搜索,并尋找必要的系數(shù)。
我們的GMM模型可分別使用男性和女性聲音進行訓(xùn)練,還可以使用模型來分辨成人和兒童的聲音。當(dāng)然,訓(xùn)練系統(tǒng)不能什么都沒有,你需要標(biāo)記過的語音錄音。
為了提高系統(tǒng)的效率,我們使用音色語音模型的系數(shù):
音色清晰度音色溫暖度音色亮度音色深度音色穩(wěn)定性音色增長音色不均音色回聲我們需要使用音色模型來正確識別孩子的聲音,因為其他模型都將孩子的聲音視為女性。此外,你還需要區(qū)分低沉的女性聲音(例如,吸煙的老年婦女的聲音),男性聲音較高的聲音等。順便說一句,如果一個人說“你好”然后咳嗽,那么以前所有不帶音色過濾器的模型都會將這種聲音視為男性。
該系統(tǒng)的主要組件是基于MLP多層感知器的數(shù)據(jù)分類模塊。它可以接收來自男性和女性聲音模型的數(shù)據(jù)以及來自音色模型的數(shù)據(jù)。系統(tǒng)接收預(yù)分類值的數(shù)組作為輸入,然后輸出分辨性別的結(jié)果。
這種技術(shù)可用于在線(根據(jù)客戶的第一句話)和離線分類模式(在對話之后)。性別識別準(zhǔn)確率約為95%。值得一提的是,在線工作時的延遲不會超過120–150 ms,只有這樣機器人才能更像人一樣。通常,機器人與人交流時的停頓會長達幾秒,人類會對這種行為感到奇怪,立即就能判斷出對方使用了數(shù)字系統(tǒng)。
開發(fā)人員還在添加處理文本的功能。如果對話者提及自己是女性,那么對話者肯定是女性。在不久的將來,我們將改進這項技術(shù)并將其集成到識別系統(tǒng)中。
確定對話者的年齡
這項技術(shù)主要是為了防止向未成年人提供各種產(chǎn)品和服務(wù)。此外,了解年齡對于按年齡類別個性化報價非常有用。
我們采用了與前面的情況完全相同的技術(shù)。系統(tǒng)的準(zhǔn)確性約為90%。
構(gòu)造對話
接下來,我們來討論最有趣的部分:構(gòu)造對話的原理。
這項技術(shù)的主要目的是有效地替換人類,機器人必須能夠處理線性和非線性對話場景。第一種情況指的是問卷調(diào)查等;第二種可以是呼叫中心、技術(shù)支持服務(wù)等與用戶的交互。
工作原理:我們使用基于語義分析的NLU引擎,從ASR系統(tǒng)接收文本。然后,定義構(gòu)造對話流的邏輯中使用的識別對象,例如實體和意圖。
舉例說明這些技術(shù)的使用。
我們從語音識別系統(tǒng)(ASR)收到如下文本:
“總的來說,我對您的推薦很感興趣,但是我希望價格能再便宜一點。我現(xiàn)在有點忙。你能在明天六點再給我打個電話嗎?”
使用NLU引擎填充的對象:
意圖:
確認=真異議=昂貴問題=回電=真錯誤的時間=真實體:
日期=2019年1月2日(假設(shè)通話日期為2019年1月1日)時間= 18:00數(shù)量= 6在這個示例中,填充對象的方法如下:
意圖:
“我對您的推薦感興趣”轉(zhuǎn)換為“確認”意圖,值為“真”?!暗俏蚁M麅r格能再便宜一點”轉(zhuǎn)換為“異議”,意思是“昂貴”。“我現(xiàn)在有點忙”轉(zhuǎn)換為“錯誤的時間”,值為“真”?!澳隳茉诿魈炝c再給我打個電話嗎?”轉(zhuǎn)換為“回電”,值為“真”。用戶沒有提出任何問題,因此“問題”的意圖為空。實體:
文本“明天”自動轉(zhuǎn)換為“2019年1月2日”的實體,計算公式為:目前的日期 1(假設(shè)通話日期為2019年1月1日)。文本“六點”自動轉(zhuǎn)換為“時間”實體,值為“下午6:00”。文本“六”轉(zhuǎn)換為值為“6”的“數(shù)量”實體,由于存在較高優(yōu)先級的實體,因此在此邏輯中可以將其忽略。現(xiàn)在,所有的意圖和實體都分配了特定的值,接下來我們來構(gòu)建對話流程。
首先,我們來看看NLU Engine支持的算法。該系統(tǒng)包括兩個級別。
第一層使用相對較小的數(shù)據(jù)樣本,其中包含大約600–1,000條記錄。此處使用機器學(xué)習(xí)算法,識別準(zhǔn)確度為90%–95%。
在啟動該項目并積累100萬條以上記錄的大量數(shù)據(jù)之后,我們進行第二級的轉(zhuǎn)換。此處使用DL算法。識別準(zhǔn)確度為95%–98%。
該解決方案與以下兩個子系統(tǒng)一起使用:
用于文本數(shù)據(jù)分類的子系統(tǒng)對話設(shè)計子系統(tǒng)這兩個子系統(tǒng)并行工作。分類和分類系統(tǒng)根據(jù)與用戶的語音通話接收識別的文本,并通過Entity和Value參數(shù)構(gòu)造答復(fù)。
非線性場景的對話構(gòu)建子系統(tǒng)是基于神經(jīng)網(wǎng)絡(luò)構(gòu)建的。該系統(tǒng)根據(jù)與用戶的語音通話接收識別的文本,并發(fā)出有關(guān)應(yīng)在下一個時刻播放哪些錄音的決定。
非線性方案適用于機器人不知道誰在打電話,不知道用戶對哪個產(chǎn)品感興趣,也不知道可能被問及哪些問題。此時,通話的推進取決于客戶的響應(yīng)。
但是,在撥出電話的時候,線性方案才是最佳解決方案。本文的開頭給出了相應(yīng)的示例。線性場景的另一個示例與調(diào)查有關(guān),這種情況下客戶的回答無關(guān)緊要,因為我們會對客戶的回答做一步的分析。但是,重要的是引導(dǎo)客戶回答問卷上的所有問題。
總的來說,我們要強調(diào)的是,語音機器人不會取代人類。如今,機器人能夠勝任打電話詢問一些問題,并聆聽、記錄和/或分析答案。希望借此將呼叫中心和技術(shù)支持的操作員從日復(fù)一日的例行工作中解放出來,讓他們專心解決真正有趣的問題以及重要的任務(wù)。
原文鏈接:
本文為CSDN翻譯文章,轉(zhuǎn)載請注明出處。
?AI 時代,為什么程序員很貴?
?“生命游戲之父”因新冠肺炎逝世,回顧數(shù)學(xué)頑童的一生
?天吶,你竟然還在用 try–catch-finally
?北京四環(huán)堵車引發(fā)的智能交通大構(gòu)想
?你公司的虛擬機還閑著?基于Jenkins和Kubernetes的持續(xù)集成測試實踐了解一下!
?:詳析這些年互聯(lián)網(wǎng)的發(fā)展及未來方向
[聲明]本網(wǎng)轉(zhuǎn)載網(wǎng)絡(luò)媒體稿件是為了傳播更多的信息,此類稿件不代表本網(wǎng)觀點,本網(wǎng)不承擔(dān)此類稿件侵權(quán)行為的連帶責(zé)任。故此,如果您發(fā)現(xiàn)本網(wǎng)站的內(nèi)容侵犯了您的版權(quán),請您的相關(guān)內(nèi)容發(fā)至此郵箱【779898168@qq.com】,我們在確認后,會立即刪除,保證您的版權(quán)。
官網(wǎng)優(yōu)化
整站優(yōu)化
渠道代理
400-655-5776