亞馬遜Alexa部門的研究人員最近發(fā)布了兩篇關(guān)于語音識別的論文，遠程語音識別的頻域多聲道聲學(xué)模型和遠程語音識別的多幾何空間聲學(xué)模型，（這兩篇論文將于下月在布萊頓舉行的第44屆ICASSP國際聲學(xué)、語音與信號處理會議上發(fā)表）。論文中他們提出了一種新的聲學(xué)建�？蚣埽ㄟ^優(yōu)化語音增強和語音識別并統(tǒng)一其優(yōu)化過程，從而達到提高性能的目的。在實驗中，當(dāng)使用新模型的雙麥克風(fēng)系統(tǒng)相對于使用現(xiàn)有波束成形技術(shù)的七麥克風(fēng)系統(tǒng)，語音識別誤差率降低了9.5％。

　　多麥克風(fēng)陣列的優(yōu)劣勢

　　據(jù)悉目前通過多麥克風(fēng)陣列提高語音識別準確率已然流行許久。這也是目前最行之有效的一個方式，但是有利就有弊，傳統(tǒng)的多麥克風(fēng)陣列僅解決語音增強問題，或者將語音與噪聲分離。而語音識別這個問題則被單拎出來獨立解決。相關(guān)實驗結(jié)果表明，這種方法所取得的效果并不太好。

　　亞馬遜研究人員開發(fā)新聲學(xué)模型框架

　　此次亞馬遜的研究人員開發(fā)的新聲學(xué)模型框架，有望改寫這一現(xiàn)狀，他們在論文中描述了一種多傳聲器方法，它取代了確定波束形成器（在傳感器輸出上操作的空間濾波器，以增強波的振幅）方向和用單個神經(jīng)網(wǎng)絡(luò)識別語音信號的單獨的手工編碼算法。亞馬遜目前的回聲揚聲器系列可以動態(tài)調(diào)整波束形成器以適應(yīng)新的聲學(xué)環(huán)境。但是，通過在不同環(huán)境下的大型語料庫上訓(xùn)練單個模型，研究人員能夠去掉適應(yīng)步驟。

　　傳統(tǒng)技術(shù)旨在將單個[聲束]轉(zhuǎn)向任意方向，但這是一種計算密集型的方法，”Alexa語音小組的語音科學(xué)家Kenichi Kumatani在一篇博客文章中解釋道。“使用Echo智能揚聲器，我們將多個波束形成器指向不同的方向，并確定產(chǎn)生最清晰語音信號的波束形成器……這就是為什么Alexa可以理解您的天氣預(yù)報請求，即使電視噪音就在離你很近的地方。”

　　單神經(jīng)網(wǎng)絡(luò)和傳統(tǒng)模型都將波束形成器的輸出以對數(shù)濾波器組能量的形式傳遞給特征提取器，或者以多個不規(guī)則頻段的信號能量快照進行傳遞。在傳統(tǒng)模型中，它們根據(jù)背景噪聲的估算進行歸一化，抽取器的輸出被傳遞給一個人工智能系統(tǒng)，該系統(tǒng)用于計算不同語音信息的短單位相對應(yīng)的特征。

　　根據(jù)論文作者的觀點，如果模型的每個組件（例如，特征抽取器和波束形成器）分別初始化，性能就會提高。他們補充說，不同的培訓(xùn)數(shù)據(jù)使模型能夠處理不同設(shè)備類型的麥克風(fēng)配置范圍。

　　Kumatani說：“除其他優(yōu)點外，這意味著新設(shè)備的ASR系統(tǒng)，或使用較少的設(shè)備，可以從更廣泛采用的設(shè)備生成的交互數(shù)據(jù)中獲益。”

　　論文地址：（回復(fù)亞馬遜也可直接獲取百度云鏈接）

　　https://arxiv.org/pdf/1903.06539.pdf

　　https://arxiv.org/pdf/1903.05299.pdf

　　當(dāng)然更多技術(shù)細節(jié)可以點擊下方原文鏈接

　　https://developer。amazon。com/zh/blogs/alexa/post/c47b5538-732c-4cb9-980f-14d79f91c6b9/joint-training-on-speech-signal-isolation-and-speech-recognition-improves-performance

亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩,日本久久久久,日本-区二区三区免费精品,中文字幕日本亚洲欧美不卡

亞馬遜Alexa再出黑科技：推出新語音識別系統(tǒng)能使準確率提升9.5%

評論排行

推薦閱讀

專題

大家都在看

CTI論壇會員企業(yè)