連續(xù)三次奪冠！

　　五四青年節(jié)當(dāng)日，國(guó)際多通道語(yǔ)音分離和識(shí)別大賽（CHiME）組委會(huì)在線揭曉最新一屆CHiME-6成績(jī)：

　　科大訊飛聯(lián)合中科大語(yǔ)音及語(yǔ)言信息處理國(guó)家工程實(shí)驗(yàn)室（USTC-NELSLIP）在給定說(shuō)話(huà)人邊界的多通道語(yǔ)音識(shí)別兩個(gè)參賽任務(wù)上奪冠。

　　破自己的紀(jì)錄！

　　自2016年以來(lái)，科大訊飛第三次參加這項(xiàng)國(guó)際競(jìng)賽并連續(xù)奪冠，這次的語(yǔ)音識(shí)別錯(cuò)誤率從CHiME-5的46.1%降至30.5%。

喜報(bào)丨科大訊飛包攬CHiME-5全部冠軍
喜報(bào)｜科大訊飛包攬CHiME-4三項(xiàng)冠軍

　　CHiME-6被稱(chēng)為“史上最難的語(yǔ)音識(shí)別任務(wù)”。

　　和CHiME-5相同，CHiME-6比賽使用的語(yǔ)音素材包括多個(gè)生活場(chǎng)景——多人在廚房邊做飯邊聊天、在起居室邊用餐邊聊天、在客廳聊天，帶來(lái)以下四大難點(diǎn)：

大量的語(yǔ)音交疊（Speech Overlap）
遠(yuǎn)場(chǎng)混響和噪聲干擾對(duì)錄音的影響
對(duì)話(huà)風(fēng)格非常自由、近乎隨意
訓(xùn)練數(shù)據(jù)有限

CHiME-6音頻樣本采集于廚房、起居室、客廳等場(chǎng)景的多人對(duì)話(huà)

　　本次比賽的Track1任務(wù)與CHiME-5相同，即在給定說(shuō)話(huà)人邊界的情況下重點(diǎn)考察參賽團(tuán)隊(duì)的多通道信號(hào)處理能力及復(fù)雜場(chǎng)景語(yǔ)音識(shí)別能力。新設(shè)立的Track2任務(wù)要求參賽機(jī)構(gòu)在自動(dòng)說(shuō)話(huà)人分離的基礎(chǔ)上再進(jìn)行語(yǔ)音識(shí)別。

　　2018年的CHiME-5比賽，最優(yōu)的參賽系統(tǒng)語(yǔ)音識(shí)別錯(cuò)誤率仍高達(dá)46.1%，距離實(shí)用仍有較大差距。今年科大訊飛聯(lián)合團(tuán)隊(duì)重點(diǎn)聚焦于Track1，希望進(jìn)一步探索復(fù)雜場(chǎng)景語(yǔ)音識(shí)別實(shí)用化的可能性。

　　通過(guò)團(tuán)隊(duì)的技術(shù)攻關(guān)，將該任務(wù)上的語(yǔ)音識(shí)別錯(cuò)誤率從原來(lái)的46.1%降至30.5%，大幅刷新該項(xiàng)賽事歷史最好成績(jī)，最終在Track1的兩個(gè)子任務(wù)（Track1-RankingA，需使用官方語(yǔ)言模型；Track1-RankingB，不限制語(yǔ)言模型）上均斬獲冠軍。

科大訊飛奪得CHiME-6冠軍（Track1:Ranking A）

科大訊飛奪得CHiME-6冠軍（Track1:Ranking B）

　　同樣的考題，躍升的成績(jī)，靠什么？

　　在遠(yuǎn)場(chǎng)、混響、噪音、聲音疊加、語(yǔ)言風(fēng)格隨意等諸多不確定性的復(fù)雜場(chǎng)景下，得益于多年來(lái)在真實(shí)場(chǎng)景中的技術(shù)積累，科大訊飛聯(lián)合團(tuán)隊(duì)針對(duì)比賽任務(wù)進(jìn)行了一系列技術(shù)創(chuàng)新：

　　在前端信號(hào)處理方面，聯(lián)合團(tuán)隊(duì)提出了基于空間-說(shuō)話(huà)人同步感知的迭代掩碼估計(jì)算法(Spatial-and-Speaker-Aware Iterative Mask Estimation，SSA-IME)，該算法結(jié)合傳統(tǒng)信號(hào)處理和深度學(xué)習(xí)的優(yōu)點(diǎn)，利用空時(shí)多維信息進(jìn)行建模，迭代地從多個(gè)說(shuō)話(huà)人場(chǎng)景中精確捕捉目標(biāo)說(shuō)話(huà)人的信息。該算法不僅有效降低環(huán)境干擾噪聲，而且可以有效消除干擾說(shuō)話(huà)人的語(yǔ)音，從而大幅降低語(yǔ)音識(shí)別的處理難度。

　　在后端聲學(xué)模型上，聯(lián)合團(tuán)隊(duì)提出了基于空間-說(shuō)話(huà)人同步感知的聲學(xué)模型(Spatial-and-Speaker-Aware Acoustic Model，SSA-AM)，通過(guò)在聲學(xué)模型輸入端拼接多維度空間信息和不同說(shuō)話(huà)人信息，使其能自適應(yīng)區(qū)分目標(biāo)說(shuō)話(huà)人和干擾說(shuō)話(huà)人。因此，聲學(xué)模型不僅依賴(lài)前端算法的處理結(jié)果，也能夠自適應(yīng)完成對(duì)目標(biāo)說(shuō)話(huà)人語(yǔ)音特征的提取，大幅提升多人對(duì)話(huà)場(chǎng)景下語(yǔ)音識(shí)別聲學(xué)模型的容錯(cuò)率和魯棒性。

　　語(yǔ)音識(shí)別應(yīng)用場(chǎng)景更有A.I.

　　科大訊飛致力于智能語(yǔ)音技術(shù)的源頭創(chuàng)新及行業(yè)應(yīng)用，并不斷挑戰(zhàn)語(yǔ)音識(shí)別實(shí)際應(yīng)用中的技術(shù)難題。

　　2010年發(fā)布語(yǔ)音云，持續(xù)改善語(yǔ)音輸入、語(yǔ)音交互場(chǎng)景的準(zhǔn)確率。

　　2015年發(fā)布訊飛聽(tīng)見(jiàn)，逐步提升人人對(duì)話(huà)場(chǎng)景的準(zhǔn)確率。

　　本次CHiME-6的研究成果無(wú)疑將進(jìn)一步拓展語(yǔ)音識(shí)別的應(yīng)用空間：

　　促進(jìn)會(huì)議場(chǎng)景語(yǔ)音識(shí)別的實(shí)用化。相比于CHiME-6的比賽環(huán)境，在實(shí)際生活中的遠(yuǎn)距離生活場(chǎng)景中，說(shuō)話(huà)風(fēng)格隨意性減少、語(yǔ)音疊加現(xiàn)象減少、訓(xùn)練數(shù)據(jù)大幅增加，錯(cuò)誤率也會(huì)大幅下降。本次比賽的技術(shù)成果可應(yīng)用于訊飛聽(tīng)見(jiàn)智能會(huì)議系統(tǒng)升級(jí)，進(jìn)一步促進(jìn)會(huì)議場(chǎng)景語(yǔ)音識(shí)別的實(shí)用化。

　　廣泛應(yīng)用于不同的消費(fèi)產(chǎn)品和服務(wù)中。搭載八麥克風(fēng)陣列的訊飛智能錄音筆、能完整記錄會(huì)議內(nèi)容的訊飛智能辦公本、能免切換識(shí)別中英文及23種方言的訊飛輸入法，為廣大用戶(hù)解決不同場(chǎng)景下的語(yǔ)音識(shí)別需求。

　　為全球提供多語(yǔ)種智能語(yǔ)音解決方案。得益于英文識(shí)別領(lǐng)域的深厚功力，科大訊飛正在大力拓展多語(yǔ)種語(yǔ)音識(shí)別方面的技術(shù)研究，有望為全球更多企業(yè)及消費(fèi)者提供優(yōu)質(zhì)的多語(yǔ)種智能語(yǔ)音解決方案。

　　讓機(jī)器能聽(tīng)會(huì)說(shuō)，能理解會(huì)思考，用人工智能建設(shè)美好世界——這是我們的使命。

　　此次CHiME-6再奪冠，在“讓機(jī)器能聽(tīng)”上，我們又邁進(jìn)了一大步。