• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>
    您當(dāng)前的位置是:  首頁(yè) > 資訊 > 國(guó)際 >
     首頁(yè) > 資訊 > 國(guó)際 >

    Facebook發(fā)布高效能完全非監(jiān)督式語(yǔ)音辨識(shí)模型Wav2vec-U

    2021-05-25 15:22:27   作者:   來(lái)源:CTI論壇   評(píng)論:0  點(diǎn)擊:


      Wav2vec-U是FacebookWav2vec語(yǔ)音辨識(shí)模型的非監(jiān)督式版本,完全不需要轉(zhuǎn)錄資料,也不用標(biāo)簽資料訓(xùn)練,效能已經(jīng)與2019年最佳監(jiān)督式語(yǔ)音辨識(shí)模型相當(dāng)
      Facebook發(fā)表最新的語(yǔ)音辨識(shí)技術(shù)Wav2vec-U,這是Wav2vec非監(jiān)督式版本,可以讓研究人員不需要將語(yǔ)音轉(zhuǎn)錄成文字資料,就可以訓(xùn)練模型的方法,Wav2vec-U的效能已經(jīng)可媲美幾年前,使用1,000小時(shí)轉(zhuǎn)錄語(yǔ)音資料訓(xùn)練的監(jiān)督式模型。
      無(wú)論是回答問(wèn)題還是執(zhí)行請(qǐng)求,語(yǔ)音辨識(shí)技術(shù)已經(jīng)被廣泛地應(yīng)用在各種情境,但現(xiàn)今的語(yǔ)音辨識(shí)系統(tǒng),僅對(duì)少數(shù)語(yǔ)言友善,研究人員解釋,這是因?yàn)樾枰罅康霓D(zhuǎn)錄音頻,才能夠訓(xùn)練出高品質(zhì)的語(yǔ)音辨識(shí)系統(tǒng),但是每種語(yǔ)言、方言或是說(shuō)話方式并無(wú)法輕易的取得這樣的資料。
      因此Facebook開(kāi)發(fā)了Wav2vec-U,這是一種不需要轉(zhuǎn)錄資料的語(yǔ)音辨識(shí)系統(tǒng)方法,F(xiàn)acebook已經(jīng)在Swahili和Tatar等語(yǔ)言測(cè)試該模型,由於這些語(yǔ)言缺乏大量帶有標(biāo)簽的訓(xùn)練資料,因此一直沒(méi)有高品質(zhì)的語(yǔ)音辨識(shí)模型。
      Wav2vec-U能純粹從錄制的語(yǔ)音音頻和未配對(duì)的文字中學(xué)習(xí),過(guò)程不需要進(jìn)行任何轉(zhuǎn)錄的工作,與過(guò)去的自動(dòng)語(yǔ)音辨識(shí)系統(tǒng)相比,F(xiàn)acebook采用了一種新方法,能夠從未標(biāo)記的音頻中學(xué)習(xí)語(yǔ)音結(jié)構(gòu),結(jié)合Wav2vec-U和k-平均演算法,就能將語(yǔ)音分割出各個(gè)對(duì)應(yīng)的語(yǔ)音單元,像是把CAT這個(gè)詞分割成/K/、/AE/和/T/。
      為了要學(xué)習(xí)辨識(shí)語(yǔ)音中的單詞,研究人員訓(xùn)練了由生成網(wǎng)絡(luò)(Generator)和判別網(wǎng)絡(luò)(Discriminator)組成的生成對(duì)抗網(wǎng)絡(luò)(GAN),其生成網(wǎng)絡(luò)使用嵌入在自我監(jiān)督表示中的每個(gè)音頻片段,并預(yù)測(cè)和語(yǔ)言中聲音相對(duì)符的音位(Phoneme),目的是要試圖欺騙判別網(wǎng)絡(luò)來(lái)進(jìn)行訓(xùn)練,判別網(wǎng)絡(luò)會(huì)評(píng)估預(yù)測(cè)的音位序列是否逼真。最初生成網(wǎng)絡(luò)產(chǎn)生的結(jié)果很差,但是經(jīng)過(guò)判別網(wǎng)絡(luò)的回饋,生成網(wǎng)絡(luò)產(chǎn)生的結(jié)果會(huì)更加準(zhǔn)確。
      研究人員提到,判別網(wǎng)絡(luò)本身也是一個(gè)神經(jīng)網(wǎng)絡(luò),透過(guò)將生成網(wǎng)絡(luò)的輸出當(dāng)做輸入,以及來(lái)自各種音元化的真實(shí)文本,能訓(xùn)練判別網(wǎng)絡(luò)學(xué)會(huì)區(qū)分由生成網(wǎng)絡(luò)產(chǎn)生的輸出和真實(shí)文本。
      研究人員將Wav2vec-U與其他模型比較,以評(píng)估Wav2vec-U的效能,在TIMIT基準(zhǔn)測(cè)試中,與最佳的非監(jiān)督式方法相比,Wav2vec-U錯(cuò)誤率降低57%,而在更大型的Librispeech基準(zhǔn)測(cè)試中,Wav2vec-U與基準(zhǔn)中歷年最佳效能的監(jiān)督式模型相比(下圖),Wav2vec-U在沒(méi)有任何轉(zhuǎn)錄資料訓(xùn)練下,和2019年使用960小時(shí)轉(zhuǎn)錄資料訓(xùn)練的模型效能不相上下。
      TIMIT和Librispeech都是用來(lái)評(píng)估英文系統(tǒng)的基準(zhǔn)測(cè)試,但英文由於有大量的標(biāo)簽資料集,已經(jīng)存在極佳的語(yǔ)音辨識(shí)技術(shù),而非監(jiān)督式語(yǔ)音辨識(shí),將對(duì)於缺乏標(biāo)簽資料的語(yǔ)言,產(chǎn)生極大的影響。因此研究人員也開(kāi)始在Swahili、Tatar和Kyrgyz等標(biāo)簽資源匱乏的語(yǔ)言中,研究使用Wav2vec-U。
      Facebook提到,Wav2vec-U是他們?cè)谡Z(yǔ)音辨識(shí)、自我監(jiān)督學(xué)習(xí)和非監(jiān)督式機(jī)器翻譯上多年的成果,讓模型僅透過(guò)觀察就可以習(xí)得解決任務(wù)的能力,這項(xiàng)成果將使得語(yǔ)音技術(shù)為更多人所用。
    【免責(zé)聲明】本文僅代表作者本人觀點(diǎn),與CTI論壇無(wú)關(guān)。CTI論壇對(duì)文中陳述、觀點(diǎn)判斷保持中立,不對(duì)所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請(qǐng)讀者僅作參考,并請(qǐng)自行承擔(dān)全部責(zé)任。

    專題

    CTI論壇會(huì)員企業(yè)

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 华亭县| 泉州市| 保定市| 大邑县| 正镶白旗| 定西市| 阿巴嘎旗| 南投市| 靖州| 玛纳斯县| 虹口区| 家居| 涪陵区| 东平县| 黔西| 区。| 漳州市| 高唐县| 富蕴县| 德清县| 扎囊县| 页游| 临桂县| 喀什市| 博湖县| 呼伦贝尔市| 和平县| 锦屏县| 大姚县| 乐都县| 阜宁县| 东阳市| 孟村| 潮州市| 襄汾县| 鄂托克旗| 安图县| 和田市| 莲花县| 女性| 当涂县| http://444 http://444 http://444 http://444 http://444 http://444