• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>
    您當(dāng)前的位置是:  首頁 > 資訊 > 文章精選 >
     首頁 > 資訊 > 文章精選 >

    構(gòu)建下一代ASR:語音情感識(shí)別應(yīng)用程序

    2021-09-09 09:29:29   作者:   來源:CTI論壇   評論:0  點(diǎn)擊:


      CTI論壇(ctiforum.com)(編譯/老秦):在2021年冬季出版的《語音技術(shù)》(Speech Technology)中,我討論了語音情感識(shí)別(SER)的潛在使用案例及其增強(qiáng)客戶體驗(yàn)的能力(“語音情感識(shí)別:用戶體驗(yàn)的下一步”)。現(xiàn)在,讓我們繼續(xù)討論SER的挑戰(zhàn),以及如何構(gòu)建下一代SER應(yīng)用程序。
      真實(shí)語音情感數(shù)據(jù)集的可用性有限
      作為一個(gè)領(lǐng)域,SER已有20多年的歷史,但與自動(dòng)語音識(shí)別(ASR)相比,SER相對較新。今天,由于人工智能在該領(lǐng)域的應(yīng)用,ASR已經(jīng)真正起飛。另一方面,SER的速度較慢,因?yàn)榕cASR不同,用于訓(xùn)練AI模型的數(shù)據(jù)相當(dāng)有限。
      傳統(tǒng)的SER數(shù)據(jù)集要么是作用的,要么是誘導(dǎo)的。表演數(shù)據(jù)集是由付費(fèi)演員用特定的情感說出固定的短語創(chuàng)建的。誘導(dǎo)數(shù)據(jù)集比這些稍有改進(jìn),通過讓演講者觀看特定的片段或讓他們想象特定的情況,可以引發(fā)某些情緒。這些數(shù)據(jù)集是稀疏的,我們今天所設(shè)想的那種SER用例需要在交互式對話中進(jìn)行自動(dòng)情感檢測;在這些數(shù)據(jù)集上訓(xùn)練的人工智能模型在現(xiàn)實(shí)世界中不會(huì)很好地工作。在預(yù)定義/有限情緒的語音片段上訓(xùn)練和測試的SER系統(tǒng)將無法在實(shí)際使用中處理自發(fā)語音。
      請注意,約束條件不是真實(shí)世界充滿情感的語音的可用性,而是對數(shù)據(jù)進(jìn)行注釋/標(biāo)記以創(chuàng)建標(biāo)準(zhǔn)化數(shù)據(jù)集。與其他類型的數(shù)據(jù)(例如圖像)相比,標(biāo)記語音的情感內(nèi)容可能更加主觀。這就引出了下一個(gè)問題:語音情感建模。
      情感建模是復(fù)雜的
      語音情感建模,即如何表達(dá)嵌入語音中的情感,既復(fù)雜又關(guān)鍵。傳統(tǒng)的方法之一是將語音情感建模為憤怒、不信任、恐懼、快樂、悲傷或中性的主要類別之一。與基于離散類別的方法相比,機(jī)器學(xué)習(xí)更傾向于基于維度的方法。在前者中,使用了語音的聲學(xué)特征,包括語言和非語言。可以使用聲音(光譜信息、能量)、韻律(語調(diào)、強(qiáng)度、節(jié)奏)等技術(shù)特征的組合來訓(xùn)練SER模型。
      非語言發(fā)聲,如笑、嘆氣、呼吸和猶豫/暫停,包含用于情緒檢測的有用信號(hào)。我們還需要考慮非情緒性條件,這些條件與聲音聽起來如何有關(guān),例如疲勞、感冒、飲酒或其他物質(zhì)。面向消費(fèi)者的SER應(yīng)用必須處理多種語言、跨文化語音模式、遠(yuǎn)場聲學(xué)、說話人識(shí)別、群體動(dòng)力學(xué)、語音轉(zhuǎn)換等問題。
      盡管我們在這里討論的是SER,但任何其他非語音線索(如視覺信息)也可以作為模型的輸入。例如,在某些場景中,音頻和視頻內(nèi)容都可能可用。語音文本本身可以使用自然語言處理(NLP)進(jìn)行分析。除了字面上的解釋,NLP有可能幫助發(fā)現(xiàn)諷刺或幽默。
      所有這些都表明了擁有高質(zhì)量數(shù)據(jù)的重要性。數(shù)據(jù)集的豐富性將決定SER的性能。機(jī)器學(xué)習(xí)技術(shù)在這里扮演著重要角色:
    • 半監(jiān)督學(xué)習(xí)技術(shù)可用于標(biāo)記數(shù)據(jù)。在這里,人類研究人員標(biāo)記一小部分?jǐn)?shù)據(jù),并讓算法標(biāo)記語料庫的其余部分。
    • 這種方法的一個(gè)擴(kuò)展是主動(dòng)學(xué)習(xí),在這種學(xué)習(xí)中,有一個(gè)人在循環(huán)中,以提高自動(dòng)標(biāo)簽的質(zhì)量。在主動(dòng)學(xué)習(xí)中,如果算法對其數(shù)據(jù)分類的可信度較低,它會(huì)將語音數(shù)據(jù)路由到人工注釋器。
    • 合成語音數(shù)據(jù)可使用少量真實(shí)語音生成,可使用生成對抗網(wǎng)絡(luò)(GAN)等技術(shù)使其接近真實(shí)語音質(zhì)量。
    • 轉(zhuǎn)移學(xué)習(xí)是指將知識(shí)從一個(gè)環(huán)境應(yīng)用到另一個(gè)環(huán)境,可能是有用的。示例包括利用成人情緒模型進(jìn)行兒童情緒識(shí)別訓(xùn)練,或使用非語音音頻(如音樂)訓(xùn)練SER模型。
      總之,語音情感識(shí)別是一個(gè)復(fù)雜的領(lǐng)域,包括語言和非語言、上下文甚至視覺的許多活動(dòng)部分。機(jī)器學(xué)習(xí)和人工協(xié)助將在下一代SER應(yīng)用中發(fā)揮重要作用。
      聲明:版權(quán)所有 非合作媒體謝絕轉(zhuǎn)載
      作者:Kashyap Kompella
      原文網(wǎng)址:
      https://www.speechtechmag.com/Articles/Columns/Interact/Building-the-Next-Generation-of-ASR-Speech-Emotion-Recognition-Apps-148837.aspx
     
    【免責(zé)聲明】本文僅代表作者本人觀點(diǎn),與CTI論壇無關(guān)。CTI論壇對文中陳述、觀點(diǎn)判斷保持中立,不對所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔(dān)全部責(zé)任。

    專題

    CTI論壇會(huì)員企業(yè)

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 高州市| 华蓥市| 徐闻县| 霸州市| 邹平县| 平安县| 会泽县| 永顺县| 康保县| 德江县| 榆社县| 淅川县| 丁青县| 景谷| 南阳市| 达孜县| 清水河县| 云安县| 芒康县| 鲁甸县| 车致| 赞皇县| 嘉祥县| 淅川县| 甘南县| 柳河县| 绥化市| 岱山县| 柘荣县| 桐乡市| 瑞丽市| 太康县| 吉木乃县| 壤塘县| 梁山县| 威宁| 玛纳斯县| 桐梓县| 静安区| 中宁县| 桓台县| http://444 http://444 http://444 http://444 http://444 http://444