人類的交互通道有眼耳鼻舌口等器官，他們充當著外在世界信號的“接收器”，將范圍內(nèi)的信號接收并傳遞給“大腦”。在機器世界里，從過去鼠標鍵盤轉(zhuǎn)變成當下的觸控、語音、手勢、視覺等，多模態(tài)人機交互技術(shù)正在彼此融合。

　　目前智能語音具備兼顧老人、兒童以及地方方言的能力，語音與視覺，觸屏，LCD反饋顯示結(jié)合的交互體驗，令交互門檻的不斷降低。國內(nèi)專業(yè)的對話式AI企業(yè)思必馳，結(jié)合全鏈路語音交互技術(shù)及自研計算機視覺技術(shù)推出多模態(tài)交互技術(shù)方案，落地白電、黑電智能終端，滿足用戶智能化需求。

　　01 機器的“眼耳鼻舌口”

　　機器能夠聽懂人類說話，產(chǎn)生對話并提供服務，大大增強了物聯(lián)網(wǎng)設備實際使用價值。越來越多搭載語音交互平臺，能夠?qū)崿F(xiàn)對話的物聯(lián)網(wǎng)設備，從電視、冰箱到家居設備，各種終端不勝枚舉。

　　在實踐過程中發(fā)現(xiàn)，語音交互的物聯(lián)網(wǎng)設備缺乏主動服務的能力，只是換了操作方式，用戶體驗沒有本質(zhì)提升。這種缺乏主動服務的人機關(guān)系怎么改變呢？

　　答案也許是讓機器除了能聽和說之外，還要能看，能感覺，能將五感聯(lián)系到一起進行思考。

　　在智能語音交互發(fā)展的過程中，多模態(tài)交互是一個必經(jīng)階段。擁有各種傳感器的智能設備，除了能聽（耳）會說（嘴），同時還利用攝像頭（眼）觀察、底盤云臺（腳）移動等，從而全面的理解用戶、與用戶進行溝通，從而滿足用戶的需求。

　　這個交互過程模擬了人與人之間的交互方式，使交互更自然、更切合用戶意圖。這一交互方式打破了傳統(tǒng)的鍵盤輸入和智能手機的點觸式交互方式，符合“機器人”類產(chǎn)品的形態(tài)特點和用戶期待，定義了下一代智能產(chǎn)品和人的專屬交互模式。

　　02 三方面加持，深化多模態(tài)交互

　　智能經(jīng)濟時代，人機交互將全面智能化并帶來一系列的深度變革。需要不斷升級產(chǎn)品、內(nèi)容、服務，才能更好地適應用戶在未來智能化終端上的需求和習慣。

　　思必馳作為國內(nèi)專業(yè)的對話式人工智能平臺公司，從信號處理、識別到理解到交互，思必馳擁有全面的智能語音語言技術(shù)。思必馳多模態(tài)交互技術(shù)的應用，主要為以下三個方面：

多模態(tài)VAD

　　根據(jù)視覺和音頻特征，通過多模態(tài)融合的方式識別出說話人的語音內(nèi)容，拒識其他說話人的聲音，從而實現(xiàn)輔助降噪、拒識；

人臉識別&人臉對比

　　人臉識別：人臉關(guān)鍵點、頭部姿態(tài)角、人臉與攝像頭距離角度、性別、年齡、口罩等；

　　人臉對比：首先進行人臉注冊，提取注冊人臉的特征；對需要對比的人臉提取特征，并與注冊的人臉特征進行對比，識別出該人臉是否注冊及其FaceID；

手勢識別

　　當用戶說了一天的話，坐在沙發(fā)上想看個電視卻找不到遙控器換臺，他抬手在面板前，用手勢切換臺；用戶在聽音樂，此時電話來了，他用手勢示意面板將音樂暫停。

　　03 從智能家居，到“多模態(tài)”開花

　　依托智能語音行業(yè)深耕多年的經(jīng)驗及關(guān)鍵技術(shù)優(yōu)勢，結(jié)合全鏈路語音交互技術(shù)及自研計算機視覺技術(shù)，思必馳的多模態(tài)交互技術(shù)方案已經(jīng)落地眾多智能終端產(chǎn)品，滿足用戶智能化需求。

　　智能家居領(lǐng)域，針對空調(diào)、冰箱、爐灶等白電產(chǎn)品，思必馳推出智能白電AI交互解決方案。根據(jù)智能白電的不同組網(wǎng)模式（中控/分布式/單機），思必馳提供正面喚醒、就近喚醒、語義喚醒以及多模態(tài)綜合喚醒方案。

　　黑電領(lǐng)域，智能電視作為「客廳經(jīng)濟」中的核心代表產(chǎn)品，占據(jù)客廳場景最大的流量入口。思必馳為智能電視打造流暢自然的語音入口+輸出，同時背靠DUI平臺，打通了超過300家第三方資源接口，為用戶提供全屋家居控制、交通出行、新聞資訊、生活娛樂等各領(lǐng)域內(nèi)容服務。

　　針對周邊嘈雜干擾大、多人密集同時交互的情況，比如多位用戶在激烈的玩電子游戲、親朋好友聚會等。思必馳多模態(tài)交互技術(shù)方案，根據(jù)視覺和音頻特征，通過多模態(tài)融合VAD分離出說話人的目標語音，拒識其他說話人的聲音，實現(xiàn)輔助降噪、提高聲源定位的精準度，即使說話人在移動狀態(tài)下也不受影響。

　　另外，思必馳多模態(tài)交互技術(shù)方案還可以應用在會議大屏、商場顯示大屏、地鐵購票機等商用帶屏顯示設備中，目前此技術(shù)已在全國多個地區(qū)地鐵的購票設備中落地。

　　隨著思必馳旗下深聰智能第二代AI芯片發(fā)布，思必馳在多模態(tài)方面的演進路線更加明朗。語音、圖像、手勢等交互方式的交融能夠極大程度降低用戶的AI體驗門檻，未來，思必馳將繼續(xù)發(fā)揮優(yōu)勢并持續(xù)打造更多滿足AI應用場景的產(chǎn)品，為智能經(jīng)濟時代提供向上引擎。