摘要:提出一種端到端的視聽(tīng)語(yǔ)音識(shí)別算法。在該算法中,通過(guò)具有瓶頸結(jié)構(gòu)的深度信念網(wǎng)絡(luò)(deep belief network,DBN)中引入混合的l1/2范數(shù)和l1范數(shù)構(gòu)建一種稀疏DBN(sparse DBN,SDBN)來(lái)提取稀疏瓶頸特征,從而實(shí)現(xiàn)對(duì)數(shù)據(jù)的特征降維,然后用雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(bidirectional long short-term memory,BLSTM)在時(shí)序上對(duì)特征進(jìn)行模態(tài)處理,之后利用一種注意力機(jī)制將經(jīng)過(guò)模態(tài)處理的唇部視覺(jué)信息和音頻聽(tīng)覺(jué)信息進(jìn)行自動(dòng)對(duì)齊、融合,最后將融合的視聽(tīng)覺(jué)信息通過(guò)一個(gè)附加了Softmax層的BLSTM進(jìn)行分類(lèi)識(shí)別。實(shí)驗(yàn)表明,該算法能有效地識(shí)別視聽(tīng)覺(jué)信息,在同類(lèi)算法中有很好的識(shí)別率和頑健性。
注:因版權(quán)方要求,不能公開(kāi)全文,如需全文,請(qǐng)咨詢雜志社