摘要:傳統(tǒng)的語音情感識(shí)別方式采用的語音特征具有數(shù)據(jù)量大且無關(guān)特征多的特點(diǎn),因此選擇出與情感相關(guān)的語音特征具有重要意義。通過提出將注意力機(jī)制結(jié)合長短時(shí)記憶網(wǎng)絡(luò)(LongShortTermMemory,LSTM),根據(jù)注意力權(quán)重進(jìn)行特征選擇,在兩個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。結(jié)果發(fā)現(xiàn):(1)基于注意力機(jī)制的LSTM相比于單獨(dú)的LSTM模型,識(shí)別率提高了5.4%,可見此算法有效提高了模型的識(shí)別效果;(2)注意力機(jī)制是一種有效的特征選擇方法。采用注意力機(jī)制選擇出了具有實(shí)際物理意義的聲學(xué)特征子集,此特征集相比于原有公用特征集在降低了維數(shù)的情況下,提高了識(shí)別準(zhǔn)確率;(3)根據(jù)選擇結(jié)果對聲學(xué)特征進(jìn)行分析,發(fā)現(xiàn)有聲片段長度特征、無聲片段長度特征、梅爾倒譜系數(shù)(Mel-FrequencyCepstralCoefficient,MFCC)、F0基頻等特征與情感識(shí)別具有較大相關(guān)性。
注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社