摘要:流式文檔結(jié)構(gòu)識別對于排版格式自動優(yōu)化和信息提取等具有重要作用?;谝?guī)則的結(jié)構(gòu)識別方法泛化能力較差,而基于機器學習的方法未考慮文檔單元之間的長距離依賴關(guān)系,識別準確率較低。針對該問題,提出一種基于雙向長短期時間記憶(LSTM)網(wǎng)絡(luò)的流式文檔結(jié)構(gòu)識別方法。從文檔單元的格式、內(nèi)容與語義3個方面篩選關(guān)鍵特征,并將文檔結(jié)構(gòu)識別看作序列標注問題,使用雙向LSTM神經(jīng)網(wǎng)絡(luò)構(gòu)建識別模型,以實現(xiàn)對18種邏輯標簽的識別。實驗結(jié)果表明,該方法能夠?qū)ξ臋n結(jié)構(gòu)進行有效識別,其識別效果優(yōu)于方正飛翔軟件。
注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社