摘要:針對(duì)采用機(jī)器學(xué)習(xí)方法識(shí)別流式文檔結(jié)構(gòu)時(shí)語(yǔ)料庫(kù)稀少、語(yǔ)料標(biāo)注復(fù)雜的問題,該文在研究文檔的邏輯結(jié)構(gòu)和編輯語(yǔ)義特征的基礎(chǔ)上,確立流式文檔邏輯結(jié)構(gòu)標(biāo)注體系,并提出一種三段式的半自動(dòng)文檔邏輯結(jié)構(gòu)標(biāo)注方法:第一階段通過機(jī)助人工實(shí)現(xiàn)文檔元數(shù)據(jù)的分離式標(biāo)注,第二階段自動(dòng)重建邏輯結(jié)構(gòu),第三階段自動(dòng)填充特征向量。實(shí)驗(yàn)結(jié)果表明,該文提出的文檔邏輯結(jié)構(gòu)標(biāo)注方法能夠節(jié)省人工成本、提高機(jī)器學(xué)習(xí)算法對(duì)文檔結(jié)構(gòu)識(shí)別的準(zhǔn)確率與召回率,F值達(dá)到97.5%。
注:因版權(quán)方要求,不能公開全文,如需全文,請(qǐng)咨詢雜志社