摘要:傳統(tǒng)的基于詞邊界劃分的中文分詞已經(jīng)難以滿足實際應(yīng)用的需要.通過深入分析詞的內(nèi)部結(jié)構(gòu),提出了一種基于條件隨機場的詞結(jié)構(gòu)分析方法.根據(jù)偽未登錄詞(POOV)組成成分的特點及詞的內(nèi)部子結(jié)構(gòu)表示,提出了詞的結(jié)構(gòu)特征來提高未登錄詞(OOV)的識別率及詞結(jié)構(gòu)的識別性能.從詞的內(nèi)部結(jié)構(gòu)表示形式推導(dǎo)出一般化的詞結(jié)構(gòu)標記集,很好地統(tǒng)一了詞邊界標記和詞內(nèi)部結(jié)構(gòu)標記.它不僅適用于傳統(tǒng)的中文分詞任務(wù)中詞邊界的標注,而且也適用于詞結(jié)構(gòu)分析任務(wù)中詞的內(nèi)部結(jié)構(gòu)的標注.該方法能夠同時分析得到詞的邊界和內(nèi)部結(jié)構(gòu)信息,解決了語料庫之間分詞標準不一致的問題,滿足了應(yīng)用的不同需求.實驗結(jié)果表明,該方法在整體性能和各層次結(jié)構(gòu)的識別上都比現(xiàn)有方法有所提高.
注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社