摘要:【目的】在傳統(tǒng)統(tǒng)計特征詞算法的基礎(chǔ)上,添加實體特征對10本古代典籍進(jìn)行分類研究?!痉椒ā炕谥С窒蛄繖C(jī)模型,分別采用傳統(tǒng)的TF-IDF、信息增益、卡方檢驗、互信息4種統(tǒng)計量計算特征詞,再加入命名實體這一特征,驗證分類器的分類效果?!窘Y(jié)果】加入實體特征之后分類器的最高精度達(dá)98.7%。在傳統(tǒng)的信息增益、TF-IDF、互信息和卡方檢驗特征計算下的分類精度分別提高12.4%、12.4%、12.3%、22.8%?!揪窒蕖繉嶓w特征遷移到其他文本有一定的局限性,需要重新標(biāo)注識別實體。【結(jié)論】實體可以作為一類特征應(yīng)用到文本分類模型中,具有實際的應(yīng)用推廣價值。
注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社