摘要:為有效地分類出多個(gè)熱門主題興趣的作者群體,提出了一種基于綜合特征和最大二元組的文本分類框架,該分類框架針對(duì)DBLP數(shù)據(jù)集.分類框架的核心是構(gòu)建雙邊圖和對(duì)標(biāo)題進(jìn)行準(zhǔn)確分類.第一階段從DBLP數(shù)據(jù)集中提取標(biāo)題,為保證提取的標(biāo)題和主題的正確映射,采用綜合特征進(jìn)行分類,即辨識(shí)特征和語(yǔ)義特征的結(jié)合;第二階段構(gòu)建雙邊圖,生成多個(gè)“主題—作者”的最大二元組聚類,獲得作者集合.與其他類似方法相比,本文的分類框架在準(zhǔn)確率、召回率和F1測(cè)度方面具有更好的優(yōu)勢(shì),能以較高精度識(shí)別出相似熱門主題的最大聚類.
注:因版權(quán)方要求,不能公開(kāi)全文,如需全文,請(qǐng)咨詢雜志社