摘要:對(duì)不平衡數(shù)據(jù)進(jìn)行聚類(lèi)分析時(shí),K-means聚類(lèi)方法可能會(huì)錯(cuò)誤地將分布在較小區(qū)域類(lèi)別中的樣本劃分到大區(qū)域類(lèi)別中;譜聚類(lèi)算法,雖然可以有效優(yōu)化數(shù)據(jù)結(jié)構(gòu),并很好地識(shí)別不同形狀的樣本,但卻難以處理大規(guī)模數(shù)據(jù).針對(duì)這些問(wèn)題,提出一種改進(jìn)地標(biāo)點(diǎn)采樣的不平衡數(shù)據(jù)聚類(lèi)算法.該算法首先對(duì)不平衡數(shù)據(jù)進(jìn)行預(yù)聚類(lèi)以獲得初始類(lèi)標(biāo)簽,然后基于數(shù)據(jù)密度對(duì)數(shù)據(jù)進(jìn)行采樣.在此基礎(chǔ)上,通過(guò)對(duì)采樣數(shù)據(jù)執(zhí)行K-means聚類(lèi),并將聚類(lèi)中心作為地標(biāo)點(diǎn),對(duì)數(shù)據(jù)進(jìn)行譜聚類(lèi)分析.實(shí)驗(yàn)結(jié)果顯示,該方法在處理不平衡數(shù)據(jù)時(shí),不僅能夠有效提高樣本的聚類(lèi)準(zhǔn)確率,而且能夠保證聚類(lèi)結(jié)果的穩(wěn)定性和精度.
注:因版權(quán)方要求,不能公開(kāi)全文,如需全文,請(qǐng)咨詢(xún)雜志社
期刊名稱(chēng):太原師范學(xué)院學(xué)報(bào)·社會(huì)科學(xué)版
太原師范學(xué)院學(xué)報(bào)·社會(huì)科學(xué)版由太原師范學(xué)院主辦,太原師范學(xué)院主管的學(xué)術(shù)刊物,國(guó)內(nèi)刊號(hào)為:14-1303/C。創(chuàng)辦于2012年,雙月刊,在全國(guó)同類(lèi)期刊中發(fā)行數(shù)量名列前茅。其主要欄目有:歷史學(xué)研究、文學(xué)研究、語(yǔ)言學(xué)研究、法學(xué)研究、經(jīng)濟(jì)學(xué)研究、教育學(xué)研究等。