摘要:特征選擇是機器學(xué)習(xí)領(lǐng)域的重要課題,基于互信息的特征選擇算法在多個領(lǐng)域得到了廣泛應(yīng)用.但是該類方法忽略了屬性之間的相互作用對決策結(jié)果的影響,無法滿足高維特征數(shù)據(jù)集的分類要求.針對這類問題,提出一種引入鄰域判別指數(shù)的混合式特征選擇算法NDI RF.首先在特征過濾階段,利用鄰域判別指數(shù)作為判決指標(biāo),通過圖論聚類思想去除冗余特征,獲得相關(guān)聯(lián)的代表特征集;然后通過改進隨機森林封裝器的特征分配機制,結(jié)合序列后項搜索策略評估各個特征子集的分類效果;最終通過逐次迭代選擇最高分類準(zhǔn)確率所對應(yīng)的特征子集作為最優(yōu)特征子集.在UCI數(shù)據(jù)集上的實驗結(jié)果表明,NDI RF算法相較于其他特征選擇算法,能夠有效地減少最優(yōu)特征子集的大小,同時保證較高的分類準(zhǔn)確率.
注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社