一级a一级a爱片免费免会员2月|日本成人高清视频A片|国产国产国产国产国产国产国产亚洲|欧美黄片一级aaaaaa|三级片AAA网AAA|国产综合日韩无码xx|中文字幕免费无码|黄色网上看看国外超碰|人人操人人在线观看|无码123区第二区AV天堂

基于多特征融合的垃圾短信識別

摘要:垃圾短信已日益成為影響人們日常生活的嚴重問題,由于短信屬于短文本,長度較短,特征稀疏,尤其是垃圾短信為逃避過濾機制,其結構和內容常常不規(guī)范,所以傳統(tǒng)的文本特征提取方法并不能完全適用于短信分類。從短信的結構及語義兩個角度提取特征項,并建立語義特征詞表,采用基于多特征融合的方法來向量化表示短信文本。針對短信數(shù)據(jù)集中存在的噪聲及數(shù)據(jù)不平衡問題,分別比較了NB、SVM、DT、LR、MLP、RF分類器的性能差別。實驗表明,采用RF分類算法,能有效減弱噪聲干擾及數(shù)據(jù)不平衡性所帶來的影響。通過在CCF2015中國好創(chuàng)意競賽題目“垃圾短信基于文本內容識別”所提供的數(shù)據(jù)集上進行驗證,取得了很好的效果。

關鍵詞:
  • 垃圾短信  
  • 多特征融合  
  • 數(shù)據(jù)不平衡  
  • 隨機森林  
作者:
李潤川; 昝紅英; 申圣亞; 畢銀龍; 張中軍
單位:
鄭州大學信息工程學院; 河南鄭州450000; 鄭州大學互聯(lián)網(wǎng)醫(yī)療與健康服務河南省協(xié)同創(chuàng)新中心; 河南鄭州450000; 鄭州大學產(chǎn)業(yè)技術研究院; 河南鄭州450000; 鄭州大學外語學院; 河南鄭州450000; 周口師范學院計算機科學與技術學院; 河南周口466001
刊名:
山東大學學報·理學版

注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社

山東大學學報·理學版緊跟學術前沿,緊貼讀者,國內刊號為:37-1389/N。堅持指導性與實用性相結合的原則,創(chuàng)辦于1951年,雜志在全國同類期刊中發(fā)行數(shù)量名列前茅。