一级a一级a爱片免费免会员2月|日本成人高清视频A片|国产国产国产国产国产国产国产亚洲|欧美黄片一级aaaaaa|三级片AAA网AAA|国产综合日韩无码xx|中文字幕免费无码|黄色网上看看国外超碰|人人操人人在线观看|无码123区第二区AV天堂

基于詞向量和EMD距離的短文本聚類

摘要:短文本聚類在數(shù)據挖掘中發(fā)揮著重要的作用,傳統(tǒng)的短文本聚類模型存在維度高、數(shù)據稀疏和缺乏語義信息等問題,針對互聯(lián)網短文本特征稀疏、語義存在奇異性和動態(tài)性而導致的短文本聚類性能較差的問題,提出了一種基于特征詞向量的文本表示和基于特征詞移動距離的短文本聚類算法。首先使用Skip—gram模型(Continuous Skipgram Model)在大規(guī)模語料中韌I練得到表示特征詞語義的詞向量;然后利用歐式距離計算特征詞相似度,引入EMD(Earth Mover,SDistance)來計算短文本間的相似度;最后將其應用到Kmeans聚類算法中實現(xiàn)短文本聚類。在3個數(shù)據集上進行的評測結果表明,效果優(yōu)于傳統(tǒng)的聚類算法。

關鍵詞:
  • 短文本  
  • emd距離  
  • 詞向量  
  • 相似度計算  
  • 聚類  
作者:
黃棟; 徐博; 許侃; 林鴻飛; 楊志豪
單位:
大連理工大學信息檢索研究室; 遼寧大連116023
刊名:
山東大學學報·理學版

注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社

山東大學學報·理學版緊跟學術前沿,緊貼讀者,國內刊號為:37-1389/N。堅持指導性與實用性相結合的原則,創(chuàng)辦于1951年,雜志在全國同類期刊中發(fā)行數(shù)量名列前茅。