一级a一级a爱片免费免会员2月|日本成人高清视频A片|国产国产国产国产国产国产国产亚洲|欧美黄片一级aaaaaa|三级片AAA网AAA|国产综合日韩无码xx|中文字幕免费无码|黄色网上看看国外超碰|人人操人人在线观看|无码123区第二区AV天堂

面向學術資源的術語區(qū)分能力的測度方法研究

摘要:改進索引術語質量的衡量方法可以有效提高IR系統(tǒng)的檢索效率,但術語的固有屬性易受文檔長度影響,難以全面衡量術語質量。對此,本文從術語內在的區(qū)分性出發(fā),借鑒詞袋模型的基本思想,提出了術語區(qū)分能力(term discriminative capacity,TDC)這一理論及3種不同的計算方法。本文還采集了Web of Science的3個子數據庫中包含4個著錄項的900條記錄作為實驗數據,來實現TDC的大規(guī)模計算,并觀察3種算法在實踐中的差異。經過實驗分析得出,計算術語區(qū)分能力的最佳方法為TDC-T,該算法在多個方面表現穩(wěn)定,且不受DF值的影響,可以作為衡量術語質量的全新指標,記為TDC。但是本研究所選取的A&HCI數據庫的記錄較少,這或許會造成另兩個領域計算結果的失衡。

關鍵詞:
  • 索引術語  
  • 詞袋模型  
  • 術語區(qū)分能力  
  • 術語空間密度  
  • 術語質量評價  
作者:
王昊; 唐慧慧; 張海潮; 張進; 張紫玄
單位:
南京大學信息管理學院; 南京210023; 江蘇省數據工程與知識服務重點實驗室; 南京210023; 威斯康星大學密爾沃基分校信息研究學院; 密爾沃基53201
刊名:
情報學報

注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社

期刊名稱:情報學報

情報學報緊跟學術前沿,緊貼讀者,國內刊號為:11-2257/G3。堅持指導性與實用性相結合的原則,創(chuàng)辦于1982年,雜志在全國同類期刊中發(fā)行數量名列前茅。