一级a一级a爱片免费免会员2月|日本成人高清视频A片|国产国产国产国产国产国产国产亚洲|欧美黄片一级aaaaaa|三级片AAA网AAA|国产综合日韩无码xx|中文字幕免费无码|黄色网上看看国外超碰|人人操人人在线观看|无码123区第二区AV天堂

基于交叉熵與困惑度的LDA-SVM主題研究

摘要:目前對于中文影視劇本的分類主要借助人工經(jīng)驗,具有成本高、效率低等特點.當前沒有針對中文影視劇本主題自動分類的相關研究,本文將對主題提取進行研究,傳統(tǒng)主題生成模型借助于文檔和段落、段落和語句、語句和詞的相似性,而忽略了文本語句與語句之間的相似性.首先,采用ISOMAP方法降低樣本集的向量空間維度;其次,提出交叉熵結合困惑度的算法模型,進而確定LDA需要提取的最優(yōu)主題數(shù)目;最后,通過劇本-主題的方式,利用LDA算法挖掘劇本的隱含主題詞,同時利用SVM對主題詞做出進一步的分類.

關鍵詞:
  • 中文影視劇本  
  • isomap降維  
  • lda  
  • 交叉熵  
  • 困惑度  
  • svm  
作者:
薛佳奇; 楊凡
單位:
西安建筑科技大學信息與控制工程學院; 西安710055; 西安建筑科技大學理學院; 西安710055
刊名:
智能計算機與應用

注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社

期刊名稱:智能計算機與應用

智能計算機與應用雜志緊跟學術前沿,緊貼讀者,國內(nèi)刊號為:23-1573/TN。堅持指導性與實用性相結合的原則,創(chuàng)辦于2011年,雜志在全國同類期刊中發(fā)行數(shù)量名列前茅。